gptchat写论文怎么用
1. 转到GPTChat网站,创建一个账户。
DeepMind解密WaveNet,如何让机器人自然发声
上个月,Google Assistant英语和日语版终于用上了DeepMind一年前推出的语音合成算法:WaveNet。
从算法研究出来到用在产品里,为什么隔了一年多的时间呢?DeepMind说,WaveNet在去年论文发布的时候还只是个研究用的原型,对于消费类产品来说,它消耗的计算力太多了。
于是,DeepMind用一年时间为这个语音合成算法打造了升级版:并行WaveNet(parallel WaveNet),运行速度比原版快1000倍,语音质量也有所提升。
为了介绍升级版模型的细节,以及让整个系统能够在大规模并行计算环境中运行的概率密度蒸馏(probability density distillation)技术,DeepMind同时还公布了一篇论文:
Parallel WaveNet: Fast High-Fidelity Speech Synthesi
Aaron van den Oord, Yazhe Li, Igor Babuschkin, Karen Simonyan, Oriol Vinyals, Koray Kavukcuoglu
George van den Driessche, Edward Lockhart, Luis C. Cobo, Florian Stimberg, Norman Casagrande, Dominik Grewe, Seb Noury, Sander Dieleman, Erich Elsen, Nal Kalchbrenner, Heiga Zen, Alex Graves, Helen King, Tom Walters, Dan Belov, Demis Hassabi
地址:
原版WaveNet模型用自回归连接来一个样本一个样本地合成声音波形,每一个新样本受前一个样本制约。按照这样的序列生成方法,每秒能够生成24000个样本,要部署到实际产品上还是太慢了。
△原版WaveNet逐个生成波形样本
为了解决这个“太慢了”的问题,就需要一种能够一次生成长序列样本,又不用牺牲质量的方法。DeepMind所用的,就是上面提到的概率密度蒸馏。
概率密度蒸馏法就是用一个经过完全训练的WaveNet模型作为“教师”网络,把自己的能力教给一个“学生”网络——更小、更平行、更适用于现代计算机硬件的神经网络。
学生网络是一个比较小的dilated CNN,和原始WaveNet结构差不多。但二者有一个关键的区别:在学生网络中,每个样本的生成不依赖于任何已生成的样本,这就意味着从第一个词到最后一个词,以及中间的整个句子,我们都可以同时生成出来,如下图所示:
△新WaveNet模型以白噪声为输入,并行合成所有样本
在训练过程中,学生网络从随机状态开始,被输入随机的白噪声,它的任务是里输出一串连续的声音波形。
然后,生成出的声音波形被输入到以训练的原始WaveNet模型(也就是教师网络)中,教师网络给每个样本打分,给出一个信号来让学生理解这个样本和教师网络所要求的输出相差有多远。
这也是一个通过反向传播来对学生网络进行调参的过程,让学生网络学会自己该生成什么样的声音。话句话说,就是教师和学生网络都为每个声音样本的值输出一个可能的概率分布,而训练的目标是最小化二者之间的KL散度(KL divergence)。
这种训练方法和生成对抗网络(GAN)的设计可以平行比较,学生的角色就相当于GAN里的生成器,而教师相当于鉴别器。与GAN不同的是,学生的目标不是“骗过”教师,而是与教师合作,尝试达到与教师差不多的性能。
尽管这种训练效果不错,但我们还是需要再加上一些额外的损失函数,才能让学生达到我们所需要的水平。
我们添加了感知损失(perceptual loss)来防止产生不好的发音,用contrastive loss来进一步消除噪音,用power loss协助匹配人类语音的能量。
这些损失函数都是很有用的,比如说如果不加power loss,模型合成的语音就都是耳语,而不像人类大声说话的声音。
把上述方法都用上,我们训练出的并行WaveNet所合成的语音,就能够达到和原始WaveNet相同的质量,见下表所示的平均意见分(MOS):
MOS这个评分体系,让人类被试用1-5的数字来衡量语音听起来有多自然。特别需要说明的是,真人的语音的MOS评分也只有4.667。
当然,让WaveNet符合实际产品应用所需的速度和质量,需要很多步骤,概率密度蒸馏只是其中之一。
为了将并行WaveNet整合到Google Assistant的服务流中,DeepMind应用团队和Google语音团队都需要付出同样多的工程努力,两个团队共同努力12个月,才能够把WaveNet这项基础研究用到谷歌的大规模产品中。
DeepMind博客文章地址:-fidelity-speech-synthesis-wavenet/
Parallel WaveNet论文:
原版WaveNet论文:
欢迎交流,卫星tctmvip
有什么“看起来简单,实际功能很强大”的软件
以下8款软件都简单易上手,而且功能很强大,你想要的它都有!!
话不多说,快来看看你都认识几款吧~
方方格子是一款十分好用且强大的Excel插件工具箱,它的主要功能是支持扩展Excel程序,帮你更迅速的分析Excel的数据,加快工作效率。
软件拥有文本处理、批量录入、删除工具、合并转换、重复值工具等功能。
伙伴云是免费高效办公神器,它解决了我这段时间写周报、日报的烦。
之前用Excel学了半天的自动编码,在用伙伴云系统设置一次之后就能自动生成,省了大把时间出来!它还有数据大屏、看板视图等功能,帮我可视化呈现数据,在向领导汇报工作时最实用。
总之,利用伙伴云软件,做周报、进行数据分析、做市场调研,甚至团队进行项目管理等,它样样能打,绝对的职场人办公神器~
飞书妙记是一款“音视频转文字”的效率工具,在会议、培训、访谈、课堂等不同场景,将你的音视频内容转录为搜索便捷、重点高亮、互动多样的智能文字笔记。
有了它,再也没有一遍一遍听录音来整理会议纪要啦~
这个软件的好处是你不需要下载软件,在浏览器中打开这个网站,就可以实现文件的互传,而且还不需要注册,所以还是非常不错的。
网站专注于极限压缩。使用方法很简单,只需要点击上传你要压缩的图片,它便开始自动压缩。图片经它压缩后,前后的清晰度几乎一致。这压缩效果,用PS把压缩的图和原图作了对比,两者在尺寸上根本没有变化,唯一有变动的,就是分辨率了。
一个免费的图片格式转换软件,支持JPG、PNG、BMP、ICON、WEBP等格式之间的相互转换,还支持Heic、Raw图片格式的转换,使用也方便,不需要注册登录。打开上传图片就能转换格式,而且还支持批量转换,最多一次可以上传十张图片进行转换。
一个优质Chrome插件扩展,如果你访问不了Chrome应用商店,但是又想使用各种插件的话,就可以在这个网站下载插件安装包,自己进行安装。里面的插件类型挺全面的,基本上都能找的到。下载也方便,点击下载按钮直接就可以保存到本地。
作为设计人员或者是经常对资料管理有严格要求的一定会收藏这个软件。
Eagle 是专为设计师打造的素材收集 / 管理工具,支持 macOS 与 Windows 系统。它可以帮你高效地整理电脑上的图片、照片、海报、网页设计、Sketch 等各种设计素材。
以上,点赞加关注@伙伴云,持续带来更多功能强大软件推荐~