免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3956 | 回复: 0

谷歌发布升级版Tacotron 2,打造从文本到人声的完美转换 [复制链接]

论坛徽章:
2
15-16赛季CBA联赛之辽宁
日期:2017-12-11 10:02:3415-16赛季CBA联赛之吉林
日期:2017-12-19 11:36:37
发表于 2017-12-22 14:54 |显示全部楼层
将文本转换为自然语音(TTS)的技术已经研究了十几年。过去几年,TTS 已经取得了巨大进展,一个完整 TTS 的各个单独子系统也都有很大改善。而谷歌通过结合 Tacotron 和 WaveNet 等过去研究工作的思路,其发布的新产品 Tacotron 2 有了进一步提升。谷歌没有使用复杂的语言和声学功能作为输入。相反,谷歌的产品用神经网络生成人声,它仅仅是由语音示例和相应的文本训练得到的。

1.jpg

在《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》这篇论文中,谷歌对新系统有全面的介绍。简而言之,它的工作原理是这样的:谷歌用序列到序列(sequence-to-sequence)模型优化的 TTS,将字母序列映射为音频编码序列的功能。在一段 12.5 毫秒一帧的音频频谱图中,系统不仅能捕捉单词发音,还能获取音量、语速、语调等很多细节。最终,这些特性将经由一个类似 WaveNet 的架构转化为一段 24KHz 的波形。



2.jpg
图丨 Tacotron 2 模型架构详解图,图片下半部分展示了序列对序列模型如何将字母序列映射成音频谱,更多技术细节请参考论文。

用户可以听一下 Tacotron 2 的音频样本,这些样本是谷歌最新 TTS 系统的成果。在一次评估中,谷歌邀请听众对生成语音的自然度进行评级,谷歌获得了能够与专业录音媲美的评分。

虽然谷歌的样本听起来还不错,但仍有一些棘手问题需要解决。比如,系统在复杂单词(比如“decorum”与“merlot”)的发音上有困难。极端情况下,它甚至会随机产生奇怪的噪音。另外,系统还不能实时生成音频。而且,谷歌还不能对生成的语音进行控制,比如让它听起来开心或忧伤。每个问题都是一个有趣的研究课题。


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP