狂新闻要变声了?谷歌新技术Tacotron2,机器语调超自然
编辑时间:2020-07-23 作者:
狂新闻要变声了?谷歌新技术Tacotron2,机器语调超自然

谷歌人工智慧技术再进化,该公司宣布能让机器人说话语调不再生硬,听来和人类难辨真假。

PhoneArena、Quartz、每日邮报报导,谷歌部落格宣称 ,开发出第二代文字转语音系统「Tacotron 2」,能让机器说话声音没有怪异、不自然之处,听来几乎和人类一模一样。机器会依据语意学决定正确发音,文章略有拼写错误、也能顺利读出,而且就连绕口令都难不倒。

谷歌人员表示,外界认为 Tacotron 2 表现类似专业人员。民众给 Tacotron 2 的平均意见分数是 4.53 分,只略低于专业人员录製声音的 4.58 分。

Tacotron 2 包括两个深度类神经网路 ,第一个网路会把文字转成声谱图,用图像表达音频,接着把声谱图输入 WaveNet 系统中,机器会照图发出相应声音。

不过谷歌表示,Tacotron 2 仍有许多地方需要改进,包括无法读出部分难字,无法即时合成音频;机器声音没有情绪,不能传达快乐或悲伤的感觉。

儘管如此,此一技术仍大有可为,目前谷歌虚拟语音助理已用 WaveNet 技术发声,若能进一步採用 Tacotron 2,可让谷歌助理如虎添翼。

CNBC、每日邮报、英国金融时报 2016 年 9 月报导,谷歌母公司 Alphabet 旗下的 DeepMind 研发出新技术,能让电脑合成语音和人类声音的差距减少一半。DeepMind 表示,长久以来,人机互动的梦想就是让人类能和机器对话。

当前的语音合成技术录製人们实际说话的声音,存放在资料库,需要时把字句打散重组,合成为完整句子,此种方式生成的语音听起来生硬不自然,也缺乏感情。

DeepMind 的「WaveNet」技术,能分析原始声波,使用类神经网路加以修正。此种技术需要庞大的运算能力,每秒要 1.6 万个範本才能转成数据、合成为语音。DeepMind 表示,WaveNet 生成的中英文,听起来比谷歌现行技术自然许多。

上一篇: 下一篇: