• 做网站18609840880

谷歌AI黑科技曝光:合成语音与真人声音难以区分

发布时间:2018-10-09

据国外媒体报道称,如果按照新的标准来看,人类似乎已经将自己的“声带”正式献给了人工智能。这可并不是笔者在这儿危言耸听,而是谷歌本月开创性地推出了一款名为“Tacotron 2”的全新文字转语音系统,它具有惊人的发音准确性,且实际文本阅读效果几乎同真人声音无法区分。

消息称,“Tacotron 2”其实已经是谷歌的第二代类似技术,它由两个深度神经网络组成。其中一个负责将文本转换为可视化的图谱(通常是PDF格式),然后再将这个生成的这个可视化图谱载入第二个深度神经网络WaveNet(这个神经网络是从DeepMind实验室孵化而来),并将其还原为一个真实的声音。

目前,该系统只进行了英语女声的训练(如要需要它发出男性声音的话,谷歌则需要对其进行重新“培训”)。谷歌的研究人员表示,“Tacotron 2”完全可以准确发音一些非常复杂的单词和人名,并根据标点符号的不同而有所区分,甚至能够完美地讲完一段绕口令。举例来说,“Tacotron2”会默认在读到大写单词的时候加重语气,也能够处理少量的人为打字错误。

同谷歌正在研发的其他核心AI技术不同,“Tacotron 2”不仅仅是某种一直停留在实验室阶段的技术,而是将对公司其他产品起到立竿见影的作用。举例来说,谷歌实际上已经将深度神经网络WaveNet用于在GoogleAssistant中生成更为真实的语音反馈。而一旦这一产品在未来迎来进一步完善后,它显然会对提升谷歌其他产品的用户体验提供更大帮助。

需要指出的是,所谓“语音合成技术”又称文本转语音(TTS)是如今很多移动产品和应用上不可或缺的技术模块,例如语音交互应用、导航、语音控制以及为视力障碍者设计的产品中都需要语音合成技术的支持。在此之前很长一段时间内,语音合成技术都是采用拼接方式,需要记录大量语料才能进行语音合成。这样的方法不仅前期需要处理大量数据,而且一旦说话人有所改变就需要重新记录和处理,所以业界一直在寻找可以实时生成语音的方式。

对此,谷歌旗下DeepMind实验室在2016年就推出了WaveNet深度神经网络,该网络在经过真实语音训练后可以根据文本直接生成音频。在过去12个月中,DeepMind一直在努力大幅度提高模型的速度和质量,用于“生成能够产生比现有技术更好、更逼真的,语音原始音频波形”。

我们的优势

更多+

多年互联网服务经验
大连网站制作团队
中小型企业互联网供应商
服务行业领域超过70个
品牌传播与互联网技术并重

公司介绍

更多+

  网站建设、品牌推广品牌公司:大连新图闻科技有限公司是一家互联网服务提供商, 企业网络服务品牌,也是企业邮箱品牌“盈世”的大连地区代理商。公司成立于2007年, 致力于为企事业单位及个人提供互联网解决方案。公司服务项目包括网站建设、网络营销推广、 宣传册设计、商业摄影、企业邮箱等,帮助客户高速应用互联网技术,提高企业综合竞争能力。

联系我们

更多+
  • 咨询热线

    咨询热线:186-0984-0880

  • 市场部 : 8001@newtwowin.com 业务联系,业务需求请发到此邮箱.

  • QQ咨询

    QQ咨询: 94091176

  • 邮箱

    客服部:xxz@newtwowin.com

  • 地址

    地址:大连市沙河口区西安路罗斯福B座3109

我们的技术

更多+

  在我们的对手消耗大量的时间停留在碎片化的互联网设计或者程序实现的时候,我们已经开始把数 字化品牌建设和网络传播进行了整合。只有通过整体的互联网品牌分析,帮助客户进行互联网品牌 建设,并传播企业品牌,并围绕品牌树立品牌价值,提升企业与用户的互相交流,与用户品牌交互,让 用户能找对的方法去解决问题。传播品牌,激起消费者品牌意识,在这过程中创造价值,这是我们成 功的秘诀,也是我们帮助用户成功的诀窍,更是成就好的品牌的一条直达线。

《中华人民共和国电信与信息服务业业务》工业和信息化部 辽ICP备09023418号-18
版权所有:大连新图闻科技有限公司