前言:本文是团员赵琦的第一篇分享总结,加油~
一、TTS概念
TTS是Text to Speech的缩写,即“从文本到语音”。它将计算机自己产生的或外部输入的文字信息转变成可以听懂的、流利的语言输出。
二、TTS技术介绍
1、成熟合成技术
主流的实现方法主要有拼接法和参数法,具体详见《AI技术通识系列(6)——语音合成TTS》。
2、最新合成技术
1)波形统计语音合成
概念:谷歌DeepMind首先提出的WaveNet方法,基于深度学习的语音合成模型,不会对语音信号进行参数化,使用神经网络直接在时域预测合成语音波形的每一个采样点。
优势:音质比参数合成系统好,略差于拼接合成,但是比拼接合成系统更稳定。
劣势:由于需要预测每一个采样点,需要很大的运算量,合成时间慢。因此对于实际应用来说,没办法直接用在产品上。
2)端到端语音合成
A)百度Deep Voice 1
概念:百度Deep Voice 1 是一个由深度神经网络建立的文本转语音系统。它不仅能实时运行,同时还能够足够快速的合成音频,因此Deep Voice 1可以应用于媒体和会话接口等交互性应用。通过训练由大量数据和简单特征(音素、重音标注、音素发音时长、基频F0)(注意不是人工定制的数据)创造的深度神经网络,创造一个灵活的高质量实时音频合成系统。
优势 :
B)百度Deep Voice 2
优势:
C)百度Deep Voice 3
概念:Deep Voice 3采用一种新颖的用于语义合成的全卷积架构,可以用于非常大规模的录音数据集。
优势:可以在半小时内学习一种声音,总共可以同时“掌握”2500种声音,这将可以应用于很多场景,如有声小说或视频游戏中每个角色都可以有自己独特的声音,这会有效提升用户体验。
D)Google Tacotron
概念:Google推出从文本中直接合成语音的文本转语音系统。
优势:
劣势:
E)Google Tacotron 2
概念:Tacotron 2用于直接从文本合成语音的神经网络架构,是在过去研究成果Tacotron和WaveNet上的进一步提升,相比较专业录音水准的MOS值4.58,Tacotron 2取得4.53的MOS值,但无法实时生成语音。
F)Facebook VoiceLoop
概念:VoiceLoop是Facebook提出的一种新的TTS神经网络,它能将文本转换为在室外采样的声音中的语音,且该网络架构比现有的网络架构简单。
附,参考资料:
【2】百度Deep Voice作者与Bengio团队切磋五大技术细节,端到端的语音合成还有多远
【3】Deep Voice 2: Multi-Speaker Neural Text-to-Speech
【4】深度学习于语音合成研究
----20190112 团长hanniman补充----
《达摩院语音实验室负责人鄢志杰:智能语音爆发进入倒计时,2019语音AI通过图灵测试》
注:以上内容,来自饭团“AI产品经理大本营”,点击这里可关注:http://fantuan.guokr.net/groups/219/ (如果遇到支付问题,请先关注饭团的官方微信服务号“fantuan-app”)
---------------------
作者:黄钊hanniman,图灵机器人-人才战略官,前腾讯产品经理,5年AI实战经验,8年互联网背景,微信公众号/知乎/在行ID“hanniman”,饭团“AI产品经理大本营”,分享人工智能相关原创干货,200页PPT《人工智能产品经理的新起点》被业内广泛好评,下载量1万+。