团员分享_语音合成TTS技术的最新进展信息汇总_@赵琦

前言：本文是团员赵琦的第一篇分享总结，加油~

一、TTS概念

TTS是Text to Speech的缩写，即“从文本到语音”。它将计算机自己产生的或外部输入的文字信息转变成可以听懂的、流利的语言输出。

二、TTS技术介绍

1、成熟合成技术

主流的实现方法主要有拼接法和参数法，具体详见《AI技术通识系列（6）——语音合成TTS》。

2、最新合成技术

1）波形统计语音合成

概念：谷歌DeepMind首先提出的WaveNet方法，基于深度学习的语音合成模型，不会对语音信号进行参数化，使用神经网络直接在时域预测合成语音波形的每一个采样点。

优势：音质比参数合成系统好，略差于拼接合成，但是比拼接合成系统更稳定。

劣势：由于需要预测每一个采样点，需要很大的运算量，合成时间慢。因此对于实际应用来说，没办法直接用在产品上。

2）端到端语音合成

A）百度Deep Voice 1

概念：百度Deep Voice 1 是一个由深度神经网络建立的文本转语音系统。它不仅能实时运行，同时还能够足够快速的合成音频，因此Deep Voice 1可以应用于媒体和会话接口等交互性应用。通过训练由大量数据和简单特征（音素、重音标注、音素发音时长、基频F0）（注意不是人工定制的数据）创造的深度神经网络，创造一个灵活的高质量实时音频合成系统。

优势：

音频合成速度快，基本做到实时语音合成，相比WaveNet速度快400倍；

采用非常少的特征工程，因此易于应用于不同的数据集；

训练数据集需要20小时，但只需要3-5个小时就能得到很高质量的音频结果。【2】

B）百度Deep Voice 2

优势：

相比Deep Voice 1 ，二代可以合成多说话人；

Deep Voice 2训练数据不需要单一说话者20小时的音频，只需要每个说话者不到半小时的数据就能学会数百种独特的声音，同时还能实现非常高的音频合成质量并几乎完美的保留说话人的身份。【3】

C）百度Deep Voice 3

概念：Deep Voice 3采用一种新颖的用于语义合成的全卷积架构，可以用于非常大规模的录音数据集。

优势：可以在半小时内学习一种声音，总共可以同时“掌握”2500种声音，这将可以应用于很多场景，如有声小说或视频游戏中每个角色都可以有自己独特的声音，这会有效提升用户体验。

D）Google Tacotron

概念：Google推出从文本中直接合成语音的文本转语音系统。

优势：

减少特征工程，只需要输入文本和对应的语音进行训练，其他特征模型自己学习；

各种条件方便添加，例如语种、说话人、情感等；

劣势：

模型复杂，用端到端方式合成语音，虽然省去中间步骤，但模型复杂，不好调试，不好训练。

模型除错难，对于某些文本发音错误，想要纠正时，需要重新准备数据，并进行再次训练，代价陈本高。

人为干预能力差，参数合成法可以人为指定语速、重音、断句、停顿、韵律等信息，进行个性化合成，但端到端很难加入人为控制，很难进行产品化。【4】

E）Google Tacotron 2

概念：Tacotron 2用于直接从文本合成语音的神经网络架构，是在过去研究成果Tacotron和WaveNet上的进一步提升，相比较专业录音水准的MOS值4.58，Tacotron 2取得4.53的MOS值，但无法实时生成语音。

F）Facebook VoiceLoop

概念：VoiceLoop是Facebook提出的一种新的TTS神经网络，它能将文本转换为在室外采样的声音中的语音，且该网络架构比现有的网络架构简单。

附，参考资料：

【1】AI技术通识系列（6）——语音合成TTS

【2】百度Deep Voice作者与Bengio团队切磋五大技术细节，端到端的语音合成还有多远

【3】Deep Voice 2: Multi-Speaker Neural Text-to-Speech

【4】深度学习于语音合成研究

----20190112 团长hanniman补充----

《达摩院语音实验室负责人鄢志杰：智能语音爆发进入倒计时，2019语音AI通过图灵测试》

注：以上内容，来自饭团“AI产品经理大本营”，点击这里可关注：http://fantuan.guokr.net/groups/219/ （如果遇到支付问题，请先关注饭团的官方微信服务号“fantuan-app”）

---------------------

作者：黄钊hanniman，图灵机器人-人才战略官，前腾讯产品经理，5年AI实战经验，8年互联网背景，微信公众号/知乎/在行ID“hanniman”，饭团“AI产品经理大本营”，分享人工智能相关原创干货，200页PPT《人工智能产品经理的新起点》被业内广泛好评，下载量1万+。