团员分享_语音合成技术原理_@HeNg氏

前言：本文是团员HeNg氏的第1篇输出，欢迎有更多的团员们也来分享你的AI干货～

语音合成（test to speech）,简称TTS。将文字转化为语音的一种技术，类似于人类的嘴巴，通过不同的音色说出想表达的内容。

在语音合成技术中，主要分为语言分析部分和声学系统部分，也称为前端部分和后端部分，语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学规格书，想好该怎么读；声学系统部分主要是根据语音分析部分提供的语音学规格书，生成对应的音频，实现发声的功能。

1.语言分析部分

语言分析部分的流程图具体如下，可以简单的描述出语言分析部分主要的工作。

文本结构与语种判断：当需要合成的文本输入后，先要判断是什么语种，例如中文，英文，藏语，维语等，再根据对应语种的语法规则，把整段文字切分为单个的句子，并将切分好的句子传到后面的处理模块。

文本标准化：在输入需要合成的文本中，有阿拉伯数字或字母，需要转化为文字。根据设置好的规则，使合成文本标准化。例如， “请问您是尾号为8967的机主吗？” “8967”为阿拉伯数字，需要转化为汉字“八九六七”，这样便于进行文字标音等后续的工作；再如，对于数字的读法，刚才的“8967“为什么没有转化为”八千九百六十七“呢？因为在文本标准化的规则中，设定了”尾号为+数字“的格式规则，这种情况下数字按照这种方式播报。这就是文本标准化中设置的规则。

文本转音素：在汉语的语音合成中，基本上是以拼音对文字标注的，所以我们需要把文字转化为相对应的拼音，但是有些字是多音字，怎么区分当前是哪个读音，就需要通过分词，词性句法分析，判断当前是哪个读音，并且是几声的音调。

例如，“南京市长江大桥”为“nan2jing1shi4zhang3jiang1da4qiao2”或者“南京市长江大桥”“nan2jing1shi4chang2jiang1da4qiao3“

句读韵律预测：人类在语言表达的时候总是附带着语气与感情，TTS合成的音频是为了模仿真实的人声，所以需要对文本进行韵律预测，什么地方需要停顿，停顿多久，哪个字或者词语需要重读，哪个词需要轻读等，实现声音的高低曲折，抑扬顿挫。

2．声学系统部分

声学系统部分目前主要有三种技术实现方式，分别为：波形拼接，参数合成以及端到端的语音合成技术。

1)波形拼接语音合成

通过前期录制大量的音频，尽可能全的覆盖所有的音节音素，基于统计规则的大语料库拼接成对应的文本音频，所以波形拼接技术通过已有库中的音节进行拼接，实现语音合成的功能。一般此技术需要大量的录音，录音量越大，效果越好，一般做的好的音库，录音量在50小时以上。

优点：音质好，情感真实。

缺点：需要的录音量大，覆盖要求高，字间协同过渡生硬，不平滑，不是很自然。

2) 参数语音合成技术

参数合成技术主要是通过数学方法对已有录音进行频谱特性参数建模，构建文本序列映射到语音特征的映射关系，生成参数合成器。所以当输入一个文本时，先将文本序列映射出对应的音频特征，再通过声学模型（声码器）将音频特征转化为我们听得懂的声音。

优点：录音量小，可多个音色共同训练，字间协同过渡平滑，自然等。

缺点：音质没有波形拼接的好，机械感强，有杂音等。

3) 端到端语音合成技术

端到端语音合成技术是目前比较火的技术，通过神经网络学习的方法，实现直接输入文本或者注音字符，中间为黑盒部分，然后输出合成音频，对复杂的语言分析部分得到了极大的简化。所以端到端的语音合成技术，大大降低了对语言学知识的要求，且可以实现多种语言的语音合成，不再受语言学知识的限制。通过端到端合成的音频，效果得到的进一步的优化，声音更加贴近真人。

优点：对语言学知识要求降低，合成的音频拟人化程度更高，效果好，录音量小。

缺点：性能大大降低，合成的音频不能人为调优。

总结

以上主要是对语音合成技术原理的简单介绍，也是目前语音合成主流应用的技术。当前的技术也再迭代更新，像端到端技术目前比较火的wavenet，Tacotron，Tacotron2以及deepvoice3等技术，有兴趣的可以自己看看，后续也会进行简单的介绍。

-END-

以上内容，来自饭团“AI产品经理大本营”，点击这里可关注：http://fantuan.guokr.net/groups/219/ （如果遇到支付问题，请先关注饭团的官方微信服务号“fantuan-app”）

---------------------

作者：黄钊hanniman，图灵机器人-人才战略官，前腾讯产品经理，7年AI实战经验，10年互联网背景，微信公众号/知乎/在行ID“hanniman”，饭团“AI产品经理大本营”，分享人工智能相关原创干货，200页PPT《人工智能产品经理的新起点》被业内广泛好评，下载量1万+。