理解语音合成，语音合成潜力无限

署名2021-02-11

语音合成技术给我们带来了很多惊喜。你知道你每天都在和他们打交道吗？驾驶时导航是一种语音合成。虽然目前的“他们”只能相对机械地阅读文章，但可以肯定的是，语音合成技术已经走出实验室，开始商业化应用，其潜在的巨大市场已经露出曙光。

我们身边充斥着各种人类的声音，儿童叽叽喳喳，男人和女人互相诉说爱。在肺、气管、声带的共同作用下，声音出现，在喉部肌肉的协调下，我们说出能代表自己思想的声音，然后给他们愤怒或欢乐或悲伤的情绪，从而形成人声。

18世纪末，臭名昭著的发明家沃尔夫冈·冯·肯佩伦（Wolfgang von kempelen）在他生命的最后20年里一直试图模拟人类的声音，他做了一个满是洞的空盒子。空盒子与一个形状奇特的鼓风机相连。当鼓风机被按下时，它会使内置的簧片振动。这个过程模拟了人类的声音，它确实发出了声音，这也是最早的语音合成机器之一。

使语音合成更像人类是无数科学家的梦想。这个梦想从机器的出现、内核的思维和操作、外在表现的言语等多方面得到了提升。

如今，电子设备正在取代空箱，算法比簧片更协调。随着科技的发展，声音的起伏被计算机捕捉、计算和引导，最终产生声音。这项技术带着前人的梦想，不再仅仅出现在电影和小说中，而是将一个巨大的市场带入千家万户，这就是语音合成。

语音合成潜力无限

2011年10月4日，一场名为“让我们谈谈iPhone”的手机会议吸引了全球的目光。在本次发布会上，iPhone4S配备了Siri。从那时起，Siri，一种可以执行人类语音指令并给出语音响应的语音合成语音助手，已经成为所有苹果硬件的标准配置。

同时，Siri的热潮也为语音合成技术的应用打开了大门。

2014年，微软推出了“小娜”和“小冰”，将Siri的语音识别技术和语音合成技术分开。小娜负责理解和执行复杂的口头指令，而小冰则主要能与人友好地聊天。

Siri的热潮不仅仅是语音合成技术在硬件上的应用，更是一系列更富想象力的交互场景，带来了巨大的商机。

在去年新冠病毒流行期间，“居家经济”大行其道，语音合成“听书”市场也迅速爆发。

此外，短视频AI语音合成为视频内容用户节省了大量配音时间；已故名家的语音合成集实现了古今互动，实现了一代粉丝的梦想

可见，语音合成技术的未来有着巨大的想象空间。根据赛迪智库的数据，预计到2021年，智能语音市场规模将达到195亿元。其中，智能语音由语音识别技术（ASR）和语音合成技术（TTS）组成。

这语音识别技术和语音合成技术也正迅速得到各大企业的推广。在市场下，语音合成不仅代表了人类过去的梦想，也代表了一种更加“统一”的技术模式。毕竟，这项技术改变了人与机器的互动，也将改变未来人类机器的使用习惯，代表着一个新的机遇和入口。

语音合成技术一览

1773年，居住在哥本哈根的俄罗斯科学家、生理学教授克里斯蒂安·克拉琴斯坦（Christian kratzenstein）制造了一种特殊装置。通过共鸣管和风琴管的连接，它几乎可以完美地发出a、e、I、O、U五个元音。

十多年后，前面提到的沃尔夫冈·冯·凯佩伦（Wolfgang von kempelen）制造了一台类似的机械声学语音合成机器。随后，许多发明家基于这台机器进行改进，都试图通过物理机器来模拟人类的语音发音。

很难想象这样的尝试。然而，即使这样的物理机器发展到顶峰，它也无法模拟我们所说的每一个音节，无法模拟我们所说的声音的质量，也无法暂停或承载情感。

2017年3月，业界领袖谷歌提出了一种新的端到端语音合成系统：tacotron。端到端语音合成是基于参数合成技术的。将两阶段预测统一为模型预测，即从拼音流直接转换为语音特征流，消除了主观中间特征标注，克服了误差积累，大大提高了语音合成质量。

然而，语音合成系统要实现真正的拟人发音，必须学习语调、重音、节奏等表达因素，而tacotron并没有解决这一问题。

为了解决这一问题，谷歌分享了两篇新论文。第一篇论文介绍了韵律嵌入的概念。在本文中，我们为tacotron增加了一个押韵编码器，它可以捕捉到声音的停顿、语调、速度等特征，并且可以根据完全不同的说话人的声音语音合成。

第二篇论文在前一篇论文的基础上进一步发展，创新性地提出了一种新的潜在语音“因素”建模方法。在这种模式下，是更高水平的口语风格，可以转换成任何不同的短语。

如果实现了本文提出的模型，那么我们就可以使tacotron在不涉及语段的情况下使用特定的说话风格，创造出不同长度、不同情感的句子。

在不久的将来，也许我们会从语音合成中听到人声。

未来语音合成会是怎样的？

基于现在，我们不禁要问，未来的语音合成会是什么样子，会出现在哪里？

从技术上讲，毫无疑问，未来的语音合成将更接近人类语言。理想的语音合成系统由文本分析、韵律生成和语音合成三部分组成。在这三个方面，产业的发展还有待提高。

其中，韵律生成是业界普遍面临的问题。如何让语音合成更人性化？更有表现力？作为一个声学模型，有很多个性化和情感因素需要学习。值得一提的是，语音合成技术的复杂度也需要降低，从而实现更广泛的应用。我们也相信，随着大量语料库的有效利用，这些问题都会迎刃而解。未来，语音合成将更加生动。