理解语音合成,语音合成潜力无限
署名2021-02-11

语音合成技术给我们带来了很多惊喜。你知道你每天都在和他们打交道吗?驾驶时导航是一种语音合成。虽然目前的“他们”只能相对机械地阅读文章,但可以肯定的是,语音合成技术已经走出实验室,开始商业化应用,其潜在的巨大市场已经露出曙光。

image

我们身边充斥着各种人类的声音,儿童叽叽喳喳,男人和女人互相诉说爱。在肺、气管、声带的共同作用下,声音出现,在喉部肌肉的协调下,我们说出能代表自己思想的声音,然后给他们愤怒或欢乐或悲伤的情绪,从而形成人声。

18世纪末,臭名昭著的发明家沃尔夫冈·冯·肯佩伦(Wolfgang von kempelen)在他生命的最后20年里一直试图模拟人类的声音,他做了一个满是洞的空盒子。空盒子与一个形状奇特的鼓风机相连。当鼓风机被按下时,它会使内置的簧片振动。这个过程模拟了人类的声音,它确实发出了声音,这也是最早的语音合成机器之一。

使语音合成更像人类是无数科学家的梦想。这个梦想从机器的出现、内核的思维和操作、外在表现的言语等多方面得到了提升。

如今,电子设备正在取代空箱,算法比簧片更协调。随着科技的发展,声音的起伏被计算机捕捉、计算和引导,最终产生声音。这项技术带着前人的梦想,不再仅仅出现在电影和小说中,而是将一个巨大的市场带入千家万户,这就是语音合成。


语音合成潜力无限

2011年10月4日,一场名为“让我们谈谈iPhone”的手机会议吸引了全球的目光。在本次发布会上,iPhone4S配备了Siri。从那时起,Siri,一种可以执行人类语音指令并给出语音响应的语音合成语音助手,已经成为所有苹果硬件的标准配置。

同时,Siri的热潮也为语音合成技术的应用打开了大门。

2014年,微软推出了“小娜”和“小冰”,将Siri的语音识别技术和语音合成技术分开。小娜负责理解和执行复杂的口头指令,而小冰则主要能与人友好地聊天。

Siri的热潮不仅仅是语音合成技术在硬件上的应用,更是一系列更富想象力的交互场景,带来了巨大的商机。

在去年新冠病毒流行期间,“居家经济”大行其道,语音合成“听书”市场也迅速爆发。

此外,短视频AI语音合成为视频内容用户节省了大量配音时间;已故名家的语音合成集实现了古今互动,实现了一代粉丝的梦想

可见,语音合成技术的未来有着巨大的想象空间。根据赛迪智库的数据,预计到2021年,智能语音市场规模将达到195亿元。其中,智能语音由语音识别技术(ASR)和语音合成技术(TTS)组成。

语音识别技术和语音合成技术也正迅速得到各大企业的推广。在市场下,语音合成不仅代表了人类过去的梦想,也代表了一种更加“统一”的技术模式。毕竟,这项技术改变了人与机器的互动,也将改变未来人类机器的使用习惯,代表着一个新的机遇和入口。


语音合成技术一览


1773年,居住在哥本哈根的俄罗斯科学家、生理学教授克里斯蒂安·克拉琴斯坦(Christian kratzenstein)制造了一种特殊装置。通过共鸣管和风琴管的连接,它几乎可以完美地发出a、e、I、O、U五个元音。

十多年后,前面提到的沃尔夫冈·冯·凯佩伦(Wolfgang von kempelen)制造了一台类似的机械声学语音合成机器。随后,许多发明家基于这台机器进行改进,都试图通过物理机器来模拟人类的语音发音。

很难想象这样的尝试。然而,即使这样的物理机器发展到顶峰,它也无法模拟我们所说的每一个音节,无法模拟我们所说的声音的质量,也无法暂停或承载情感。

2017年3月,业界领袖谷歌提出了一种新的端到端语音合成系统:tacotron。端到端语音合成是基于参数合成技术的。将两阶段预测统一为模型预测,即从拼音流直接转换为语音特征流,消除了主观中间特征标注,克服了误差积累,大大提高了语音合成质量。

然而,语音合成系统要实现真正的拟人发音,必须学习语调、重音、节奏等表达因素,而tacotron并没有解决这一问题。

为了解决这一问题,谷歌分享了两篇新论文。第一篇论文介绍了韵律嵌入的概念。在本文中,我们为tacotron增加了一个押韵编码器,它可以捕捉到声音的停顿、语调、速度等特征,并且可以根据完全不同的说话人的声音语音合成

第二篇论文在前一篇论文的基础上进一步发展,创新性地提出了一种新的潜在语音“因素”建模方法。在这种模式下,是更高水平的口语风格,可以转换成任何不同的短语。

如果实现了本文提出的模型,那么我们就可以使tacotron在不涉及语段的情况下使用特定的说话风格,创造出不同长度、不同情感的句子。

在不久的将来,也许我们会从语音合成中听到人声。


未来语音合成会是怎样的?


基于现在,我们不禁要问,未来的语音合成会是什么样子,会出现在哪里?

从技术上讲,毫无疑问,未来的语音合成将更接近人类语言。理想的语音合成系统由文本分析、韵律生成和语音合成三部分组成。在这三个方面,产业的发展还有待提高。

其中,韵律生成是业界普遍面临的问题。如何让语音合成更人性化?更有表现力?作为一个声学模型,有很多个性化和情感因素需要学习。值得一提的是,语音合成技术的复杂度也需要降低,从而实现更广泛的应用。我们也相信,随着大量语料库的有效利用,这些问题都会迎刃而解。未来,语音合成将更加生动。