新语音合成技术KAN-TTS公布，更大程度接近原始录音

新语音合成技术KAN

TTS公布，更大程度接近原始录音2021-01-13

新一代语音合成技术KAN-TTS于阿里巴巴近日发布，是由达摩院机器智能实验室自主研发的。阿里巴巴介绍，合成语音与真人发声的相似度被新的语音技术大幅提高，并将语音合成定制成本降低10倍以上。阿里方面还称，当前业界商用系统的合成语音与原始音频录音的接近程度通常在85%到90%之间，而基于KAN-TTS技术的合成语音，可更大程度接近原始录音，将该数据提高到97%以上。

资料显示，此人造语音的技术是通过机械的、电子的方法产生的语音合成。TTS技术（又称文语转换技术）隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。和语音识别相比，语音合成的技术相对说来要成熟一些，并已开始向产业化方向成功迈进。

此次推出的KAN-TTS，由达摩院机器智能实验室自主研发，深度融合了目前主流的端到端TTS技术和传统TTS技术，从多个方面改进了语音合成。传统语音合成定制需要10小时以上的数据录制和标注，对录音人和录音环境要求很高。从启动定制到最终交付，项目周期长成本高。

而现在，阿里利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法，将语音合成定制成本降低10倍以上，周期压缩3倍以上。也就是说，用1小时有效录音数据和不到两个月制作周期，就能完成一次标准TTS定制。此外，这使得普通用户定制“AI声音”的门槛更低，只需手机录音十分钟，就能获得与录制声音高度相似的合成语音。

阿里已经推出的天猫精灵等商用产品，就是在语音合成领域的成果。阿里巴巴人工智能实验室开发的第一款智能语音助手就是天猫精灵，也是其消费级AI产品研发的首批成果。据阿里巴巴A.I. Labs产品与运营总经理杜海涛介绍称，“过去18个月里，我们完成了110亿次的天猫精灵唤醒，回答了用户100亿个问题，并且我们认识了1500万中国人。过去我们的技能增长了120%，同时我们现在已经覆盖了市面上70%以上可连接的家庭设备”。在新语音技术的成功推广下，更多用户将能通过天猫听到更富情感、更加人性化的语音服务了。