导读


加拿大一家名为“琴鸟”(Lyrebird)创业公司声称,通过分析约一分钟的录音,然后利用语音模仿算法,就可以模仿任何人的语音,还能在声音中加入“感情”因素,让它更生动逼真。

关键字

语音合成、人工智能深度学习

背景

在介绍这项创新技术之前,考虑到有些朋友不了解语音合成技术,同时也为了延续 IntelligentThings一贯传递技术和创新价值的原则。所以,我们还是从语音合成技术的背景谈起。


语音合成技术,简单一点说,就是通过计算机等技术,将文字信息转化为语音信息,然后播放出来。下图就是一款简单的语音合成设备,它能够输出合成的和数字化的语音。


(图片来源于:维基百科)


这项技术有着漫长的历史,最早可以追溯到1779年,Kratzenstein 研制出一种机械式语音合成器。后来,由于电子技术兴起和加入,1939年贝尔实验室H. Dudley 制作出一个电子语音合成器。而近期,又发展到 TTS,即“文本到语音”技术,它结合了芯片、人工智能、软件等技术,将文字转化为语音。


TTS技术的处理流程

(图片来源于:维基百科)


目前,在语音合成领域,不少公司都有所建树,例如国外的微软、朗讯、AT&T;、Elan、TextAloud等,国内的科大讯飞、捷通华声、百度等。


近些年来,伴随着人工智能等前沿技术的发展,语音合成技术,取得了长足的进步,越来越流畅、连贯、自然,丝毫没有任何机械、生涩的感觉。


未来,语音合成技术的发展方向,应该就是让声音达到真人说话水准,并逐渐加入音色、情感方面的合成,使之更具特色,更加个性化。


创新


在语音合成和人工智能等技术兴起的背景下,最近,位于加拿大蒙特利尔的初创公司Lyrebird 宣布成功开发出了一项语音合成新技术,它只需分析几十秒钟的音频录音,就可以利用语音模仿算法,仿造任何人的声音,这是世界上首次。


公司的名字为“Lyrebird”:琴鸟,并不是偶然,是独具匠心的选择。因为,琴鸟这种鸟,能够模仿各种声音,例如喇叭声、气鸣声、伐木声等等。


该公司的核心技术是一个深度学习模型,由蒙特利尔大学MILA实验室所开发。公司三位创始人:Alexandre de Brébisson、Jose Sotelo、Kundan Kumar 都是该校的博士生。


说起这项技术的创新和独特之处,主要有以下三点:


  • 声音独特


开发者可从几千种不同的预定义声音中进行选择,或者根据需求,为应用程序设计独特的声音。


  • 实时生成

通过GPU集群,不到半秒种的时间,就能够生成1000条句子。


  • 控制情感

可以注入不同的情感效果,例如压力、愤怒、同情等等,生成的声音不是机械的,而是富有情感的。


另外,他们还为公司或者个人开发者,提供了一套API(应用程序编程接口)和AI应用,使他们能够开发新的语音合成解决方案。

在lyrebird.ai的网站上,该公司特意展示了特朗普、奥巴马、希拉里等人的合成语音,旨在说明这项技术的准确性和有效性。

应用

这项技术将会带来一些列精彩的应用,例如:私人助手,用于读取著名的音频书籍;各类可联网的语音合成设备,为视觉障碍的残疾人合成语音;另外,它还可以服务于电影动画或者游戏工作室。

 未来

未来团队会有什么计划?他们的API正在开发之中,并且也在扩大他们的测试范围,邀请更多人的参与。

对于这项技术,也许很多朋友都会发出质疑,因为它会引发一些负面的问题:


例如,有人会利用它创造出虚假的数字声音,而听起来又十分逼真,以至于可以欺骗听众,让他们以为是在听真人讲话。这样一来,某些别有用心的坏家伙就可以篡改声音,误导和欺骗他人。

面对这些质疑,该公司团队认为:


通过公开发布这项技术,他们希望每个人都能意识到这种技术的存在,复制他人的语音是有可能的,所以说录音有时候也可能是虚假的,或者说是被人为修改过的。

参考资料


【1】https://lyrebird.ai



需要进行深入咨询和交流的朋友,请联系微信:JohnZh1984


或者点击左下方“阅读原文”,了解并加入

“John的小密圈”。


语音合成新技术,可复制任何人的语音!
Tagged on: