作者:斯蒂芬·比奇

新的研究警告称,AI生成的“深度伪造”声音现在与真实人类的声音几乎无法区分。

研究表明,普通听众现在已经无法分辨计算机模拟的声音和真实人类的声音。

科学家表示,许多人仍然觉得AI生成的语音听起来“虚假”或不可信,容易和人类声音区分开。

但伦敦玛丽女王大学(QMUL)的研究显示,AI语音技术现在已经达到一个新阶段,能够创建“声音克隆”或深度伪造,听起来和人类录音一样真实。

最近,这项研究发表在期刊 PLOS One 上,比较了真实人声和两种不同类型的合成声音,这些声音是使用最先进的人工智能语音合成工具生成的。

其中一些是从真实人类的语音录音中“克隆”出来的,旨在模仿他们,而另一些则是从大型语音模型生成的,没有特定的人类对应。

研究参与者被要求评估哪些声音听起来最真实,哪些声音听起来最具权威性或可信度。

研究团队还研究了 人工智能生成的声音 是否变得“超真实”,因为一些研究表明,人工智能生成的人脸图像被判断为人类的频率现在高于真实人类面孔的图像。

虽然研究没有发现 AI 声音的“超现实效应”,但确实显示出声音克隆听起来可以和人类声音一样真实,让听众很难区分它们。

两种类型的 AI 生成声音都被认为比人类声音更具主导性,有些声音甚至被认为更值得信赖。

研究的共同负责人、QMUL 心理学的高级讲师 Nadine Lavan 博士说:“现在,AI 生成的声音无处不在。

“我们都和 Alexa 或 Siri 说过话,或者让自动客服系统接听过我们的电话。

“这些声音听起来并不完全像真实的人类声音,但人工智能技术开始产生自然、听起来像人类的语音只是时间问题。

“我们的研究表明,这个时刻终于来了,我们迫切需要理解人们如何感知这些逼真的声音。”

拉万博士指出,团队能够轻松快速地创建克隆,或者说真实声音的深度伪造 - 在声音拥有者的同意下 - 使用市面上可获得的软件。

她说:“这个过程只需要很少的专业知识,只需几分钟的声音录音,几乎不需要花什么钱。”

“这正显示了人工智能语音技术变得多么易于接触和复杂。”

拉万博士表示,这对伦理、版权和安全产生了影响——尤其是在假新闻、欺诈和冒充等领域。

她补充说:“大规模生成逼真声音的能力开启了令人兴奋的机会。”

“在提升无障碍、教育和沟通方面,定制的高质量合成语音可以提升用户体验。”