微软的新人工智能：3秒钟的样本中模拟出任何人的声音|人工智能|应用程序|微软|样本|维纳

微软研究人员宣布了一项新的应用，该应用使用人工智能来模仿一个人的声音，只需几秒钟的训练。然后声音的模型可以用于文本到语音的应用。研究人员在arXiv网站在线发表的一篇论文中写道，这款名为VALL-E的应用程序可以用来合成高质量的个性化语音，只需将说话者的三秒钟入学录音作为声音提示。

现在有一些程序可以将语音剪切并粘贴到音频流中，而这些语音是由打字的文本转换为说话者的声音。然而，该程序必须经过训练以模仿一个人的声音，这可能需要一个小时或更长时间。"这个模型的一个突出之处在于它在几秒钟内就完成了这个任务。美国纽约消费者技术咨询公司Reticle Research的首席分析师罗斯·鲁宾（Ross Rubin）表示。

据研究人员称，VALL-E在语音自然度和说话人相似度方面都明显优于现有最先进的文本到语音（TTS）系统。此外，VALL-E可以保留说话者的情绪和声学环境。因此，举例来说，如果一个语音样本是通过电话录制的，那么使用该语音的文本听起来就像是通过电话读出来的。

超级令人印象深刻的工具

美国计算机科学家吉亚科莫·米切利（Giacomo Miceli）说，VALL-E比以前的最先进的系统（如2022年初发布的YourTTS）有明显的改进，他是一个网站的创建者，该网站有人工智能生成的、永无止境的讨论，包括Werner Herzog和Slavoj Žižek的合成语音。

VALL-E的有趣之处不仅在于它只需要三秒钟的音频就能克隆出一个声音，而且还在于它能与这个声音、情感音色以及任何背景噪音多么接近。全球市场研究公司IDC的人工智能和自动化集团副总裁里图·乔蒂（Ritu Jyoti）称VALL-E "意义重大，超级令人印象深刻的语音合成工具"。

这比以前的模型有很大的改进，以前的模型需要更长的训练期来产生新的声音。这仍然是这项技术的早期阶段，预计会有更多的改进，使其听起来更像人类。

情感仿真受到质疑

与ChatGPT的创造者OpenAI不同，微软还没有向公众开放VALL-E，因此对其性能仍有疑问。例如，是否有可能导致应用程序产生的语音退化的因素？

生成的音频片段越长，人类听到听起来有点不对劲的东西的几率就越高，在语音合成中，单词可能不清楚，遗漏，或重复。也有可能在不同的情绪区间切换，听起来不自然。

该应用程序模仿说话人的情绪的能力也有怀疑者。美国加利福尼亚州圣何塞的SmartTech研究公司总裁兼首席分析师马克·维纳（Mark N. Vena）说："看看这种能力有多强，将是一件很有趣的事情。鉴于目前人工智能算法的局限性，需要更长的语音样本，他们声称只需几秒钟的音频就能做到这一点，这一点很难令人相信。"

伦理方面的担忧

专家们认为VALL-E的应用是有益的，也有一些不那么有益的。乔蒂（Jyoti）提到了语音编辑和取代语音演员。米切利（Miceli）指出，该技术可用于为播客创建编辑工具，定制智能扬声器的声音，以及被纳入信息传递系统和聊天室、电子游戏，甚至导航系统。硬币的另一面是，一个恶意的用户可以克隆比如说一个政治家的声音，让他们说一些听起来很荒谬或具有煽动性的东西，或者在一般情况下传播虚假信息或宣传。

维纳（Vena）认为，如果这项技术像微软声称的那样好，那么它有巨大的滥用潜力。在金融服务和安全层面，不难想象邪恶的行为者可能会做出真正具有破坏性的事情的用例。

乔蒂（Jyoti）也看到了围绕VALL-E出现的伦理问题。随着技术的进步，VALL-E和类似技术产生的声音将变得更有说服力。"这将为复制潜在受害者认识的真实人物的声音的现实垃圾电话打开大门。政治家和其他公众人物也可能被冒充。可能会有潜在的安全问题，例如，一些银行允许语音密码，这引起了对滥用的担忧。我们可以期待人工智能生成的内容和人工智能检测软件之间的军备竞赛升级，以阻止滥用。需要注意的是，VALL-E目前还不能使用，"Jyoti补充说。"总的来说，对人工智能进行监管是至关重要的。我们得看看微软采取什么措施来规范VALL-E的使用。"

进入律师队伍

围绕该技术还可能出现法律问题。目前可能没有足够的法律工具来直接解决这些问题，相反，涵盖如何滥用技术的大杂烩式的法律可能被用来遏制这种滥用，声音克隆可能导致对真人声音的深度伪造，可能被用来欺骗听众屈服于一个骗局，甚至可能被用来模仿选举候选人的声音。虽然这种滥用可能会引起欺诈、诽谤或选举误导法领域的法律问题，但目前还缺乏具体的人工智能法律来解决该技术本身的使用问题。此外，根据最初的语音样本是如何获得的，如果语音样本是通过电话线等方式获得的，可能会对联邦窃听法和州窃听法产生影响。最后，在有限的情况下，如果这种声音克隆被各国政府行为者用来压制、否定或淡化合法的声音，使其无法行使言论自由权，则可能存在言论自由的问题。"

随着这些技术的成熟，可能需要制定具体的法律来直接处理该技术，并防止其在技术进步和变得更容易获得时被滥用。

进行明智的投资

最近几周，微软一直在做人工智能的头条新闻。预计今年它将把ChatGPT技术纳入其Bing搜索引擎，并可能纳入其Office应用程序。据报道，它还计划向OpenAI投资1000万美元以及现在的VALL-E。据称，微软几年前就加入了OpenAI的行列，所以他们已经在幕后做了很长时间。现在它正以一种大的方式出现。他们不得不追赶以人工智能著称的谷歌，但微软正在采取一些积极的行动，走到了前列。他们正在抓住所有这些东西的流行和令人难以置信的进步。

微软在过去30年左右的时间里一直是生产力方面的领导者，它希望保持和扩大这种领先优势。人工智能可能是实现这一目标的关键。