OpenAI最近分享了语音引擎(Voice Engine)的初步预览结果和见解,语音引擎是该公司自2022年以来一直在开发的克隆语音的人工智能模型。语音引擎为OpenAI广受欢迎的ChatGPT模型中的朗读功能提供支持,也可以作为文本到语音的API。

打开网易新闻 查看精彩图片

根据OpenAI的说法,语音引擎工具能够生成一个合成的,但听起来十分自然的声音,仅需要真人15秒的声音剪辑训练。虽然OpenAI已经提供了语音引擎的预览版,但由于担心“潜在的合成语音滥用”,它推迟了公开发布。

预览版旨在展示语音引擎的功能。OpenAI已经与一小群值得信赖的合作伙伴进行了一些“私人”测试。小规模部署使他们能够获得关于应用程序的潜在用例和防止滥用的保障措施的关键见解。

语音引擎的一个主要用例是使用预设的声音为阅读障碍者和儿童提供阅读辅助。教育科技公司Age of Learning正在利用这项技术创建实时、个性化的语音回应,与学生互动。

该技术还可以用于内容翻译,使其能够接触到更广泛的受众。可以将任何视频或音频中的声音翻译成多种语言,从而使内容能够触达全球受众。此外,语音引擎可以保留原始说话者的个性口音,由此生成的任何新语音都将具有相同的口音。

语音引擎还为阅读障碍提供支持,例如患有影响语言的疾病或有特殊教育需求的个人。通过使用语音引擎,这些人可以选择一个真实和一致的声音来代表他们。它有能力帮助患有突发或退化性语言疾病的患者恢复他们的声音。即使是一个简短的声音样本,即使是来自一个老视频,也足以重建一个完整的人工智能声音。

虽然OpenAI强调了几个用例,但它也分享了一些安全问题。小规模的部署使OpenAI能够收集包括政府、媒体、教育和医疗保健在内的多个行业对该技术的反馈。

所有被允许访问语音引擎的可信合作伙伴都同意OpenAI的使用政策,该政策禁止他们使用该技术冒充他人或组织。此外,所有合作伙伴都需要获得原始演讲者的明确和知情同意,他们必须清楚地向听众披露声音是人工智能生成的。然而,这项技术的真正挑战将在它向公众发布时出现。

OpenAI承认该技术可能被滥用,尽管这是一个令人鼓舞的开始,但需要努力将人工智能语音生成带来的风险降至最低。OpenAI计划实施一系列安全措施,包括水印来追踪语音引擎生成的任何音频的来源,以及主动监控该技术的使用情况。

“我们认为,任何合成语音技术的广泛部署都应该伴随着语音认证,以验证原始说话者是否同意将自己的声音添加到服务中,并制定禁止使用的语音列表,以检测和防止创建与知名人物过于相似的声音。”OpenAI在其博客文章中分享道。

打开网易新闻 查看精彩图片

今年是美国大选年,OpenAI承认这种快速发展的技术存在政治风险。上个月,在有人举报接到垃圾电话中听到人工智能克隆的总统拜登的声音,公平贸易委员会禁止了使用人工智能语音的机器人电话。

网络生态系统对人类的影响有据可查。现在有了人工智能语音生成工具,它可能会产生更多问题。这需要更多的研究和资源来改进人工智能检测工具,并需要更广泛的教育工作来提高人工智能时代的数字素养。