打开网易新闻 查看精彩图片

我们前几天预告过OpenAI可能近期会推出语音引擎,没想到今天它就来了

OpenAI即将推出定制语音引擎:语音助手,翻译,生成式音乐一网打尽

OpenAI刚刚宣布了一项关于合成语音技术的初步洞察和测试结果,该技术基于名为Voice Engine的小型模型。Voice Engine能够通过文本输入和仅仅15秒的音频样本生成与原始说话者声音高度相似、充满情感且逼真的自然语言语音。OpenAI于2022年末首次开发出Voice Engine,并已将其应用于其文本转语音API以及ChatGPT语音和朗读功能中的预设语音

鉴于合成语音技术可能被滥用的风险,因此OpenAI目前只对少数可信合作伙伴开放小规模测试,以了解其潜在应用并评估风险,并希望借此引发对合成语音负责任部署的社会对话,探讨如何适应这一新型能力。根据这些对话和小规模测试的结果,OpenAI将决定是否以及如何大规模部署这项技术

Voice Engine初步的应用包括:

  1. 提供阅读辅助:教育科技公司Age of Learning使用Voice Engine为非阅读者和儿童生成预先编写好的、具有丰富情感和更多样化发言者特征的旁白内容。同时结合GPT-4实时创建个性化的互动响应,以满足更广泛受众的需求
  2. 内容翻译:视觉叙事平台HeyGen利用Voice Engine进行视频翻译,使创作者和企业能够在保持原发言人本土口音的情况下,将其内容翻译成多种语言,触及全球观众
  3. 辅助沟通障碍者:替代沟通应用Livox利用Voice Engine为残障人士提供独特的、非机械化的多语言语音选择,使得无言语能力的用户可以选择最能代表自己的声音,并确保多语种用户在每种语言中都能保持一致的声音
  4. 恢复患者声音:美国非营利医疗系统Lifespan下属的Norman Prince神经科学研究所正在探索将Voice Engine用于临床环境,为因肿瘤或神经系统原因导致言语障碍的个体恢复声音。其中一位年轻患者因血管脑瘤而丧失流利讲话能力,借助仅有的15秒学校项目录制视频作为参考音频,成功恢复了她的声音

OpenAI强调,在推广合成语音技术的同时,应配套实施声音认证措施,确保原始说话人知情同意将自己的声音添加到服务中,并建立“禁用声音列表”以检测并防止模仿知名人物声音的行为。

此外,OpenAI鼓励采取一系列措施应对由日益逼真的生成模型带来的挑战,比如逐步淘汰基于语音的身份验证作为银行账户和其他敏感信息的安全访问手段,研究保护个人声音在AI中使用的政策,提高公众对AI技术能力和局限性的认识,以及加速发展和采用追踪视听内容来源的技术等

结语

发布blog:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices