Meta近日发布Audiobox,一款基于自然语言提示的统一音频生成系统。用户只需输入文字描述,即可生成语音、音效和环境音,无需分别使用不同工具。

该系统核心创新在于"流匹配"技术,将语音合成与音频生成整合到同一框架。区别于传统方案需要独立模型处理不同任务,Audiobox通过统一的扩散模型架构,支持语音克隆、音效生成、噪声消除等多种功能。

打开网易新闻 查看精彩图片

技术层面,Audiobox采用双阶段训练:先以大规模无监督数据预训练,再用高质量标注数据微调。模型支持零样本语音克隆,用户上传3秒音频样本即可复刻特定声线。

打开网易新闻 查看精彩图片

Meta同步开源了研究版本Audiobox-Medium,供学术机构和非商业用途使用。商业应用仍需通过官方API申请。

打开网易新闻 查看精彩图片

这一发布延续了Meta在生成式AI领域的开源策略。此前其语音合成模型Voicebox已展示类似能力,Audiobox进一步扩展至通用音频领域,直接竞争ElevenLabs等专注语音合成的创业公司。