Meta语音生成模型：文字描述直接出音频

灰度测试中

2026-05-25 01:02 ·北京

Meta近日发布Audiobox，一款基于自然语言提示的统一音频生成系统。用户只需输入文字描述，即可生成语音、音效和环境音，无需分别使用不同工具。

该系统核心创新在于"流匹配"技术，将语音合成与音频生成整合到同一框架。区别于传统方案需要独立模型处理不同任务，Audiobox通过统一的扩散模型架构，支持语音克隆、音效生成、噪声消除等多种功能。

技术层面，Audiobox采用双阶段训练：先以大规模无监督数据预训练，再用高质量标注数据微调。模型支持零样本语音克隆，用户上传3秒音频样本即可复刻特定声线。

Meta同步开源了研究版本Audiobox-Medium，供学术机构和非商业用途使用。商业应用仍需通过官方API申请。

这一发布延续了Meta在生成式AI领域的开源策略。此前其语音合成模型Voicebox已展示类似能力，Audiobox进一步扩展至通用音频领域，直接竞争ElevenLabs等专注语音合成的创业公司。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴