品玩2月10日讯,据 9to5Mac 报道,Apple三位研究人员与中国人民大学六位学者共同开发新型AI模型VSSFlow,首次在单一系统中实现从无声视频同步生成环境音效与语音对话。该模型采用10层架构,融合视频帧(10fps)与文本转音素序列,通过流匹配技术从噪声重建高质量音频。

研究发现,语音与音效的联合训练不仅未相互干扰,反而产生“互促提升”效应。为实现音画同步输出,团队进一步基于合成混合数据对模型进行微调。

实验表明,VSSFlow在音效与语音任务上均达到业界领先水平。项目代码已开源,模型权重及推理演示亦将陆续开放,旨在推动视频条件音频生成技术发展。

打开网易新闻 查看精彩图片