Apple与中国人民大学联合推出统一音视频生成模型VSSFlow

硅星Breaknews

2026-02-10 11:12 ·上海 ·优质互联网领域创作者

品玩2月10日讯，据 9to5Mac 报道，Apple三位研究人员与中国人民大学六位学者共同开发新型AI模型VSSFlow，首次在单一系统中实现从无声视频同步生成环境音效与语音对话。该模型采用10层架构，融合视频帧（10fps）与文本转音素序列，通过流匹配技术从噪声重建高质量音频。

研究发现，语音与音效的联合训练不仅未相互干扰，反而产生“互促提升”效应。为实现音画同步输出，团队进一步基于合成混合数据对模型进行微调。

实验表明，VSSFlow在音效与语音任务上均达到业界领先水平。项目代码已开源，模型权重及推理演示亦将陆续开放，旨在推动视频条件音频生成技术发展。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴