“视频音效生成的下一步,需要从‘看画面配声音’走向‘按意图配声音’。”小米大模型应用团队在开源 ControlFoley 模型时,直接点破了当前自动配音工具最让人窝火的局限。给一段无声视频配上脚步声、引擎轰鸣或琴键敲击,技术上已经不算稀奇,但如果你想让爆炸现场突然响起滑稽的弹簧声,或者要求一段打斗画面配上刀剑出鞘的金属颤音而不是闷响——抱歉,大部分模型只懂“看图猜声”,创作者的控制欲在这里往往碰一鼻子灰。

ControlFoley 就是冲着这个失控感来的。它不再满足于“让视频有声音”,而是把控制权交回给创作者,用一个统一框架同时搞定三类任务:文本引导配音(TV2A)、文本强制覆盖画面语义的配音(TC-V2A),以及用参考音频定义音色风格的配音(AC-V2A)。换句话说,你可以用一句文字告诉模型“这里的风声要带点寒意”,甚至扔给它一段你家猫打呼噜的录音,让生成的音效染上那种慵懒的呼吸感——只要你想,声音就得按你的意图来。

打开网易新闻 查看精彩图片

要理解 ControlFoley 为什么能在“听清指令”和“跟紧画面”之间找到平衡,得先知道它打底的三个技术组合。
第一,联合视觉编码。团队自训练的时空音视频编码器 CAV-MAE-ST,像个专门为配音任务特训的时间捕手,它不关心画面“是什么”的泛化语义,而是死盯“动作什么时候发生、声音该在哪个帧出现”的时空对齐线索。这一手,直接解决了以往多模态融合时视觉信息一家独大、压死文本指令的老毛病。
第二,时间-音色解耦。参考音频里通常混着“听起来像什么”和“什么时候发生”两种信号,如果生搬硬套,参考音频的节奏会把视频原本的动作同步搅得一塌糊涂。ControlFoley 故意把时间信息剥离掉,只抽取全局音色特征,让参考音频专注管风格,视频依然负责定时敲点。
第三,模态鲁棒训练。实际应用场景中,用户可能只给视频,也可能同时丢入文本和参考音频,输入组合七拼八凑。ControlFoley 通过随机模态 dropout 和统一的表示对齐训练,让模型面对各种缺胳膊少腿的输入都能稳定输出,不是一个只能跑理想工况的“温室特化版”。

真正拿来跑分时,这套设计就显出了杀伤力。在 VGGSound-Test、Kling-Audio-Eval、MovieGen-Audio-Bench 等多个主流基准上,ControlFoley 直接拿下了开源 SOTA,语义对齐、时间同步和声音质量全面胜出。尤其让人注意的是,它跟快手的商业闭源系统 Kling-Foley 正面硬刚时,在几个关键体验指标上反而占了稳定优势。虽然没公布具体数值,但技术报告里画出的频谱图很诚实:乐器演奏场景里,ControlFoley 生成的音频在该对准节奏的点上毫不含糊,高频细节也更完整,不像某些竞品那样或漏掉关键音、或凭空多出一截错位的声效。体育类场景同样如此,脚步声与球的触地瞬间咬合得紧密,而对比算法要么把事件声往后拖,要么索性生成了跟画面场景完全无关的嗡嗡声。

对普通创作者而言,ControlFoley 的开放程度可能是更实在的吸引点。代码、模型权重、技术报告、在线 demo 以及一键调用的 Skill 都已经放了出来,不用折腾环境就能上手体验。如果你受够了那种“只能看画面脸色、却没法表达自己想法”的自动配音工具,现在总算有一个能听懂人话、还愿意听参考音频指挥的开源选项摆在面前了。