小米开源可控音效模型：给视频配音，按你想法来|小米集团|知名企业|编码器|视频配音|音效

“视频音效生成的下一步，需要从‘看画面配声音’走向‘按意图配声音’。”小米大模型应用团队在开源 ControlFoley 模型时，直接点破了当前自动配音工具最让人窝火的局限。给一段无声视频配上脚步声、引擎轰鸣或琴键敲击，技术上已经不算稀奇，但如果你想让爆炸现场突然响起滑稽的弹簧声，或者要求一段打斗画面配上刀剑出鞘的金属颤音而不是闷响——抱歉，大部分模型只懂“看图猜声”，创作者的控制欲在这里往往碰一鼻子灰。

ControlFoley 就是冲着这个失控感来的。它不再满足于“让视频有声音”，而是把控制权交回给创作者，用一个统一框架同时搞定三类任务：文本引导配音（TV2A）、文本强制覆盖画面语义的配音（TC-V2A），以及用参考音频定义音色风格的配音（AC-V2A）。换句话说，你可以用一句文字告诉模型“这里的风声要带点寒意”，甚至扔给它一段你家猫打呼噜的录音，让生成的音效染上那种慵懒的呼吸感——只要你想，声音就得按你的意图来。

要理解 ControlFoley 为什么能在“听清指令”和“跟紧画面”之间找到平衡，得先知道它打底的三个技术组合。
第一，联合视觉编码。团队自训练的时空音视频编码器 CAV-MAE-ST，像个专门为配音任务特训的时间捕手，它不关心画面“是什么”的泛化语义，而是死盯“动作什么时候发生、声音该在哪个帧出现”的时空对齐线索。这一手，直接解决了以往多模态融合时视觉信息一家独大、压死文本指令的老毛病。
第二，时间-音色解耦。参考音频里通常混着“听起来像什么”和“什么时候发生”两种信号，如果生搬硬套，参考音频的节奏会把视频原本的动作同步搅得一塌糊涂。ControlFoley 故意把时间信息剥离掉，只抽取全局音色特征，让参考音频专注管风格，视频依然负责定时敲点。
第三，模态鲁棒训练。实际应用场景中，用户可能只给视频，也可能同时丢入文本和参考音频，输入组合七拼八凑。ControlFoley 通过随机模态 dropout 和统一的表示对齐训练，让模型面对各种缺胳膊少腿的输入都能稳定输出，不是一个只能跑理想工况的“温室特化版”。

真正拿来跑分时，这套设计就显出了杀伤力。在 VGGSound-Test、Kling-Audio-Eval、MovieGen-Audio-Bench 等多个主流基准上，ControlFoley 直接拿下了开源 SOTA，语义对齐、时间同步和声音质量全面胜出。尤其让人注意的是，它跟快手的商业闭源系统 Kling-Foley 正面硬刚时，在几个关键体验指标上反而占了稳定优势。虽然没公布具体数值，但技术报告里画出的频谱图很诚实：乐器演奏场景里，ControlFoley 生成的音频在该对准节奏的点上毫不含糊，高频细节也更完整，不像某些竞品那样或漏掉关键音、或凭空多出一截错位的声效。体育类场景同样如此，脚步声与球的触地瞬间咬合得紧密，而对比算法要么把事件声往后拖，要么索性生成了跟画面场景完全无关的嗡嗡声。

对普通创作者而言，ControlFoley 的开放程度可能是更实在的吸引点。代码、模型权重、技术报告、在线 demo 以及一键调用的 Skill 都已经放了出来，不用折腾环境就能上手体验。如果你受够了那种“只能看画面脸色、却没法表达自己想法”的自动配音工具，现在总算有一个能听懂人话、还愿意听参考音频指挥的开源选项摆在面前了。