导读:腾讯混元团队提出了 Multi-Stream Scene Script(MTSS),一种全新的视频描述范式 —— 将传统的 "一段话描述整个视频" 升级为 "多流结构化剧本",通过 Stream Factorization 和 Relational Grounding 两大核心原则,让视频描述既忠实又可扩展,在视频理解和生成任务中均取得显著提升。
- 论文标题:Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
- 论文链接:https://arxiv.org/abs/2604.11244
多分镜、ID 保持、音画同出…… 当视频生成模型开始具备这些核心能力时,一个容易被忽略的瓶颈开始浮出水面:你拿什么来描述一段视频,才能获得更好的效果?
当前主流的做法,是把视觉、听觉、人物、场景、镜头运动等所有信息,全部揉进一段密密麻麻的自然语言段落里 —— 这就是所谓的 Monolithic Caption,我们姑且叫它「流水账」式描述。
这种写法的问题,其实和写剧本一样直观:把演员表、分镜表、音效表全写在一篇散文里,导演没法用,演员看不懂,后期更没法改。
那有没有可能,给视频写一份真正的、更高效的「结构化剧本」?
腾讯混元团队给出的答案是:MTSS——Multi-Stream Scene Script。
「流水账」到底差在哪?
三个绕不开的问题
要理解 MTSS 为什么值得关注,得先看看传统 Monolithic Caption 在实际应用中到底碰到了什么墙。
- 语义冗余与歧义。 同一角色在不同镜头中被反复描述,容易产生不一致的身份引用。一段话里出现三次 "穿西装的男人",到底是不是同一个人?模型不确定,生成出来也就容易串。
- 可扩展性差。 想改一个局部细节 —— 比如换个镜头运动、加一段音效 —— 可能需要重写整段描述才能保持叙事连贯性。牵一发动全身,效率极低。
- 对小模型不友好。 密集交织的信息增加了认知负担,小参数模型很难从中有效学习。大模型或许还能凑合理解,换成 7B 级别的开源模型,表现就断崖式下跌。
这些不是理论上的困难 —— 当你想要实现多分镜生成、跨镜头身份保持、音画同出时,「流水账」就成了最大的瓶颈。
不写流水账,改写分镜剧本:
「MTSS」怎么设计的?
MTSS 的核心思想非常直观:不写流水账,改写 JSON 格式的分镜头剧本。它的两大核心设计原则:Stream Factorization 与 Relational Grounding。
Stream Factorization:把一段视频拆成四条并行的信息流
MTSS 将复杂的音视频动态剥离开来,变成四个专门的、并行的信息流,并互相引用,实现了对视频信息更本质的表达方式:Reference Stream(资产信息)—— 特征锚点核心;Event Stream(事件信息)—— 发生了什么;Shot Stream(镜头信息)—— 如何呈现;Global Stream(全局信息)—— 全局信息。
Relational Grounding:让四条流 "活" 起来
仅仅分解是不够的 —— 孤立的信息流无法形成连贯的脚本。MTSS 通过 Relational Grounding 在两个维度上重新建立联系:身份锚定实现实体全局引用,时间锚定实现多轨道并行对齐。
这样一来,修改任何一条流中的局部信息(如改变一个角色的台词),不会影响其他流的内容,真正实现了「局部编辑,全局一致」。
与 Monolithic Caption 的效果对比
与传统 Monolithic Caption 相比,MTSS 具备以下核心优势:
- 符合视频数据本质形式:解耦 身份(Who)、事件(What)、呈现(How)等,并彼此精准关联。
- 全局一致性:全局身份信息统一管理与引用,避免反复的冗余描述带来误差。
- 易扩展、易理解:从时间和空间对视频进行结构化拆解,降低理解难度,实现局部编辑。
- 专业剪辑技巧表达:支持 ReactionShot("说话人 - 听众" 模式)、L-Cut(声音延续)、J-Cut(声音先行)等专业剪辑技巧。
理解与生成两手抓:
MTSS 到底有多能打?
说一千道一万,不如数据说话。针对 MTSS 范式设计的有效性验证,团队在视频理解和视频生成两个赛道上都进行了详尽的实验和评估。
视频理解:格式一换,效果就来
在实验设计上,团队同时评估了 Zero-shot Prompting(直接让模型输出 MTSS 格式)和 Supervised Fine-tuning(在 MTSS 数据上微调)两种使用方式,从而将「格式本身的优势」和「训练带来的优势」进行了有效分离。
- 遵循 MTSS 范式,Zero-shot Prompting 即可带来普遍提升
- MTSS 范式设计显著降低认知负担,使得小模型效果提升更加显著
- 适当的 SFT 能够释放 MTSS 范式设计的最大潜力
- MTSS 对推理的提升幅度远超对描述任务本身的提升
- One More Thing:MTSS 作为 "认知脚手架" 缩小模型差距
视频生成:从「理解端的描述格式」到「生成端的控制接口」
随着视频生成模型发展至具备多分镜、ID 注入保持、音画同出等核心能力,如何高效地让视频生成模型具备这些能力,数据表达是最关键变量之一。
为了验证 MTSS 范式对视频生成模型的有效性和高效性,团队以音画同出的开源模型 LTX-2 为基础,进行了适配训练验证。主要改动包括:Shot-Aware Structured Attention(镜头感知结构化注意力)和Identity Customization(身份定制模块)。
效果分析:
- 多分镜:MTSS 的 Shot 时间戳提供了有效的分镜信号,轻量级的 Attention 模块即可带来强有力的约束。
- ID 注入保持:MTSS 的分流设计与跨镜头 Reference Grounding 机制对 ID 注入保持 提升显著。
- 音画同出:MTSS Event Stream 中显式的 “line” 字段和 “description” 字段为音频生成提供了清晰的 "说什么" 和 "怎么说" 的指令,从根本上改变了音频输出的性质,从近乎随机的环境噪声转变为语义正确的对话。
结语:从「流水账」到「剧本时代」
长期以来,视频理解、视频生成领域一直试图让模型通过海量的 "糙数据" 自己去领悟视频规律。然而,MTSS 工作证明了:更接近数据本质的表达范式能释放出远超架构微调的红利。
MTSS 不仅是一种 Caption 数据格式,它更像是一个友好的 "认知脚手架",帮助人类和模型更轻易地理解视频、生成视频。
虽然我们仍然面临视角剧烈变化时仍有角色身份维持的挑战,但 MTSS 无疑为下一代可控、超长、多镜头联合音视频生成大模型指明了一条极具潜力的数据工程道路。告别 "流水账",迎接 "剧本时代",视频大模型正在进入更加专业化的工业级工作流。
热门跟贴