AI「看不懂」、「做不好」视频的问题，混元用「MTSS」解决了|163

导读：腾讯混元团队提出了 Multi-Stream Scene Script（MTSS），一种全新的视频描述范式 —— 将传统的 "一段话描述整个视频" 升级为 "多流结构化剧本"，通过 Stream Factorization 和 Relational Grounding 两大核心原则，让视频描述既忠实又可扩展，在视频理解和生成任务中均取得显著提升。

论文标题：Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
论文链接：https://arxiv.org/abs/2604.11244

多分镜、ID 保持、音画同出…… 当视频生成模型开始具备这些核心能力时，一个容易被忽略的瓶颈开始浮出水面：你拿什么来描述一段视频，才能获得更好的效果？

当前主流的做法，是把视觉、听觉、人物、场景、镜头运动等所有信息，全部揉进一段密密麻麻的自然语言段落里 —— 这就是所谓的 Monolithic Caption，我们姑且叫它「流水账」式描述。

这种写法的问题，其实和写剧本一样直观：把演员表、分镜表、音效表全写在一篇散文里，导演没法用，演员看不懂，后期更没法改。

那有没有可能，给视频写一份真正的、更高效的「结构化剧本」？

腾讯混元团队给出的答案是：MTSS——Multi-Stream Scene Script。

「流水账」到底差在哪？

三个绕不开的问题

要理解 MTSS 为什么值得关注，得先看看传统 Monolithic Caption 在实际应用中到底碰到了什么墙。

语义冗余与歧义。同一角色在不同镜头中被反复描述，容易产生不一致的身份引用。一段话里出现三次 "穿西装的男人"，到底是不是同一个人？模型不确定，生成出来也就容易串。
可扩展性差。想改一个局部细节 —— 比如换个镜头运动、加一段音效 —— 可能需要重写整段描述才能保持叙事连贯性。牵一发动全身，效率极低。
对小模型不友好。密集交织的信息增加了认知负担，小参数模型很难从中有效学习。大模型或许还能凑合理解，换成 7B 级别的开源模型，表现就断崖式下跌。

这些不是理论上的困难 —— 当你想要实现多分镜生成、跨镜头身份保持、音画同出时，「流水账」就成了最大的瓶颈。

不写流水账，改写分镜剧本：

「MTSS」怎么设计的？

MTSS 的核心思想非常直观：不写流水账，改写 JSON 格式的分镜头剧本。它的两大核心设计原则：Stream Factorization 与 Relational Grounding。

Stream Factorization：把一段视频拆成四条并行的信息流

MTSS 将复杂的音视频动态剥离开来，变成四个专门的、并行的信息流，并互相引用，实现了对视频信息更本质的表达方式：Reference Stream（资产信息）—— 特征锚点核心；Event Stream（事件信息）—— 发生了什么；Shot Stream（镜头信息）—— 如何呈现；Global Stream（全局信息）—— 全局信息。

Relational Grounding：让四条流 "活" 起来

仅仅分解是不够的 —— 孤立的信息流无法形成连贯的脚本。MTSS 通过 Relational Grounding 在两个维度上重新建立联系：身份锚定实现实体全局引用，时间锚定实现多轨道并行对齐。

这样一来，修改任何一条流中的局部信息（如改变一个角色的台词），不会影响其他流的内容，真正实现了「局部编辑，全局一致」。

与 Monolithic Caption 的效果对比

与传统 Monolithic Caption 相比，MTSS 具备以下核心优势：

符合视频数据本质形式：解耦身份（Who）、事件（What）、呈现（How）等，并彼此精准关联。
全局一致性：全局身份信息统一管理与引用，避免反复的冗余描述带来误差。
易扩展、易理解：从时间和空间对视频进行结构化拆解，降低理解难度，实现局部编辑。
专业剪辑技巧表达：支持 ReactionShot（"说话人 - 听众" 模式）、L-Cut（声音延续）、J-Cut（声音先行）等专业剪辑技巧。

理解与生成两手抓：

MTSS 到底有多能打？

说一千道一万，不如数据说话。针对 MTSS 范式设计的有效性验证，团队在视频理解和视频生成两个赛道上都进行了详尽的实验和评估。

视频理解：格式一换，效果就来

在实验设计上，团队同时评估了 Zero-shot Prompting（直接让模型输出 MTSS 格式）和 Supervised Fine-tuning（在 MTSS 数据上微调）两种使用方式，从而将「格式本身的优势」和「训练带来的优势」进行了有效分离。

遵循 MTSS 范式，Zero-shot Prompting 即可带来普遍提升
MTSS 范式设计显著降低认知负担，使得小模型效果提升更加显著
适当的 SFT 能够释放 MTSS 范式设计的最大潜力
MTSS 对推理的提升幅度远超对描述任务本身的提升
One More Thing：MTSS 作为 "认知脚手架" 缩小模型差距

视频生成：从「理解端的描述格式」到「生成端的控制接口」

随着视频生成模型发展至具备多分镜、ID 注入保持、音画同出等核心能力，如何高效地让视频生成模型具备这些能力，数据表达是最关键变量之一。

为了验证 MTSS 范式对视频生成模型的有效性和高效性，团队以音画同出的开源模型 LTX-2 为基础，进行了适配训练验证。主要改动包括：Shot-Aware Structured Attention（镜头感知结构化注意力）和Identity Customization（身份定制模块）。

效果分析：

多分镜：MTSS 的 Shot 时间戳提供了有效的分镜信号，轻量级的 Attention 模块即可带来强有力的约束。
ID 注入保持：MTSS 的分流设计与跨镜头 Reference Grounding 机制对 ID 注入保持提升显著。
音画同出：MTSS Event Stream 中显式的 “line” 字段和 “description” 字段为音频生成提供了清晰的 "说什么" 和 "怎么说" 的指令，从根本上改变了音频输出的性质，从近乎随机的环境噪声转变为语义正确的对话。

结语：从「流水账」到「剧本时代」

长期以来，视频理解、视频生成领域一直试图让模型通过海量的 "糙数据" 自己去领悟视频规律。然而，MTSS 工作证明了：更接近数据本质的表达范式能释放出远超架构微调的红利。

MTSS 不仅是一种 Caption 数据格式，它更像是一个友好的 "认知脚手架"，帮助人类和模型更轻易地理解视频、生成视频。

虽然我们仍然面临视角剧烈变化时仍有角色身份维持的挑战，但 MTSS 无疑为下一代可控、超长、多镜头联合音视频生成大模型指明了一条极具潜力的数据工程道路。告别 "流水账"，迎接 "剧本时代"，视频大模型正在进入更加专业化的工业级工作流。