让多模态模型学会主动说话：主动交互从训练到评估的完整方案|主动交互|多模态模型|实验|通用

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文，介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复，而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark，MMDuet2 则通过强化学习训练方法实现了 SOTA 性能，无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning

论文链接：https://www.arxiv.org/abs/2512.06810
论文主页：https://github.com/yellow-binary-tree/MMDuet2

ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models

论文链接：https://arxiv.org/abs/2507.09313
论文主页：https://github.com/yellow-binary-tree/ProactiveVideoQA

背景：为什么视频模型需要 "主动交互"

想象这样一个场景：你正在使用一个基于多模态大模型的语音助手指导你做饭；对于大多数已有的多模态大模型，它只能在你提出问题后做出回复。也就是说，你在手忙脚乱地操作厨具的同时，还要一次一次地提问 “现在我该怎么做？”。但更理想的体验是，模型可以在看你操作的时候，不需要你给出指令，就主动提供讲解。

这就是 "主动交互"（Proactive Interaction）要解决的问题。如上图所示，与传统的离线交互（offline，先提供整个视频，然后基于视频内容展开对话）和在线交互（online，用户每次提问后模型回复）不同，主动交互要求模型自主决定何时回复，即能根据视频的进展自主选择合适的时机主动向用户提供信息。

这种能力对很多真实场景至关重要：例如直播管理、智能监控、第一人称视角助手等应用场景都需要模型能够主动、及时地响应视频中的关键事件。下面是 MMDuet2 模型在处理游戏直播时的一个例子：用户在视频开始时提出一个需要关注的事件（屏幕上出现表示游戏中重要事件的大字），每次这个事件发生时，MMDuet2 模型就会及时给出解释。

视频地址：https://mp.weixin.qq.com/s/pGnyUMZmBq0RBD0fAmlQ8A?click_id=36

但目前这个问题仍然没有受到足够的重视；虽然有一些工作训练的多模态大模型声称具备主动交互能力，他们也并没有对这种能力进行定量的评估。这背后反映的问题是：如何评估主动交互能力？如何训练主动交互能力？这两个基础问题一直缺乏系统性的解决方案。ProactiveVideoQA 和发表在 ICLR 2026 上的 MMDuet2 这两篇工作恰好构成了一个完整的方案：前者定义了问题和评估标准，后者提供了训练解决方案并达到了最佳性能。

ProactiveVideoQA：首个主动交互评估基准

ProactiveVideoQA 是首个专门评估视频多模态模型主动交互能力的综合基准测试。它的核心特征有三个：

1.多轮开放式问答：不同于大多数视频问答基准使用选择题，ProactiveVideoQA 要求模型生成多轮、完全开放的文本回复，更接近真实对话场景。

2.多样化的任务和多模态输入：ProactiveVideoQA 涵盖网络视频、第一人称视角、电视剧、监控视频四大类任务，整合文本、视频、语音多种模态，共 1377 个视频、1427 个问题。Benchmark 的数据示例如下图所示，每条数据含有一个问题和一个以上的答案，每个答案对应一个时间片段：

3.提出和回复时间相关的评估指标 PAUC：提出 Proactive Area Under Curve（PAUC）指标，通过绘制 “时间 - 质量” 曲线并计算曲线下面积来评估模型回复的及时性和准确性，而非仅评估文本内容。

PAUC 的计算方式如上图所示：受到人机交互领域中的用户旅程地图（User Journey Map）的启发，我们将模型在每个时间点的累积回复质量分数绘制成折线图，并计算折线下面积与最大可能面积的比值（蓝色面积与黄色面积 + 蓝色面积的比值）：

关于这个指标为什么可以兼顾回复的及时性和准确性，下图有一个直观的几何解释：

MMDuet2：基于强化学习的主动交互训练方法

MMDuet2 是在 ProactiveVideoQA 基准上达到 SOTA 性能的支持主动交互的视频多模态模型。它的主要贡献包括：

1.高质量训练数据：构建了包含 52k 条视频的主动交互对话数据集，根据对话中问题个数的不同分为两种对话类型（1QnA 和 nQnA）。

2.训练和推理框架兼容性：基于 Qwen2.5-VL 模型，每个回复轮次输出回复内容或 "NO REPLY"，无需额外模块或手动调整阈值，与主流训练 / 推理框架完全兼容。

3.多轮强化学习训练：提出基于 GRPO 的 RL 训练方法，通过精心设计的基于 PAUC 指标的复合奖励函数，在无需精确标注最佳回复时间的情况下训练模型生成及时、准确的回复。

主动交互训练数据集的构建

本文提出的主动交互对话数据集的构建流程如下：

1.场景分割与描述：将视频根据 scene 分成多个片段，为每个时间段生成详细的视频 caption。

2.QA 生成：用 LLM 根据所有片段的 caption 生成问题和一组答案（每个片段对应一个答案；如果某个片段中的视频无法回答问题，则认为答案是 "NO REPLY"）。对于每个视频，我们用这种方式可以生成多个问题和多组答案。

3.对话构建：根据每个视频对应的多个问题和多组答案生成两种类型的对话：

1QnA：视频开始时提出一个问题，模型需要在对应的时间段中给出对应的答案
nQnA：视频中多个随机时间点每个时间点提出一个问题；模型需要在问题提出时立刻给出前面已经经过的时间段对应的答案，并在接下来的每个时间段回复对应的答案，直到用户提出下一个问题为止。

纯文本 Chat Template

MMDuet2 使用了如下的 chat template 来表示主动交互的过程：

首先，我们使用自定义的 system prompt 作为一个主动交互对话的开头。这不仅为模型提供了对话规则，还通过不同的 system prompt 来区分主动和离线视频任务。
user 输入一条消息，其中包括来自视频的少量（本文中为 1 或 2 帧）帧和可选的文本输入。
在 assistant 的回合中，模型可以选择生成一些文本内容作为回复，或生成 "NO REPLY" 来表示它不想在这一轮中回复。
随后，user 重新获得发言权并继续输入包含帧和可选的文本的消息。这个循环持续到视频中的所有帧都已被输入完成。

在这个 chat template 中，视频中每个 user 回合或 assistant 回合的时间点可以通过将此回合之前的帧数乘以帧之间的时间间隔来计算得出。例如，在每秒 1 帧的帧采样率下，上图中的对话表示用户在第 2 秒说 "What are the people doing in office?"，模型在第 4 秒回复 "People are working..."，在第 8 秒回复 "A reporter is speaking..."。

MMDuet2 的 SFT 和 RL 两阶段训练

MMDuet2 的训练分为两个阶段。在监督微调（SFT）阶段，模型基于 Qwen2.5-VL 3B 初始化，使用 52k 条主动交互对话数据进行训练，并混合 25k 离线视频 QA 和 25k 条 video captioning 数据以保持通用视频理解能力。为了避免模型产生幻觉，SFT 阶段我们将模型回复的时间点选为每个时间段的末尾，确保相关内容在回复前已经发生。整个 SFT 阶段在 16 张 H800 GPU 上训练 8 小时。

然而，纯监督学习存在明显的局限性：因为我们将模型回复的时间点选在了每个时间段的末尾，这导致模型学会了看到关键信息出现时不立刻回复相关内容而是等这段视频播放完了再说，这造成了一个我们并不想要的回复延迟。另外，由于 SFT 数据中模型输出 "NO REPLY" 的频率远高于输出有实际意义的回复内容的概率，这导致模型在测试时也更倾向于输出 "NO REPLY"。

通过这种方式，模型能够在无需精确时间标注的情况下学习到最优的回复时机。整个 RL 阶段用了 1900 个视频，在 8 张 H800 GPU 上训练 20 小时，最终在 ProactiveVideoQA 基准上达到了 SOTA 性能。

上图中在 ProactiveVideoQA 的 [WEB] [EGO] 子任务上的回复轮数统计显示，RL 训练后模型的回复次数明显提升，解决了 SFT 模型 "回复过少" 的问题。

实验结果

主动交互 benchmark 上的 SOTA 表现

上图中展示了在 StreamingBench Proactive Output 任务上的表现，以及 ProactiveVideoQA benchmark 上的 PAUC 指标和回复重复率。我们的 MMDuet2 模型达到最佳性能且明显降低回复重复率。

和本工作中使用强化学习引导模型学会回复时机判断相比，之前的主动交互模型 VideoLLM-Online 和 MMDuet 通过在每帧后预测代表回复概率的分数，并比较分数是否大于阈值来决定是否在该帧后插入回复。他们的做法的缺点是测试时很难找到合适的阈值，从而导致模型总是不回复或生成大量重复回复。

保持离线视频理解能力

在 Video-MME、MVBench、LongVideoBench 等离线基准上，MMDuet2 的性能与训练前的原模型 Qwen2.5-VL 基本持平，说明 SFT+RL 训练没有损害通用视频理解能力。

训练和推理阶段的帧采样密度影响

帧采样密度是影响主动交互体验的关键因素。本文在 SFT、RL 和推理三个阶段测试了不同的帧采样间距：

SFT 阶段：帧间距设为 1 秒时，模型会坍缩为每轮都输出 "NO REPLY"，因为训练数据中不回复（即输出 "NO REPLY"）的占比过高。因此后续实验中 SFT 使用 2 秒帧间距。
RL 阶段：不同帧间距对性能影响不大。
推理阶段：将帧间距从 2 秒降至 1 秒带来显著性能提升。原因是更高的决策频率让模型能更早（提前 1 秒）感知到合适的回复时机，这对 PAUC 指标（尤其是 ground truth 回复时间段很短时）和用户体验都更有利。

这一发现表明 MMDuet2 在 RL 阶段对不同帧采样策略具有良好的鲁棒性，且在推理时使用更密集的帧采样能显著改善交互体验。

总结与展望

MMDuet2 和 ProactiveVideoQA 共同构建了视频多模态模型主动交互的完整解决方案：