打开网易新闻 查看精彩图片

近日,多模态视频理解领域迎来重磅更新!由复旦大学、上海财经大学、南洋理工大学联合打造的MeViSv2数据集正式发布,并已被顶刊 IEEE TPAMI 录用。

打开网易新闻 查看精彩图片

  • 论文:MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation,TPAMI 2025
  • arXiv 链接:https://arxiv.org/abs/2512.10945
  • 数据集官网:https://henghuiding.com/MeViS/
  • 数据集下载:https://henghuiding.com/MeViS/#dataset
  • 评测平台:https://www.codabench.org/competitions/11420/
  • 单位:复旦大学、上海财经大学、南洋理工大学

作为目前该领域最具有代表性的数据集之一,MeViSv2 围绕复杂动作推理来挑战现有模型的多模态处理能力,其包含2,006个视频、8,171个目标及33,072条文本 / 音频表达,通过新增 15 万秒音频数据实现了向原生多模态的进化。

该数据集不仅全面支持RVOS、RMOT、AVOS以及RMEG四大核心任务,更引入了 “无目标语句” 和 “运动推理” 等机制,旨在挑战模型逻辑推理与鲁棒性的天花板。目前,数据集、代码及评测平台均已开放。

打开网易新闻 查看精彩图片

图 1:MeViS 示例,MeViS 中的表达主要侧重于运动属性,使得仅凭单帧图像无法识别目标对象。最新的 MeViSv2 进一步提供了运动推理和无目标表达式,同时给每一个文本提供了对应的音频记录。

MeViSv1:从 “静态特征识别” 到 “动态运动理解”

指向性视频分割(RVOS)是多模态视频理解的重要方向,近年备受关注。依托自然语言交互的灵活性,RVOS 在具身智能、视频编辑和辅助驾驶等领域展现出广阔的应用前景。然而,在 Refer-YouTube-VOS 和 DAVIS 等早期 RVOS 数据集中,研究人员发现了一个 “隐形缺陷”:目标物体往往具有显而易见的静态属性。模型只需看一眼单帧图像,依靠 “红衣服”、“左边” 等静态线索就能锁定目标,完全忽略了视频作为 “时间序列” 的动态本质。

为了打破这一局限,MeViS(MotionexpressionsVideoSegmentation) 应运而生。其初版 MeViSv1 便确立了探索像素级视频理解的三大核心理念:

  1. 运动优先 (Motion Priority):标注指南强制要求语言表达式必须侧重于描述对象的运动线索(例如:奔跑、飞翔、移动),而非静态特征,迫使模型必须关注视频的时间动态信息。
  2. 复杂场景 (Complex Scenes):视频素材特意选自复杂、多对象的场景,拒绝 “简单背景下的单一个体”,极大提高了辨识难度。
  3. 长时序关联 (Long-term Dependency):MeViS 视频的平均时长为 13.16 秒,目标物体平均持续时间长达 10.88 秒,远超同类数据集(通常仅约 5 秒)。这对模型理解长时许动作以及处理相似物体间的长时许混淆提出了极高要求。

在这一理念下,MeViSv1 提供了超过 28,000 个高质量语句标注,覆盖 2,006 个视频中的 8,171 个物体 。如上图 1 的第一个样例所示,三只鹦鹉外观极度相似,静态特征失效,只有理解了 “The bird flying away” 这一动态描述,模型才能准确定位目标。截至目前,MeViSv1 在 CodaLab 上已吸引全球近千支队伍参加评测、累计 1 万余次提交,并且成功在 CVPR 2024、ECCV 2024、CVPR 2025、ICCV 2025 上举办全球挑战赛,吸引了数百支来自国内外顶尖机构的队伍参赛,这为 MeViSv2 的全面进化奠定了坚实基础。

MeViSv2:迈向更通用的原生多模态视频理解

MeViSv2 在 MeViSv1 的基础上进行了显著的扩展和增强,尤其是在多模态数据方面,旨在提供一个更具挑战性、更贴近真实世界、覆盖多模态全场景的视频理解研究平台。MeViSv2 的整体的设计选择延续了 MeViSv1 数据集的挑战性,同时相比于 MeViSv1,其有三个最大亮点:

1. 模态增加:音频支持

MeViSv2 的一大亮点是首次为全部的 33,072 个文本语句都配对了对应的语音指令。这进一步拓展了多模态支持,同时也标志着 MeViS 已经从视频数据集进化为原生多模态数据集。这些音频数据总时长超过150,000秒,源于几十位不同年龄、性别和背景的真人录制以及先进的 TTS 模型合成,保证了语音数据的多样性、自然性和真实感。

相比于冷冰冰的文本,音频作为人类认知的体现,在日常交互中更加自然、普遍和便捷。它承载着丰富的语义信息,并能捕捉到文本本身无法传达的语调、情感和重音等细微差别。这些特质有助于更精确的目标识别和分割。MeViSv2 中新加入的音频格式不仅支持音频引导视频对象分割,还支持真正的多模态视频理解任务,通过结合文本和音频两者的优势,多模态引用表达在增强视频理解以及支持更自然、直观的交互方面提供了显著的优势和灵活性。

2. 任务更广:四大核心任务

除了音频与分割掩码,MeViSv2 还系统性地补充了精确的物体轨迹标注,使其一跃成为迄今为止规模最大的指向性多目标追踪 (RMOT) 数据集。凭借超过 33,000 条语句和 2,000 个视频的庞大体量,MeViSv2 为 RMOT 提供了远超现有基准的训练数据,是研发下一代高精度多目标追踪模型的理想土壤。

总的来说,在多模态数据的全面加持下,MeViSv2 打破了任务壁垒,仅凭单一数据集即可支持多模态视频理解领域的四大核心任务:

  1. 指向性视频目标分割(RVOS,Referring Video Object Segmentation)
  2. 音频引导视频目标分割(AVOS,Audio-guided Video Object Segmentation)
  3. 指向性多目标追踪(RMOT,Referring Multi-Object Tracking)
  4. 运动指向性语句生成(RMEG,Referring Motion Expression Generation)

这些任务全方位覆盖了图像、音频、分割掩码、边界框以及生成式理解等关键维度,确立了 MeViSv2 作为视频理解领域首个真正全能数据集的地位。

3. 规模增大:更具挑战性的语句类型与数量

打开网易新闻 查看精彩图片

表 1:MeViSv2、MeViSv1 与其他多模态视频分割数据集对比。

MeViSv2 将总表达式数量扩充至 33,072 条,相较于 MeViSv1 新增了 4,502 条极具挑战性的语句。这一扩展绝非简单的数字堆砌,而是专为大模型时代量身定制,精准覆盖了当前 AI 推理能力最核心的两大挑战瓶颈:

  • 运动推理语句 (Motion Reasoning Expressions): 从 “看动作” 到 “懂因果” 这类语句不再直白描述动作,而是通过隐式查询要求模型进行复杂的逻辑推理。如图 2 (a) 所示:面对 “What is causing the cage to shake?” 的提问,模型不能只寻找 “晃动的笼子”,而必须观察视频细节,推断出是笼内那只正在扑腾的鸟(橙色掩码)引发了震动。如图 2 (b) 所示:对于 “The one whose life is being threatened” 这一描述,模型需要理解狮子捕猎斑马的动态关系,才能准确定位到被追逐的斑马,而非捕食者。
  • 无目标语句 (No-Target Expressions):拒绝 “指鹿为马”,为了解决模型在目标不存在时仍强行输出的 “幻觉” 问题,MeViSv2 引入了具有欺骗性的无目标表达 。如图 2 (c) 所示:语句描述 “Moving coins from right pile to left pile”,这看起来是一个非常具体的动作描述。但实际上,视频中的鹦鹉是叼起硬币从左边挪到右边,而非从右到左。如图 (b) 所示:语句询问 “The dog whose life is being threatened”,尽管视频中有激烈的追逐画面,但主角是斑马而非狗。面对这些极具误导性的描述,MeViSv2 要求模型具备 “判伪” 能力,在视频中没有匹配对象时,坚定地输出 “无目标”,从而极大地增强了现实应用中的鲁棒性

打开网易新闻 查看精彩图片

图 2:MeViSv2 中新增的运动推理语句和无目标语句示例。图中标记为橙色的物体为运动推理语句的目标,而无目标语句是具有欺骗性,但不指代任何对象的语句。

LMPM++:大语言模型驱动的时序推理模型

面对 MeViSv2 带来的长时序依赖与复杂逻辑挑战,传统的基于 “关键帧采样” 或 “静态特征匹配” 的方法已显得力不从心。为此,该团队提出了全新的基线方法:Language-guided Motion Perception and Matching (LMPM++)。如图 3 所示,LMPM++ 巧妙地将大语言模型 (LLM) 的推理能力引入了视频理解,通过以下四大技术创新,有效解决了 “看不全”、“理不清” 和 “乱指认” 的三大难题:

打开网易新闻 查看精彩图片

图 3:LMPM++ 模型架构。LMPM++ 采用了以“对象为中心”的 LLM 作为基础,实现了灵活的多模态推理以及复杂的目标指代。

1. 核心架构:以 “对象” 为中心的 LLM

推理为了处理长达 200 帧的视频序列,LMPM++ 摒弃了计算昂贵的逐帧特征输入方式。它首先生成语言引导的查询,检测视频中的潜在对象并将其转化为轻量级的目标嵌入(Object Embeddings)。这些目标嵌入随后被输入到 LLM(Video-LLaMA)中。借助 LLM 强大的上下文建模能力,LMPM++ 能够跨越整个视频时序,捕捉那些稍纵即逝的动作或长周期的行为模式。

2. 原生多模态

统一 Text 与 Audio 接口为了适配 MeViSv2 的多模态特性,LMPM++ 设计了统一的指令格式。通过引入

和 标签以及对应的投影层,模型将文本和音频特征映射到同一语义空间。这意味着,无论是输入 “一只飞走的鸟” 的文本,还是对应的语音指令,LLM 都能以相同的方式理解并执行,真正实现了模态无关的统一感知。

3. 创新损失

时间级对比学习 (Temporal-level Contrastive Loss) 动作的顺序往往决定了语义(例如区分 “先蹲下再起跳” 与 “先起跳再蹲下”)。LMPM++ 引入了时间级对比损失:通过随机打乱目标嵌入的时间顺序作为负样本,强制模型学习正确的时间结构。这一设计极大地增强了模型对复杂动作序列的辨识能力,避免了因时序混乱导致的误判。

4. 自适应输出

解决 “无目标” 幻觉针对 MeViSv2 中的 “无目标语句” 陷阱,LMPM++ 摒弃了传统 RVOS 方法强制输出 Top-1 结果的策略。模型被训练预测目标数量 No,并动态生成对应数量的

Token。当 No=0 时,模型不输出任何掩码。这种自适应输出策略使得 LMPM++ 在面对欺骗性指令时能够 “保持沉默”,从而大幅提升了 N-acc.(无目标准确率)指标。

实验

1.RVOS 任务

打开网易新闻 查看精彩图片

表 2:RVOS 方法在 MeViSv2 上的性能对比。

如表 2 所示,无目标准确率(N-acc.)和目标准确率(T-acc.)两个指标是为 MeViSv2 新增的 “无目标语句” 而设计的新指标。N-acc. 专门用于衡量模型识别 “无目标” 样本的能力,计算方式为正确识别出的 “无目标” 样本占所有实际 “无目标” 样本的比例。而T-acc. 则反映了模型在具备识别负样本能力的同时,是否会误伤真实目标,其计算基于被正确识别为 “有目标” 的样本占所有实际 “有目标” 样本的比例。

结果显示,对于像 ReferFormer 这样仅输出 Top-1(置信度最高)对象掩码的方法而言,多目标和无目标样本构成了更大的挑战。这种局限性源于 Top-1 策略假设视频中必然存在一个单一目标对象,这是 Refer-YouTube-VOS 和 DAVIS17-RVOS 等以往 RVOS 数据集中的默认假设。因此,这类方法本质上无法处理无目标样本,导致 N-acc. 得分极低,甚至为 0。这些结果凸显了 MeViSv2 数据集在评估模型对各种复杂场景的泛化能力方面提出了重大挑战。

相比之下,LMPM++ 展现出了压倒性的优势。凭借大语言模型的逻辑推理能力与自适应输出策略,LMPM++ 不仅在综合指标 J&F 上达到了 43.9% 的新高,刷新了该领域的 SOTA 记录,更实现了对 “幻觉” 的有效抑制,其中 N-acc. 跃升至 45.7% 。这意味着面对近一半的欺骗性指令,模型能够像人类一样判断 “目标不存在” 并拒绝执行。同时,高达 87.4% 的 T-acc. 也证明了模型并非通过简单的 “保守策略” 来换取高分,而是在保障真实目标识别率的前提下,真正具备了在开放世界中所需的逻辑判别能力。

2.RMOT 任务

打开网易新闻 查看精彩图片

表 3:RMOT 方法在 MeViSv2 上的性能对比。

如表 3 所示,在 RMOT(指向性多目标追踪)任务中,LMPM++ 更是确立了绝对的领先地位。从对比表格可以看出,LMPM++ 在不使用额外检测头的基础上,斩获了 38.1% 的 HOTA* 和 28.1% 的 DetA*,相比前代 SOTA 方法 TempRMOT(HOTA* 30.0%),性能提升显著。尤为关键的是,LMPM++ 的 T-acc.(目标准确率)达到了至 87.4%,远超之前的方法(如 TransRMOT 仅为 52.3%),这有力地证明了模型在处理复杂多目标追踪时的精准度,既能 “抓得准” 真实目标,又能保持对干扰项的稳健判断。

3.AVOS 任务

打开网易新闻 查看精彩图片

表 4:AVOS 方法在 MeViSv2 上的性能对比。

表 4 展示了 AVOS(音频引导视频目标分割)方法在 MeViSv2 数据集上的基准测试结果。WNet 和 MUTR 是原生支持音频作为输入的模型,但它们仅分别取得了 16.5% 和 33.6% 的得分,这突显了 MeViS 数据集的难度。MUTR 的 N-acc. 为 0% 而 T-acc. 为 100%,这表明无目标样本的引入显著增加了 MeViS 数据集的挑战性,尤其是对于那些倾向于针对任何给定表达都输出一个目标的模型而言。LMPM++ 在所有指标上都远远超过了之前的模型,体现了该方法优越的多模态处理能力。

4.RMEG 任务

打开网易新闻 查看精彩图片

表 5:RMEG 方法在 MeViSv2 上的性能对比

如表 5 所示,在运动指向性语句生成 (RMEG) 这一极具挑战性的生成任务中,现有模型普遍面临 “表达难” 的困境,即便是表现最好的 VideoLLaMA 2,其 METEOR 和 CIDEr 得分也仅为 15.68 和 27.10 。这表明,虽然引入大语言模型(LLM)相比传统方法(如 GIT, VAST)显著提升了逻辑推理能力,但在生成 “无歧义” 的精准描述方面仍有巨大提升空间。现有模型往往难以捕捉对象动作的细微差别,常犯 “指代不清” 或 “千篇一律” 的错误 ,无法像人类一样精准区分外观相似但动作不同的目标,这为未来多模态大模型的研究指明了 “从泛化描述向精准指代进化” 的新方向。

总结

MeViSv2 上的基准测试结果揭示了现有 SOTA 模型在面对运动推理和无目标表达式时的性能瓶颈。即使是表现最好的方法,在这些新增的挑战性样本上,性能也出现了显著下降。这表明 MeViSv2 成功地捕捉了当前算法的不足,为下一阶段的研究指明了方向。我们期待 MeViSv2 能够激励研究界在以下方面取得突破:

  1. 多模态深度融合: 开发能够直接从原始语音信号中提取时间语义线索,并将其与视频运动信息深度融合的新架构。
  2. 高级因果推理: 提升模型从长时序视频和复杂语言指令中进行因果和逻辑推理的能力,而非仅仅进行模式匹配。
  3. 鲁棒性和泛化性: 增强模型在无目标、多目标、目标相似等复杂场景下的鲁棒性,使其更接近真实世界的应用需求。

MeViSv2 的发布,不仅是一个数据集的更新,更是对整个多模态视频理解领域的一次挑战升级,为未来的相关研究奠定了坚实的基础。