从图像到视频的任意分割：X2SAM让MLLM 真正看懂像素级时空世界|像素|模态

本研究由中山大学、美团联合完成，第一作者王豪为中山大学博士研究生，主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。

如今，多模态大模型已经能够看图、看视频，并回答复杂问题。但如果进一步要求模型「把画面中的某个目标精准分割出来」，问题就变得没有那么简单。例如，用户提出这样一个需求：

这不仅要求模型理解自然语言描述，还需要它在视频的每一帧中持续定位同一个人，并输出准确的像素级轮廓。传统分割模型擅长生成高质量掩码，但通常依赖点、框等明确提示，难以理解复杂自然语言。另一方面，现有多模态分割模型往往只面向图像或视频中的某一类任务，难以用一个统一模型同时处理图像、视频、文本提示和视觉提示。

为了解决这一问题，来自中山大学和美团的研究团队提出了 X2SAM，一个统一的图像与视频分割多模态大模型框架。它希望让模型不仅能「看懂」图像和视频，还能进一步「指出」目标在每个像素上的准确位置。

论文标题：X2SAM: Any Segmentation in Images and Videos
论文链接：https://arxiv.org/abs/2605.00891
项目主页：https://wanghao9610.github.io/X2SAM
项目代码：https://github.com/wanghao9610/X2SAM

一个模型，处理多种分割需求

图 1 X2SAM 模型架构图

X2SAM 的核心目标，是将图像和视频中的多种分割任务纳入同一个框架。X2SAM 由多模态大模型、区域采样模块、Mask Encoder、Mask Decoder 和 Mask Memory 等部分组成。输入图像或视频后，视觉编码器首先提取视觉特征；多模态大模型负责理解用户的文本指令、视觉提示以及上下文信息，并将这些语义信息转化为可用于分割的目标表示。随后，Mask Encoder 提取用于分割的视觉特征，Mask Decoder 根据目标表示和视觉特征生成像素级掩码。对于视频输入，Mask Memory 会进一步保存历史帧中的目标信息，并在处理当前帧时提供时序参考，使模型能够在目标运动、遮挡或形变的情况下保持更稳定的分割结果。

用户既可以用文字描述目标，例如「正在滑下来的运动员」「可以倒进杯子里的物体」；也可以通过点、框或区域提示，直接告诉模型想要分割哪个对象。模型随后根据这些提示，输出对应的分割结果。

在统一框架下，X2SAM 支持多类任务，包括：通用分割，开放词汇分割，指代表达分割，推理分割，对话生成分割，视觉定位分割，以及对象级分割（包含图像交互分割和视频目标分割）。

图 2 X2SAM 支持的任务展示

简单来说，X2SAM 既能理解「把左边正在喝奶的小狗分割出来」这样的语言指令，也能根据用户点选或框选区域的视觉指令，在图像或视频中找到对应目标。

让视频分割更稳定：模型需要记住过去

图 3 Mask Memory 模块结构图

视频分割比图像分割更难，目标会移动、被遮挡、发生形变，甚至短暂消失。如果模型只逐帧处理，很容易出现前后不一致的问题：这一帧分对了，下一帧可能就跟丢了。为此，X2SAM 引入了 Mask Memory 模块。可以把它理解为模型的「短期记忆」：它会记录前面若干帧中与目标相关的信息，并在处理当前帧时参考这些历史信息。这样一来，模型不仅能在单帧中找到目标，也能在视频中保持对同一目标的连续追踪，从而输出更稳定的分割结果。

新任务 V-VGD：点一下，模型分割整段视频

图 4 视频视觉定位分割任务展示

论文还提出了一个新的视频视觉定位分割任务：Video Visual Grounded Segmentation，简称 V-VGD。这个任务关注一个很实际的问题：如果用户只在视频开头点一下或框一下某个目标，模型能不能在整段视频中持续分割出这类目标？

研究团队基于 YT-VIS19 和 VIPSeg 构建了相关数据集。每个目标在首个可见帧中会获得一个视觉提示，例如点、框或区域标注；模型需要根据这个提示，在后续视频帧中持续找到并分割相应类别的对象。这类能力对于视频编辑、自动标注、智能检索等场景非常重要。例如，用户只需要框选一次人物、车辆或商品，系统就可以自动完成后续视频中相关目标的跟踪与分割。

实验结果：图像任务保持稳定，视频任务表现突出

实验显示，X2SAM 在图像任务上保持了较强竞争力，同时在视频任务上展现出明显优势。

在图像开放词汇分割任务中，X2SAM 在 ADE20K 相关评测上取得了优于此前 SoTA 方法的结果；同时，它在其他图像分割任务上也取得了不错的性能表现。这说明，将模型扩展到视频场景后，并没有明显削弱其处理静态图像的能力。

在视频任务上，X2SAM 的提升更加明显：在视频开放词汇分割任务中，X2SAM 取得了 60.3 AP；在视频推理分割任务中，X2SAM 达到 69.9 J&F，相比此前 SoTA 方法提升 14.2 点；在视频对话生成分割任务中，X2SAM 取得了 75.8 mIoU，表现明显优于此前方法；在新提出的 V-VGD 任务中，X2SAM 在多个设置下都显著超过此前强基线方法。

这些结果说明，X2SAM 不仅能处理单张图片中的分割任务，也能更好地理解视频中的目标变化、语言指令和视觉提示。

更高效的统一训练方式

为了同时学习图像和视频中的多种任务，X2SAM 采用了统一训练策略。相比直接将不同数据简单混合训练，X2SAM 的训练方式在保持性能的同时显著降低了计算成本。该策略将训练成本从约 5.2K GPU hours 降至约 3.3K GPU hours，减少约 36.5%。

这意味着，统一图像和视频分割并不一定需要线性增加训练成本。通过合理设计训练流程，模型可以更高效地学习跨模态、跨任务能力。

统一分割模型还有哪些挑战？

当然，统一图像和视频分割仍然面临一些挑战。首先，联合训练图像和视频数据仍需要较高计算成本，尤其是视频数据本身更占显存和训练资源。其次，当前的记忆机制仍然是固定长度的。对于很长的视频，或者目标长时间被遮挡、外观变化剧烈的情况，模型仍可能面临挑战。此外，X2SAM 是一个面向多任务的通用模型。在某些高度专门化的任务上，它可能仍不如针对单一任务深度优化的专家模型。

未来，研究团队计划进一步探索更高效的训练方法、更轻量的模型结构，以及更适合长视频的记忆机制，让模型在复杂视频场景中更加稳定、可扩展。

总结

X2SAM 的意义在于，它将图像分割、视频分割、语言理解、视觉提示和时序记忆放进了同一个多模态框架中。它让多模态大模型不只是「看懂画面」和「回答问题」，而是进一步具备了像素级定位与分割能力。对于视频编辑、自动标注、具身智能、机器人感知和多模态交互等场景，X2SAM 提供了一个统一而强大的分割多模态大模型方案。