本研究由中山大学、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。
如今,多模态大模型已经能够看图、看视频,并回答复杂问题。但如果进一步要求模型「把画面中的某个目标精准分割出来」,问题就变得没有那么简单。例如,用户提出这样一个需求:
这不仅要求模型理解自然语言描述,还需要它在视频的每一帧中持续定位同一个人,并输出准确的像素级轮廓。传统分割模型擅长生成高质量掩码,但通常依赖点、框等明确提示,难以理解复杂自然语言。另一方面,现有多模态分割模型往往只面向图像或视频中的某一类任务,难以用一个统一模型同时处理图像、视频、文本提示和视觉提示。
为了解决这一问题,来自中山大学和美团的研究团队提出了 X2SAM,一个统一的图像与视频分割多模态大模型框架。它希望让模型不仅能「看懂」图像和视频,还能进一步「指出」目标在每个像素上的准确位置。
- 论文标题:X2SAM: Any Segmentation in Images and Videos
- 论文链接:https://arxiv.org/abs/2605.00891
- 项目主页:https://wanghao9610.github.io/X2SAM
- 项目代码:https://github.com/wanghao9610/X2SAM
一个模型,处理多种分割需求
图 1 X2SAM 模型架构图
X2SAM 的核心目标,是将图像和视频中的多种分割任务纳入同一个框架。X2SAM 由多模态大模型、区域采样模块、Mask Encoder、Mask Decoder 和 Mask Memory 等部分组成。输入图像或视频后,视觉编码器首先提取视觉特征;多模态大模型负责理解用户的文本指令、视觉提示以及上下文信息,并将这些语义信息转化为可用于分割的目标表示。随后,Mask Encoder 提取用于分割的视觉特征,Mask Decoder 根据目标表示和视觉特征生成像素级掩码。对于视频输入,Mask Memory 会进一步保存历史帧中的目标信息,并在处理当前帧时提供时序参考,使模型能够在目标运动、遮挡或形变的情况下保持更稳定的分割结果。
用户既可以用文字描述目标,例如「正在滑下来的运动员」「可以倒进杯子里的物体」;也可以通过点、框或区域提示,直接告诉模型想要分割哪个对象。模型随后根据这些提示,输出对应的分割结果。
在统一框架下,X2SAM 支持多类任务,包括:通用分割,开放词汇分割,指代表达分割,推理分割,对话生成分割,视觉定位分割,以及对象级分割(包含图像交互分割和视频目标分割)。
图 2 X2SAM 支持的任务展示
简单来说,X2SAM 既能理解「把左边正在喝奶的小狗分割出来」这样的语言指令,也能根据用户点选或框选区域的视觉指令,在图像或视频中找到对应目标。
让视频分割更稳定:模型需要记住过去
图 3 Mask Memory 模块结构图
视频分割比图像分割更难,目标会移动、被遮挡、发生形变,甚至短暂消失。如果模型只逐帧处理,很容易出现前后不一致的问题:这一帧分对了,下一帧可能就跟丢了。为此,X2SAM 引入了 Mask Memory 模块。可以把它理解为模型的「短期记忆」:它会记录前面若干帧中与目标相关的信息,并在处理当前帧时参考这些历史信息。这样一来,模型不仅能在单帧中找到目标,也能在视频中保持对同一目标的连续追踪,从而输出更稳定的分割结果。
新任务 V-VGD:点一下,模型分割整段视频
图 4 视频视觉定位分割任务展示
论文还提出了一个新的视频视觉定位分割任务:Video Visual Grounded Segmentation,简称 V-VGD。这个任务关注一个很实际的问题:如果用户只在视频开头点一下或框一下某个目标,模型能不能在整段视频中持续分割出这类目标?
研究团队基于 YT-VIS19 和 VIPSeg 构建了相关数据集。每个目标在首个可见帧中会获得一个视觉提示,例如点、框或区域标注;模型需要根据这个提示,在后续视频帧中持续找到并分割相应类别的对象。这类能力对于视频编辑、自动标注、智能检索等场景非常重要。例如,用户只需要框选一次人物、车辆或商品,系统就可以自动完成后续视频中相关目标的跟踪与分割。
实验结果:图像任务保持稳定,视频任务表现突出
实验显示,X2SAM 在图像任务上保持了较强竞争力,同时在视频任务上展现出明显优势。
在图像开放词汇分割任务中,X2SAM 在 ADE20K 相关评测上取得了优于此前 SoTA 方法的结果;同时,它在其他图像分割任务上也取得了不错的性能表现。这说明,将模型扩展到视频场景后,并没有明显削弱其处理静态图像的能力。
在视频任务上,X2SAM 的提升更加明显:在视频开放词汇分割任务中,X2SAM 取得了 60.3 AP;在视频推理分割任务中,X2SAM 达到 69.9 J&F,相比此前 SoTA 方法提升 14.2 点;在视频对话生成分割任务中,X2SAM 取得了 75.8 mIoU,表现明显优于此前方法;在新提出的 V-VGD 任务中,X2SAM 在多个设置下都显著超过此前强基线方法。
这些结果说明,X2SAM 不仅能处理单张图片中的分割任务,也能更好地理解视频中的目标变化、语言指令和视觉提示。
更高效的统一训练方式
为了同时学习图像和视频中的多种任务,X2SAM 采用了统一训练策略。相比直接将不同数据简单混合训练,X2SAM 的训练方式在保持性能的同时显著降低了计算成本。该策略将训练成本从约 5.2K GPU hours 降至约 3.3K GPU hours,减少约 36.5%。
这意味着,统一图像和视频分割并不一定需要线性增加训练成本。通过合理设计训练流程,模型可以更高效地学习跨模态、跨任务能力。
统一分割模型还有哪些挑战?
当然,统一图像和视频分割仍然面临一些挑战。首先,联合训练图像和视频数据仍需要较高计算成本,尤其是视频数据本身更占显存和训练资源。其次,当前的记忆机制仍然是固定长度的。对于很长的视频,或者目标长时间被遮挡、外观变化剧烈的情况,模型仍可能面临挑战。此外,X2SAM 是一个面向多任务的通用模型。在某些高度专门化的任务上,它可能仍不如针对单一任务深度优化的专家模型。
未来,研究团队计划进一步探索更高效的训练方法、更轻量的模型结构,以及更适合长视频的记忆机制,让模型在复杂视频场景中更加稳定、可扩展。
总结
X2SAM 的意义在于,它将图像分割、视频分割、语言理解、视觉提示和时序记忆放进了同一个多模态框架中。它让多模态大模型不只是「看懂画面」和「回答问题」,而是进一步具备了像素级定位与分割能力。对于视频编辑、自动标注、具身智能、机器人感知和多模态交互等场景,X2SAM 提供了一个统一而强大的分割多模态大模型方案。
热门跟贴