告别逐一标注，一个提示实现批量图片分割，高效又准确|图片分割|样本

机器之心专栏

机器之心编辑部

仅需一个任务描述，即可一键分割所有图片！

Segment Anything Model (SAM) 的提出在图像分割领域引起了巨大的关注，其卓越的泛化性能引发了广泛的兴趣。然而，尽管如此，SAM 仍然面临一个无法回避的问题：为了使 SAM 能够准确地分割出目标物体的位置，每张图片都需要手动提供一个独特的视觉提示。如下图所示，即使点击的是同一物体（图 (b)-(d)），微小位置变化都会导致分割结果的显著差异。这是因为视觉提示缺乏语义信息，即使提示在想要分割的目标物体上，仍然可能引发歧义。框提示和涂鸦提示（图 (e)(f)）虽然提供了更具体的位置信息，但由于机器和人类对目标分割物的理解存在偏差，效果常常与期望有所出入。

目前的一些方法，如 SEEM 和 AV-SAM，通过提供更多模态的输入信息来引导模型更好地理解要分割的物体是什么。然而，尽管输入信息变得更加具体和多样化，但在实际场景中，每个无标注样本仍然需要一个独特的提示来作为指导，这是一种不切实际的需求。理想情况下，作者希望告知机器当前的无标注数据都是采集自于什么任务，然后期望机器能够批量地按照作者的要求对这些同一任务下的样本进行分割。然而，当前的 SAM 模型及其变体受到必须为每幅图手动提供提示这一要求的限制，因此很难实现这一点。

来自伦敦大学玛丽女王学院的研究者们提出了一种无需训练的分割方法 GenSAM ，能够在只提供一个任务通用的文本提示的条件下，将任务下的所有无标注样本进行有效地分割。

论文链接：https://arxiv.org/pdf/2312.07374.pdf
项目链接：https://lwpyh.github.io/GenSAM/
代码链接：https://github.com/jyLin8100/GenSAM/

GenSAM 的流程图如下所示：

方法介绍

为了解决这一问题，作者提出了 Generalizable SAM（GenSAM）模型，旨在摆脱像 SAM 这类提示分割方法对样本特定提示的依赖。具体而言，作者提出了一个跨模态思维链（Cross-modal Chains of Thought Prompting，CCTP）的概念，将一个任务通用的文本提示映射到该任务下的所有图片上，生成个性化的感兴趣物体和其背景的共识热力图，从而获得可靠的视觉提示来引导分割。此外，为了实现测试时自适应，作者进一步提出了一个渐进掩膜生成（Progressive Mask Generation，PMG）框架，通过迭代地将生成的热力图重新加权到原图上，引导模型对可能的目标区域进行从粗到细的聚焦。值得注意的是，GenSAM 无需训练，所有的优化都是在实时推理时实现的。