现有的视觉定位和指代分割工作受到视觉和语言独立编码的限制,严重依赖于笨重的基于 Transformer 的融合编码器/解码器和各种早期阶段交互技术。同时,当前的掩码视觉语言建模(mask visual language modeling,MVLM)在指代任务中无法捕捉图像-文本之间微妙的指代关系。
在本文中,团队提出OneRef,一个极简的、建立在模态共享Transformer上的指代框架,其统一了视觉和语言特征空间。为了对指代关系进行建模,本文引入了一种新的MVLM范式,称为掩码指代建模(MRefM),它包括指代感知的掩码图像建模和指代感知的掩码语言建模。这两个模块不仅可以重构与模态相关的内容,还可以重建跨模态的指代内容。在MRefM中,提出一种指代感知的动态图像掩码策略,该策略可以感知指代区域,而不是依赖于固定掩码比率或通用的随机掩码方案。通过利用统一的视觉语言特征空间,并结合MRefM的建模指代关系的能力,本工作的方法可以直接回归指代结果,而无需依赖于各种复杂的技术。本工作的方法连续地超越现有的方法,在定位和分割任务上都达到了SoTA的性能,为未来的研究提供了新的有价值的思路。
论文题目: Towards Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling 论文链接: https://arxiv.org/abs/2410.08021 代码和模型:(代码和模型已全部开源) https://github.com/linhuixiao/OneRef一、引言
视觉定位(Visual Grounding,VG)的目的是在特定图像中定位表达查询文本所指代的区域。广义的视觉定位 / 指代任务包括指代表达理解(Referring Expression Comprehension,REC)、短语定位(Phrase Grounding,PG)和指代表达文本/图像分割(Referring Expression/Image Segmentation,RES/RIS)。在REC/PG中,所定位的区域用矩形边界框表示,而在RES/RIS中,定位区域用指代目标的不规则的细粒度分割掩码表示。目标检测或实例分割通常依赖于一组封闭的类别集合来检测或分割满足目标标签的多个区域,与之不同的是,视觉定位并不局限于固定的类别。它需要理解查询文本的语义,然后再定位或分割特定一个区域。因此,视觉定位是一项强烈依赖于视觉和语言特征的多模态交互和对齐的任务。
自从BERT[16]和ViT[17,7]提出以来,最先进的(state-of-the-art,SoTA)定位工作广泛采用了预训练和微调范式。如图1所示,现有的使用预训练模型的研究,无论是使用了单模态预训练模型分别迁移视觉和语言知识,还是使用多模态预训练模型,主要可以分为三种典型的架构: (i)两个模态编码器结合一个跨模态融合编码器,如TransVG等; (ii)额外再加一个解码器,以MDETR等为例; (iii)基于语言引导的视觉特征的直接回归,如LAVT、TransVG++等。
然而,在这些研究中,都集成了模态相关的编码器,使得这些工作很难将两种模态无缝集成到统一特征空间中。因此,这些工作不仅需要额外的基于Transformer 的跨模态[78]编码器/解码器(也即上述(i)和(ii))进行视觉和语言的模态融合,而且还在需要在模态相关的编码器之间提出各种各样的精心设计的交互结构和技术,用以促进早期的细粒度跨模态的对齐,例如Adapter适配器,权重生成,图像-文本交叉注意力等等技术。因此,已有的这些方法不仅包含大量的参数,而且涉及复杂的过程。
考虑到这些严重的限制,本工作的目标是探索更简单的模态共享的定位框架,它可以在统一的特征空间内统一视觉和语言,从而避免了使用复杂的交互模块、笨重的融合Transformer/解码器以及特殊的定位token。
图1. 本工作提出的方法和主流的REC/RES架构。
随着预训练的进步,许多研究都在探索统一模态共享的多模态框架。YORO基于ViLT实现了一种共享编码器。然而,其建模方法会掩盖单模态知识,同时还需要编码器纳入额外的查询锚点,使得它很难使用常见的预训练模型,从而限制了其方法的迁移通用性。ONE-PEACE基于混合专家(Mix-of-Expert,MoE)设计了7个专家分支,构建了三模态基础模型,从而实现了图像、文本和音频模态的融合。然而,他们的研究采用了大量的三模态数据,同时也没有探索MVLM对指代任务建模的潜在应用。
BEiT-3建立在多通路Transformer(Multi-way Transformer)的基础上,同时采用三个MoE头(即视觉、语言、视觉语言)和模态共享结构,在共享的特征空间内有效地统一了视觉和语言。它在各种分类式的跨模态领域(如检索、VQA等)中表现出显著的优势。然而,目前尚无研究探讨在指代任务中如何利用BEiT-3实现迁移。
因此,本工作的目标是在BEiT-3的单塔模型上,在统一的特征空间内探索更加简洁高效的指代定位和指代分割的迁移。然而,BEiT-3模型是利用通用的掩码视觉语言建模(mask visual language modeling,MVLM)方法进行预训练的,这种掩码范式缺乏细粒度的跨模态指代能力,不能有效地建模出图像和文本之间复杂的指代关系。因此,将BEiT-3应用于回归式的指代任务时存在明显的鸿沟。因此,探索如何将细粒度的跨模态指代能力纳入掩码建模范式将成为一个重要的尚未解决的研究问题。
二、方法思路
如图2所示,在本文中,本工作提出了一种新的范式,称为掩码指代建模(MRefM),以及一种统一的、极其简洁的定位和指代分割框架,称为OneRef,不再需要融合或交互的Transformer结构,也不需要特殊的定位Token。
图2. 我们的多模态的掩码指代建模(MRefM)范式的示意图。其包括2个部分,分别是指代感知的掩码图像建模和指代感知的掩码语言建模。
首先,本工作提出MRefM范式,以灵活的方式增强BEiT-3的指代能力。MRefM由两个部分组成:指代感知的掩码图像建模(Referring-aware Mask Image Modeling,简称Referring MIM,指代MIM)和指代感知的掩码语言建模(Referring-aware Mask Language Modeling,简称Referring MLM,指代MLM)。传统的MVLM通常基于单模态MIM和MLM交替或随机训练来实现。相比之下,指代MIM和指代MLM需要重构两种不同类型的内容:与自身模态相关的内容和跨模态的指代信息。
具体而言,首先,对于指代感知的掩码图像建模来说,其使用与聚合文本token进行点积运算之后的视觉token进行重建。其不仅需要重建本身掩码的视觉特征,还需要重建视觉目标关联分数,这一分数用以表示当前token与定位区域之间的距离。同时,得分包括四个维度:到定位中心的水平和垂直距离,以及定位区域的宽度和高度。
图3. 随机掩码(MAE)[25]、分块掩码(BEiT)[4]和我们的基于指代的动态图像掩码的示意图。α表示整个掩码比例,而β和γ表示超出和位于引用区域内的掩码比例。
此外,在现有的掩码策略中,MAE采用的是高比率随机掩码,而BEiT-3采用的是低比率块状随机掩码,两者都不能有效地将注意力有效地引导到指代区域。为了通过周围的视觉上下文和文本语义增强模型对指代区域的理解,我们提出一种指代感知动态掩码策略,具体的例子如图3所示。其具体思路是取代传统的固定比例的随机掩码策略,以较高的掩码比例重建指代区域。
其次,对于指代感知的掩码语言建模来说,其使用与聚合的视觉token进行点积运算后的文本token进行重建。其不仅需要重建掩码文本本身,还需要重建表示当前文本token与指代图像区域之间相关性的语义目标关联分数。
图4. 基于指代的定位和分割迁移的示意图。
另一方面,在视觉定位和指代分割迁移过程中,现有的定位和分割模型通常使用[Region] token和多个查询锚(Query anchor)等特殊的定位 token 来回归结果。然而,在主干网络中嵌入[Region] token会破坏预训练的模型,并且查询锚(Query anchor)也依赖于额外的解码器。由于模态共享编码器建立了统一的特征空间,本工作不再需要额外的跨模态的编码器/解码器来融合单模态特征,可以使我们能够更有效地利用预训练主干网络获得的知识。受益于MRefM范式,视觉token内在地包含了指代信息。
因此,如图4所示,本工作可以抛弃特殊的定位token或者查询anchor,直接在基于点积运算的指代MIM的基础上构建起轻量级且高度简洁的定位和分割任务头,从而实现了统一的指代框架。
三、实验分析
如表1、2所示,我们在两种设定下对REC(指代定位)任务进行实验。
(1)在单数据集微调设定中,Base基础模型在表1五个数据集上分别超越当前的 SoTA 方法 HiVG为 2.07%(testB)、 6.15%(testB)、 4.73%(test)、 1.95%(test) 与1.50%(test),同时显著优于传统单模态检测器方法 TransVG++,性能分别提升达到 4.37%(testB)、 7.98%(testB)、 7.22%(test)、 2.47%(test) 与 2.12%(test)。
(2)在数据集混合预训练设定中,Base基础模型在 RefCOCO/+/g 的 testB/testB/test 划分上分别超越 HiVG 为1.35%、 2.79% 与 2.63%,超过 Grounding-DINO 达2.59%、 4.76% 与 2.38%,优于 OFA 达到 5.28%、 5.18% 与 5.01%,甚至超越了参数量是我们20-60 倍的 GMLLM 模型 LION,提升达到3.76%、2.13% 与 1.69%。需指出,UniTAB、OFA、LION等工作中同样采用 MVLM 进行预训练。
表1 在五个指代定位数据集上采用单数据集微调设置的对比实验
表2 在 REC 任务上采用数据集混合的中间预训练设置的对比实验
如表3所示,我们在两种设定下进行RES(指代分割)任务实验。
(1)在单数据集微调设定中,Base基础版模型在 RefCOCO/+/g 的 testB/testB/test 划分上分别超越 SoTA 自监督方法RISCLIP达到 2.65%、 4.77% 与 1.73%,同时显著优于传统单模态检测器方法 VG-LAW 达到 3.42%、 7.31% 与 4.57%。
(2)在数据集混合预训练设定中,Base基础版模型相较 SoTA 方法 RISCLIP 实现 4.53%、 8.21% 与 5.39%的性能提升。
表3 在 RES 任务上采用两种不同设置下的比较 (mIoU 结果)
如图5所示,我们展示了 OneRef-B 模型在 RefCOCOg 数据集上一些相对具有挑战性的应用示例,并给出了模型的指代定位(REC)和指代分割(RES)的定性结果。这些结果表明,我们的 OneRef 模型在复杂文本理解和跨模态指代定位任务中展现了强大的语义理解的能力。
图5 OneRef 框架在RefCOCOg (val)数据集上的定性结果
四、总结
在本文中,我们提出了一种新颖的、高度简洁的、特征空间统一的单塔指代框架。此外,我们通过引入MRefM范式,在指代任务中首次探索了掩码建模,以捕捉视觉和文本之间细粒度的指代关系。我们展示了MRefM在REC、PG和RES任务在三种设置下的有效性和通用性,连续实现了突破性的成果。此外,利用无监督方法可以使MRefM在未来实现大规模预训练,为指代任务开辟了新的方向。
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴