来源:我爱计算机视觉
在工业视觉检测中,零样本异常检测 (ZSAD) 是个理想的“圣杯”——无需目标域训练,直接上手就能检。然而,现有的基于 VLM(如 CLIP)的方法往往面临两难:CLIP 擅长全局语义(懂什么是“瓶子”),但对细微的划痕、裂纹等局部结构“视而不见”。
北京邮电大学和中国电信人工智能研究院 (TeleAI) 的研究团队提出了 SSVP (Synergistic Semantic-Visual Prompting) 框架。他们不仅引入了 DINOv3 来补充细粒度视觉特征,更通过一种深度的“语义-视觉协同”机制,让 Prompt 不再是死板的文本,而是能根据视觉内容动态变化的“灵动指令”。
该方法在 MVTec-AD 上达到了 93.0% 的 Image-AUROC,横扫 7 个主流工业数据集,刷新了 SOTA!
论文标题 : SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection
论文地址 : https://arxiv.org/abs/2601.09147
机构 : 北京邮电大学, 中国电信人工智能研究院 (TeleAI)
传统的 ZSAD 方法(如 WinCLIP)喜欢用简单的加权融合来结合 CLIP 和视觉特征,这种“浅层融合”就像是用胶水硬粘,虽然勉强能用,但没法解决核心矛盾:
语义太泛 :CLIP 的特征太高级,容易忽略工业场景中至关重要的纹理细节。
Prompt死板 :现有的 Prompt 生成(甚至单纯的概率式生成)缺乏视觉条件的强约束,导致生成的文本指令“对牛弹琴”,无法精准锚定特定的异常模式。
全局与局部割裂 :全局打分往往被大面积的背景噪声掩盖,漏掉微小的缺陷。
如下图所示,SSVP 提出了一种基于“深度协同流”的新范式,这里的 Prompt 生成是视觉条件 (Vision-Conditioned) 的,真正做到了“看图说话”。
SSVP 的架构(图2)设计得非常精巧,主要由三个模块组成,分别解决上述三个痛点。
这是基础底座。作者引入了DINOv3作为"视觉专家"来补充 CLIP 的细粒度结构特征。核心组件是自适应Token特征融合(ATF)模块。
它首先将 CLIP 和 DINOv3 的局部特征投影到共享子空间:
然后通过双路交叉注意力(Bi-Attn)显式注入结构先验。比如,用 CLIP 的语义去查询 DINO 的结构细节:
最终,将双向交互的特征拼接并融合,生成兼具语义理解和结构感知的协同特征 :
2.2 视觉条件 Prompt 生成器 (VCPG)
传统的 Prompt 是"静态"的,SSVP 则让 Prompt"看图说话"。VCPG 引入了VAE(变分自编码器)来对视觉特征的分布进行建模。
潜变量建模 :编码器 从协同特征中预测分布参数,并利用重参数化技巧采样出 视觉隐变量(Visual Latent Bias) :
动态注入 :通过交叉注意力(Text-Latent Cross-Attention),让文本 Embedding 根据 进行动态调整,生成视觉增强的残差 ,并通过门控标量 注入:
这意味着,如果图中有疑似裂纹,Prompt 就会在特征空间中向"裂纹"语义偏移。
热门跟贴