摘要:当强大的视觉语言模型(VLM)如CLIP、BLIP遇到源源不断的新知识时,它们也会像人一样“学了就忘”吗?答案是肯定的,甚至更糟,这就是所谓的“灾难性遗忘”。为了解决这一难题,来自北京大学、南开大学、巴塞罗那计算视觉中心(CVC)的研究团队联合发布了首篇针对视觉语言模型持续学习(VLM-CL)的系统性综述,深入剖析了VLM在持续学习中面临的三大独有挑战,并首次提出一个由挑战驱动的解决方案分类法,为该领域的研究者提供了“诊断式”的全面参考。

第一时间获取资源:

·论文:https://arxiv.org/abs/2508.04227

·开源资源库 (Awesome List):

https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models

引言:VLM为何需要“终身学习”?

视觉语言模型(VLM)通过在海量图文数据上进行预训练,获得了惊人的跨模态理解和零样本泛化能力 。然而,现实世界的数据是动态、非平稳的。无论是智能机器人、自动驾驶汽车还是个性化AI助手,都需要不断从新的数据流中学习。

当我们试图让VLM学习新知识时,一个棘手的问题浮出水面——灾难性遗忘(Catastrophic Forgetting) 。模型在学习新任务后,会严重遗忘旧任务的知识,导致多模态推理能力下降,零样本泛化能力被侵蚀 。

与传统的单模态持续学习不同,VLM的持续学习面临着更为独特的困境。这篇综述正是为了系统性地梳理这些挑战并指明未来的研究方向。

VLM持续学习的三大“拦路虎”

本文一针见血地指出了VLM在持续学习中面临的三大核心失败模式,并通过图示生动地展示了其原理。

VLM-CL中的三大核心挑战示意图

1.跨模态特征漂移 (Cross-Modal Feature Drift)

o 问题描述: VLM的核心在于其视觉和文本特征在语义空间中的精准对齐 。在持续学习过程中,这种对齐关系非常脆弱,很容易因模型更新而“漂移”,导致图文不再“心有灵犀” 。

o 后果: 模型的跨模态检索等任务性能会急剧下降 。

2.共享模块干扰 (Shared Module Interference)

o问题描述: 许多VLM依赖于共享的融合模块(如Cross-Attention)来整合多模态信息 。在学习新任务时,对共享模块的梯度更新可能会覆盖掉对旧任务至关重要的权重,造成“过河拆桥”式的遗忘 。

o后果: 融合能力被破坏,导致模型在新旧任务上都表现不佳 。

3.零样本能力侵蚀 (Zero-Shot Capability Erosion)

o问题描述: VLM强大的泛化能力来源于其丰富的预训练语义空间 。然而,持续的微调会使模型对新任务“过拟合”,导致整个语义空间发生扭曲 。

o后果: 原本清晰可辨的零样本概念(如“猫”和“狗”)变得模糊甚至重叠,模型的泛化能力严重“缩水” 。

破局之道:一个由挑战驱动的解决方案分类法

基于上述三大挑战,本文创新性地提出了一个“对症下药”的解决方案分类法,将现有方法归纳为三大范式。

VLM-CL策略分类法

1.多模态回放策略 (Multi-Modal Replay)

o 核心思想: 温故而知新。通过“复习”少量旧任务数据来对抗遗忘 。

o具体方法:

§ 显式回放 (Explicit Replay): 直接存储并重放一小部分过去的真实数据 。

§ 隐式回放 (Implicit Replay): 利用生成模型或伪样本来模拟过去的数据分布,以节省存储和保护隐私 。

2.跨模态正则化策略 (Cross-Modal Regularization)

o 核心思想: 给模型更新戴上“紧箍咒”。通过在损失函数中增加约束项,直接保护跨模态对齐关系 。

o 具体方法: 知识蒸馏、对齐关系维护、引导式正则化等,从模型层面抑制特征漂移,保护零样本能力 。

3.参数高效型适应策略 (Parameter-Efficient Adaptation)

o 核心思想: 冻结“主干”,“小修小补”。在持续学习中,冻结大部分预训练参数,只更新一小部分新增的、高效的模块(如Adapter、LoRA、Prompt) 。

o 优势: 从结构上隔离了不同任务的参数更新,有效缓解了共享模块干扰和零样本能力侵蚀的问题 。

全景式回顾与未来展望

除了提出核心分类法,这篇综述还提供了:

· 全面的基准回顾: 系统梳理了当前VLM-CL领域的评测数据集、核心指标和评估协议,并指出了现有标准的局限性 。

VLM-CL核心指标

·深入的性能分析: 在图像分类、多模态检索、视觉问答(VQA)等关键任务上,对现有SOTA方法的性能进行了分析和比较 。

指明未来:综述勾勒的四大前沿研究方向

除了对现有工作的梳理,本综述更具价值的部分在于为VLM持续学习的未来版图指明了方向。作者们认为,该领域正从简单地套用单模态技术,演变为一个拥有自身核心问题的独立领域,并提出了四大值得探索的前沿方向 :

1. 建立统一且更“懂”VLM的评测基准 (Unified and Holistic Benchmarking) 目前该领域的评测是“碎片化”的 。未来需要新一代的基准,它不仅要评估准确率,更要能精准“诊断”VLM的特有问题:

  • 组合式零样本评测: 通过测试已知概念的新组合,来量化模型的“零样本能力侵蚀”(ZSD)程度 。

  • 模态解耦指标: 比如,通过在单模态任务上汇报视觉和文本编码器的独立分数,来量化“跨模态特征漂移” 。

  • 时序性、网络规模的数据流: 模拟真实世界中持续不断的数据流,以真正评估模型的“持续预训练”(CPT)能力 。

2. 迈向终极目标:持续预训练 (Advancing Continual Pre-training, CPT) 当前绝大多数工作都集中在“持续微调”(CFT)上,但这只是权宜之计 。要让VLM不过时,最终需要实现“持续预训练”,即在大规模数据流上不断更新模型的核心知识。这需要研究“可扩展的遗忘缓解”技术 ,例如:

  • 开发适用于数十亿参数模型的高效重要性加权算法 。

  • 让模型学会从内部知识中自生成“伪样本”来进行复习,从而避免存储真实数据带来的隐私和成本问题 。

3. 拓展新场景:生成式与交互式任务 (Generative and Interactive Tasks) 目前的研究大多聚焦于分类、检索等判别式任务 。下一个前沿阵地在于赋予生成式和交互式模型持续学习的能力 。想象一下这些场景:多模态聊天机器人如何在与用户的对话中持续学习,而不会忘记之前的互动? 家用机器人如何在不断变化的环境中学习遵循新的指令?

这背后涉及从反馈中学习、长期记忆管理、以及持续对齐与安全等一系列复杂挑战 。

4. 夯实理论基础:从“经验”到“科学” (Towards a Theoretical Understanding) 当前VLM-CL领域很大程度上是经验驱动的 。未来需要更坚实的理论基础来指导算法设计 。一些根本性的问题亟待回答:

  • 我们能否从数学上建模跨模态特征漂移的过程?

  • 一个参数高效模块(如LoRA)在干扰预训练知识之前,其学习新知识的理论上限是多少?

  • “模态鸿沟(Modality Gap)”这一VLM的内在属性,在持续学习中扮演了怎样的角色?

总结

这篇综述不仅是VLM持续学习领域的第一篇系统性总结,更重要的是,它从问题的根源出发,为研究者们提供了一个清晰的、诊断式的分析框架。它将帮助读者更深刻地理解VLM在“终身学习”道路上遇到的独特障碍,并为开发下一代能够与时俱进的多模态AI系统提供了宝贵的指导和灵感。

我们强烈推荐所有从事多模态学习、持续学习、大模型适应等领域的研究者和工程师阅读此文。

再次附上链接,欢迎阅读、引用和分享!

·论文: https://arxiv.org/abs/2508.04227

·开源资源库 (Awesome List):

https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models