北京大学等发布首篇《视觉语言模型持续学习》万字综述！|北京大学|模态|算法

摘要：当强大的视觉语言模型（VLM）如CLIP、BLIP遇到源源不断的新知识时，它们也会像人一样“学了就忘”吗？答案是肯定的，甚至更糟，这就是所谓的“灾难性遗忘”。为了解决这一难题，来自北京大学、南开大学、巴塞罗那计算视觉中心（CVC）的研究团队联合发布了首篇针对视觉语言模型持续学习（VLM-CL）的系统性综述，深入剖析了VLM在持续学习中面临的三大独有挑战，并首次提出一个由挑战驱动的解决方案分类法，为该领域的研究者提供了“诊断式”的全面参考。

第一时间获取资源：

·论文：https://arxiv.org/abs/2508.04227

·开源资源库 (Awesome List):

https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models

引言：VLM为何需要“终身学习”？

视觉语言模型（VLM）通过在海量图文数据上进行预训练，获得了惊人的跨模态理解和零样本泛化能力。然而，现实世界的数据是动态、非平稳的。无论是智能机器人、自动驾驶汽车还是个性化AI助手，都需要不断从新的数据流中学习。

当我们试图让VLM学习新知识时，一个棘手的问题浮出水面——灾难性遗忘（Catastrophic Forgetting）。模型在学习新任务后，会严重遗忘旧任务的知识，导致多模态推理能力下降，零样本泛化能力被侵蚀。

与传统的单模态持续学习不同，VLM的持续学习面临着更为独特的困境。这篇综述正是为了系统性地梳理这些挑战并指明未来的研究方向。

VLM持续学习的三大“拦路虎”

本文一针见血地指出了VLM在持续学习中面临的三大核心失败模式，并通过图示生动地展示了其原理。

VLM-CL中的三大核心挑战示意图

1.跨模态特征漂移 (Cross-Modal Feature Drift)

o 问题描述： VLM的核心在于其视觉和文本特征在语义空间中的精准对齐。在持续学习过程中，这种对齐关系非常脆弱，很容易因模型更新而“漂移”，导致图文不再“心有灵犀” 。

o 后果：模型的跨模态检索等任务性能会急剧下降。

2.共享模块干扰 (Shared Module Interference)

o问题描述：许多VLM依赖于共享的融合模块（如Cross-Attention）来整合多模态信息。在学习新任务时，对共享模块的梯度更新可能会覆盖掉对旧任务至关重要的权重，造成“过河拆桥”式的遗忘。

o后果：融合能力被破坏，导致模型在新旧任务上都表现不佳。

3.零样本能力侵蚀 (Zero-Shot Capability Erosion)

o问题描述： VLM强大的泛化能力来源于其丰富的预训练语义空间。然而，持续的微调会使模型对新任务“过拟合”，导致整个语义空间发生扭曲。

o后果：原本清晰可辨的零样本概念（如“猫”和“狗”）变得模糊甚至重叠，模型的泛化能力严重“缩水” 。

破局之道：一个由挑战驱动的解决方案分类法

基于上述三大挑战，本文创新性地提出了一个“对症下药”的解决方案分类法，将现有方法归纳为三大范式。

VLM-CL策略分类法

1.多模态回放策略 (Multi-Modal Replay)

o 核心思想：温故而知新。通过“复习”少量旧任务数据来对抗遗忘。

o具体方法：

§ 显式回放 (Explicit Replay): 直接存储并重放一小部分过去的真实数据。

§ 隐式回放 (Implicit Replay): 利用生成模型或伪样本来模拟过去的数据分布，以节省存储和保护隐私。

2.跨模态正则化策略 (Cross-Modal Regularization)

o 核心思想：给模型更新戴上“紧箍咒”。通过在损失函数中增加约束项，直接保护跨模态对齐关系。

o 具体方法：知识蒸馏、对齐关系维护、引导式正则化等，从模型层面抑制特征漂移，保护零样本能力。

3.参数高效型适应策略 (Parameter-Efficient Adaptation)

o 核心思想：冻结“主干”，“小修小补”。在持续学习中，冻结大部分预训练参数，只更新一小部分新增的、高效的模块（如Adapter、LoRA、Prompt）。

o 优势：从结构上隔离了不同任务的参数更新，有效缓解了共享模块干扰和零样本能力侵蚀的问题。

全景式回顾与未来展望

除了提出核心分类法，这篇综述还提供了：

· 全面的基准回顾：系统梳理了当前VLM-CL领域的评测数据集、核心指标和评估协议，并指出了现有标准的局限性。

VLM-CL核心指标

·深入的性能分析：在图像分类、多模态检索、视觉问答（VQA）等关键任务上，对现有SOTA方法的性能进行了分析和比较。

指明未来：综述勾勒的四大前沿研究方向

除了对现有工作的梳理，本综述更具价值的部分在于为VLM持续学习的未来版图指明了方向。作者们认为，该领域正从简单地套用单模态技术，演变为一个拥有自身核心问题的独立领域，并提出了四大值得探索的前沿方向：

1. 建立统一且更“懂”VLM的评测基准 (Unified and Holistic Benchmarking) 目前该领域的评测是“碎片化”的。未来需要新一代的基准，它不仅要评估准确率，更要能精准“诊断”VLM的特有问题：

组合式零样本评测：通过测试已知概念的新组合，来量化模型的“零样本能力侵蚀”（ZSD）程度。
模态解耦指标：比如，通过在单模态任务上汇报视觉和文本编码器的独立分数，来量化“跨模态特征漂移” 。
时序性、网络规模的数据流：模拟真实世界中持续不断的数据流，以真正评估模型的“持续预训练”（CPT）能力。

2. 迈向终极目标：持续预训练 (Advancing Continual Pre-training, CPT) 当前绝大多数工作都集中在“持续微调”（CFT）上，但这只是权宜之计。要让VLM不过时，最终需要实现“持续预训练”，即在大规模数据流上不断更新模型的核心知识。这需要研究“可扩展的遗忘缓解”技术，例如：

开发适用于数十亿参数模型的高效重要性加权算法。
让模型学会从内部知识中自生成“伪样本”来进行复习，从而避免存储真实数据带来的隐私和成本问题。

3. 拓展新场景：生成式与交互式任务 (Generative and Interactive Tasks) 目前的研究大多聚焦于分类、检索等判别式任务。下一个前沿阵地在于赋予生成式和交互式模型持续学习的能力。想象一下这些场景：多模态聊天机器人如何在与用户的对话中持续学习，而不会忘记之前的互动？家用机器人如何在不断变化的环境中学习遵循新的指令？

这背后涉及从反馈中学习、长期记忆管理、以及持续对齐与安全等一系列复杂挑战。

4. 夯实理论基础：从“经验”到“科学” (Towards a Theoretical Understanding) 当前VLM-CL领域很大程度上是经验驱动的。未来需要更坚实的理论基础来指导算法设计。一些根本性的问题亟待回答：