CVPR 2026 模型适应性研究盘点：从保留旧知识，到适应真实世界|cvpr|新论文|模态|真实世界|适应性研究

稳定性，正在成为大模型落地的关键命题。

作者丨郑佳美

编辑丨马晓宁

当 AI 模型从“单次完成任务”走向真实世界部署时，真正的挑战不再只是参数规模和单点性能，而是模型能否在变化中保持稳定。

它要在持续出现的新类别中不遗忘旧知识，要从大规模真实数据中获得更强的泛化能力，要在多客户端、数据分布不断变化的环境下继续学习，也要把图像、视频和 3D 等不同视觉经验组织成统一理解。

这种变化也体现在 CVPR 2026 的相关研究趋势中。越来越多工作不再只追求某个单一任务上的性能提升，而是更关注模型在长期学习、真实数据、分布变化和多模态协同中的稳定性与适应能力。换句话说，模型不仅要“会做”，还要能在复杂环境中持续做得好。

这一趋势背后，反映的是大模型研究正在从“能力扩张”进入“能力管理”阶段。模型不仅要学得多，还要知道哪些旧知识值得保留，哪些经验可以迁移，哪些特征需要对齐，哪些模态能够互相补充。

无论是持续学习、数字人建模、联邦学习，还是统一大视觉模型，研究者真正关心的都是同一个问题：如何让 AI 在复杂、动态、不完整的现实环境中，依然保持可泛化、可适应、可协同和可持续进化的能力。

从样本回放到跨视觉协同

《Quantum-Gated Task-interaction Knowledge Distillation for Pre-trained Model-based Class-Incremental Learning》关注的是基于预训练模型的类增量学习问题，相关研究来自北京邮电大学信息与通信工程学院和教育部信息网络工程研究中心。

论文主要研究如何让模型在不断学习新类别的同时，尽量保留旧类别知识，减少灾难性遗忘。类增量学习的难点在于，模型会按任务顺序不断接触新类别，但测试时通常不知道样本来自哪个任务。

随着任务数量增加，不同任务的特征空间可能发生重叠，新任务学习容易覆盖旧任务知识，导致模型对旧类别识别能力下降。

近年来，基于预训练模型的类增量学习方法通常会冻结主干网络，只训练轻量级的 prompt 或 adapter 模块，以降低训练成本并保持基础表示能力。

但论文指出，现有方法往往缺少明确的任务交互机制：prompt 选择容易受相似度噪声影响，adapter 又常常把不同任务看成彼此独立的子空间，难以判断新样本应该借用哪些旧任务知识。

针对这一问题，论文提出了 QKD，也就是 Quantum-Gated Task-interaction Knowledge Distillation。它的核心思路是用量子门控机制来建模样本与不同任务之间的相关性，再根据这种相关性指导知识蒸馏和推理时的 adapter 融合。

简单来说，模型不仅要学习新任务，还要判断哪些旧任务和当前样本更相关，从而有选择地吸收旧知识，减少无关任务带来的干扰。

方法上，论文先为每个任务构建 task embedding，并通过参数化量子电路把样本特征和任务表示映射到更高维的 Hilbert 空间中，用量子门控输出样本到各任务的相关性权重。

随后，这些权重会被用于 task-interaction knowledge distillation，让当前 adapter 从更相关的历史 adapter 中学习特征信息，而不是平均吸收所有旧任务知识。

在推理阶段，论文继续复用这些量子门控得到的相关性权重，用来进行自适应 adapter 融合。这样训练和测试使用的是同一套任务相关性估计机制，可以减少训练阶段知识迁移和测试阶段任务路由之间的不一致问题。

实验方面，论文在 CIFAR-100、CUB-200、ImageNet-A、ImageNet-R 和 VTAB 等多个无样本回放类增量学习基准上进行了验证。

结果显示，QKD 能够提升最终准确率和平均增量准确率，并且在多种设置下达到领先或有竞争力的表现。消融实验也表明，用量子门控替代普通余弦相似度或神经网络控制器后，模型能更好地捕捉复杂任务关系。

这篇论文的亮点在于，它把量子门控机制引入到类增量学习中的任务路由和知识蒸馏过程。相比简单地保存旧知识或独立训练不同任务 adapter，QKD 更关注任务之间的相关性建模，让模型在学习新类别时有选择地迁移旧任务知识。

总体来看，这项工作为预训练模型时代的持续学习提供了一种新的思路：模型不仅要避免遗忘，还要学会判断“哪些旧知识值得被当前任务继承”。

论文地址：https://arxiv.org/pdf/2604.11112v1

如果说这项工作关注的是模型在不断学习新任务时如何保留旧知识，那么《Large-scale Codec Avatars: The Unreasonable Effectiveness of Large-scale Avatar Pretraining》则把视角转向了大规模预训练在 3D 数字人建模中的作用。

它同样关心模型如何从大规模数据中获得更强的泛化能力，只不过应用对象从分类任务转向了可驱动的高质量数字人。论文主要研究如何在真实世界输入下，快速生成既能保持身份特征、又能进行精细表情和全身动作驱动的 3D 数字人。

这项任务的核心难点在于，高保真和强泛化之间长期存在矛盾。基于多视角影棚数据的方法通常能生成细节丰富、表情和动作控制精确的数字人，但采集成本高，也很难泛化到普通用户随手拍摄的真实世界视频。

而基于大规模野外数据训练的方法虽然泛化范围更广，但由于 3D 信息不完整，生成结果往往容易出现模糊、结构变形或细节不足的问题。

论文地址：https://arxiv.org/pdf/2604.02320v2

针对这一问题，论文提出了 Large-Scale Codec Avatars，也就是 LCA 框架。它借鉴大语言模型和视觉基础模型中的“预训练 + 后训练”思路，先在 100 万个真实世界单目人物视频上进行大规模预训练，学习人体外观和几何的通用先验；再用高质量多视角影棚数据进行后训练，提升模型的可驱动性、3D 完整性和视觉保真度。

方法上，LCA 会从全身图像和面部特写中提取图像 token，同时从模板人体网格中提取几何 token。模型通过图像注意力、几何注意力和多模态注意力融合不同来源的信息，再由 3D Gaussian 解码器生成数字人的几何和外观属性。

解码器分为 canonical 分支和 pose-dependent 分支，前者负责静态身份与外观，后者负责表情、眼神、手部姿态和服装形变等动态变化。

论文还展示了 LCA 的扩展能力。通过较小改动，它可以支持宽松服装变形和重新打光等功能，并且在没有直接监督的情况下，对眼镜、帽子、不同发型、不同服装甚至风格化角色都有较好的泛化能力。

实验结果显示，LCA 在多视角和单视角输入下都优于已有 3D 数字人方法，在面部细节、手指动作、身体姿态和身份保持方面表现更稳定。

这篇论文的亮点在于，它把 3D 数字人建模从“小规模高质量采集”推进到“大规模预训练驱动”的新范式。LCA 不只是提高了某个数字人模型的效果，而是证明了大规模预训练同样可以帮助 3D avatar 同时获得泛化能力和高保真表现。

总体来看，这项工作让数字人更接近真实应用场景：用户只需要少量普通图像或视频，就有可能快速生成一个可实时驱动、可保持身份、可表达细腻表情和动作的高质量 3D 数字人。

从持续学习到数字人预训练，前面两项工作都在讨论模型如何在复杂数据和真实应用条件下保持稳定能力。接下来，《From Selection to Scheduling: Federated Geometry-Aware Correction Makes Exemplar Replay Work Better under Continual Dynamic Heterogeneity》进一步把问题放到联邦学习场景中，关注多个客户端、数据不断变化、历史样本有限时，模型该如何更稳健地持续学习。

论文主要研究的是：在多个客户端不断学习新任务的过程中，如何更有效地利用有限的历史样本，减少模型对旧知识的遗忘，同时缓解不同客户端数据分布持续变化带来的影响。

这项任务的难点在于，联邦学习中的客户端通常不能共享原始数据，而且每个客户端看到的数据类别和分布并不一致。随着新任务不断到来，模型很容易被新类别影响，逐渐忘记过去学过的旧类别。

以往的样本回放方法大多关注“应该保存哪些代表性样本”，但论文指出，仅仅选出样本还不够，更关键的是如何在训练和推理阶段更好地使用这些样本。

论文地址：https://arxiv.org/pdf/2604.08617v1

针对这一问题，论文提出了 FEAT，也就是联邦几何感知校正方法。它的核心思路是从特征空间的几何结构入手，缓解客户端之间的数据异质性和类别不平衡问题。简单来说，模型不仅要记住过去任务中的样本，还要让不同客户端、不同任务学到的特征结构尽量保持一致，避免少数类特征被多数类“拉偏”。

方法上，FEAT 包含两个关键模块。第一个是 Geometric Structure Alignment，用固定共享的 ETF 原型作为参考结构，对齐特征之间的角度关系，从而让不同客户端和不同任务中的类别特征保持更稳定的几何分布。

第二个是 Energy-based Geometric Correction，它在推理阶段移除与当前任务无关的方向成分，减少模型对多数类的偏向，提高对少数类和旧类别的识别能力。

实验中，论文在 CIFAR10、CIFAR100 和 TinyImageNet-Subset 等数据集上进行验证，并设置了不同客户端数量、任务划分和异质性程度。结果显示，FEAT 能够在多种设置下提升 Top-1 Accuracy，并且可以与 Re-Fed+、FedCBDR 等已有样本回放方法结合使用，在保持较低通信开销的同时进一步提升性能。

这篇论文的亮点在于，它没有继续把重点放在“如何挑选回放样本”上，而是进一步思考“选出来的样本该如何被更有效地使用”。

通过几何结构对齐和推理阶段校正，FEAT 让联邦持续学习在面对动态异质性和类别不平衡时更加稳定。总体来看，这项工作为资源受限、多客户端、任务持续变化的实际联邦学习场景提供了一种更精细、更稳健的样本回放增强方案。

如果说 FEAT 关注的是多客户端、多任务环境下的持续学习稳定性，那么《Modeling Cross-vision Synergy for Unified Large Vision Model》则进一步讨论大视觉模型如何在更广泛的视觉模态之间建立协同关系，它面对的问题不再只是“如何保留旧知识”，而是如何让图像、视频和 3D 这几种视觉经验真正互相补充。

相关研究来自新加坡国立大学和南洋理工大学。论文主要研究如何让一个大视觉模型同时处理图像、视频和 3D 数据，并且不是简单地把不同模态放进同一个框架里，而是让它们之间真正形成互补和协同。

这项任务的背景在于，图像、视频和 3D 场景虽然形式不同，但本质上都来自视觉世界。图像更擅长提供颜色、纹理、布局等静态信息，视频包含运动和时间变化，3D 数据则能提供空间结构、距离和几何关系。

以往的统一视觉模型大多追求“功能整合”，也就是让一个模型能接收多种视觉输入，但不同模态之间缺少深入交互，模型很难把视频中的时间先验、3D 中的空间先验和图像中的视觉细节真正结合起来。

论文地址：https://arxiv.org/pdf/2603.03564v1

针对这一问题，论文提出了 PolyV 框架，目标是实现跨视觉协同。它采用稀疏 MoE 架构，并通过动态路由器协调不同专家模块，让每个专家学习特定模态的先验知识，同时又能在图像、视频和 3D 之间进行双向交互和相互补充。也就是说，模型不是把不同模态的特征简单拼接起来，而是让不同模态中的知识在推理过程中互相影响、互相增强。

训练上，论文设计了协同感知训练流程。第一阶段是模态特定预训练，让模型分别学习图像、视频和 3D 数据中的基础能力；第二阶段是跨视觉协同训练，包括粗粒度和细粒度两个层面。

粗粒度训练通过知识蒸馏引入视频基础模型和 3D 基础模型中的时间、空间先验；细粒度训练则进一步对齐不同模态中的对象属性、空间关系和事件一致性，使模型能在更细的层面上建立跨模态对应关系。

论文还引入了 synergy token，让模型在生成最终回答之前先形成一种中间的“协同表示”。这种设计相当于让模型先综合来自不同视觉模态的补充信息，再进行回答，从而提升它在空间推理、时间推理和跨模态理解任务中的表现。

实验中，PolyV 在图像、视频和 3D 理解相关的 10 个代表性基准上进行了验证，包括 MMStar、3DSRBench、MMSI-Bench、VideoMME、VSI-Bench、CVBench、ScanQA、SQA3D 和 Open-EQA 等任务。结果显示，PolyV 在多个任务上都优于已有模型，并且相比其基础模型 Qwen2.5-VL-7B，平均提升约 10%。

这篇论文的亮点在于，它把统一视觉模型从“能处理多种输入”推进到“能让多种视觉模态彼此协同”。过去的模型可能只是分别理解图像、视频或 3D，而 PolyV 试图让模型利用视频中的运动知识增强图像推理，用 3D 中的几何知识增强空间理解，再通过 MoE 和协同训练机制实现更灵活的视觉推理。

总体来看，这项工作强调的是下一代大视觉模型的一个重要方向：模型不仅要看得多，还要能把不同视觉经验组织起来，形成更接近人类视觉系统的综合理解能力。