入围CVPR 2026最佳论文决选，ViT³突破Transformer复杂度瓶颈|cvpr|上下文|二阶|卷积|复杂度|新论文|论文决选

编辑｜+0

CVPR 2026 刚在美国丹佛落下帷幕。16092 篇投稿中，15 篇杀入最佳论文决选（Best Paper Finalists），入围率不足千分之一。

其中一篇来自阿里巴巴与清华大学的合作研究：《ViT³ : Unlocking Test-Time Training in Vision》。

它要解决的，是当前视觉模型领域最普遍的一类痛点：当图像分辨率越来越高、视频越来越长、多模态输入越来越复杂时，Transformer 逐渐算不动了。

ViT³ 给出了一条不同的路线。

在 RTX 3090 上处理 1248 × 1248 分辨率图像时，ViT³-T 的推理速度达到 DeiT-T 的 4.6 倍，GPU 显存消耗降低了 90.3%。

换句话说，它只使用接近十分之一的显存，却实现了更高的处理速度。

但这篇论文的意义，并不只是让视觉模型跑得更快。

它真正尝试改变的，是视觉模型保存和调用上下文信息的方式：不再单纯依赖固定公式压缩信息，而是在处理当前输入时，通过一次快速的在线学习，把上下文写入一个紧凑的内部模型。

这条路线建立在近年来受到关注的 Test-Time Training（TTT，测试时训练）框架之上，而 ViT³ 则进一步将其系统引入视觉领域，并梳理出一套可复用的设计原则。

论文地址：https://arxiv.org/pdf/2512.01643
代码： https://github.com/LeapLabTHU/ViTTT

阿里巴巴长期关注多模态大模型与新一代交互体验。随着 AI 逐渐进入真实生活场景，模型需要处理的视觉信息正在变得越来越复杂：更高清的图片、更长的视频，以及持续增长的多模态上下文。

如何在控制算力成本的同时，让模型看得更清楚、理解得更完整，已经成为多模态技术走向实际应用时必须面对的问题。ViT³ 所探索的，正是这一底层能力。

把上下文压缩，变成一次临场学习

要理解 ViT³ 的价值，需要先回到视觉模型长期面对的一组矛盾：如何在降低计算复杂度的同时，尽可能保留上下文建模能力。

Vision Transformer 在 2020 年被提出后，迅速成为计算机视觉中最重要的主流架构之一，并持续推动图像分类、目标检测、语义分割和图像生成等任务的发展。

但标准 Softmax Attention 有一笔随着序列长度快速膨胀的账。

一张图片进入视觉 Transformer 后，通常会被拆分成一组 token。图片分辨率越高，token 数量就越多。标准 Attention 需要显式计算不同 token 之间的两两关系，其计算和显存成本会随 token 数量呈二次增长。

为便于理解，省略缩放系数后，标准 Attention 可以简写为：Softmax(QKᵀ)V

其中，Q 代表 query，K 代表 key，V 代表 value。真正带来高成本的，是 QKᵀ 形成的 N × N 矩阵。

当模型处理的是普通分辨率图片时，这笔成本尚且可控。但一旦面对超高清图片、长视频或更复杂的多模态输入，token 序列长度迅速增加，计算和显存开销就会逐渐接近成本边界。

为了降低成本，过去几年出现了多种线性复杂度方案。

Linear Attention的思路，是改变计算顺序。它将关键计算从 Softmax(QKᵀ)V 改写为 Q(KᵀV)，先把 K 和 V 压缩成一个固定大小的状态，再让 Q 从中读取信息。由于 KᵀV 的大小与序列长度 N 无关，复杂度可以降到 O(N)。

但代价也很明显：上下文被压缩进一个相对简单的线性状态。压缩效率提高了，表达能力却可能不足，实际性能往往与标准 Transformer 存在差距。

Mamba 和状态空间模型走了另一条路。它们维护一个固定大小的隐状态，并沿着序列逐步更新。相比简单的线性映射，这种状态更新机制更灵活，但仍然需要回答同一个问题：当序列越来越长、全局依赖越来越复杂时，如何把足够丰富的信息写入一个容量有限的状态？

用一个类比来说：标准 attention 是「保留全部资料，需要时重新检索」，代价是资料越多，检索成本越高；Linear Attention 是「提前压缩成一份固定摘要」，速度更快，但容易遗漏细节；Mamba 则像是「一边阅读，一边持续更新一份有限长度的笔记」。

这些方案背后长期存在一组交换条件：压缩越激进，计算越便宜；但压缩方式越简单，模型越容易损失表达能力。

Test-Time Training 试图改变这组交换条件。它不再把上下文压缩视为一次固定的矩阵运算，而是把它改写成一次快速的在线学习过程。

TTT Block 保留了 Transformer 的宏观结构。不同之处在于，原本的 Attention 计算被替换为一次可学习的上下文压缩与读取过程。

具体来说，TTT 将当前输入中的 key-value 对视为一个临时的「迷你数据集」。模型在推理过程中，对一个小型内部网络进行短暂的自监督训练，让它学习从 K 预测 V。随后，再使用更新后的内部网络处理 query。

换句话说，模型面对每一组新的输入时，都会进行一次轻量级的临场适配。

这也是「Test-Time Training」这个名字的来源：在测试阶段，模型会针对当前输入，短暂训练一个内部模型，再利用它完成信息读取。

整个内部训练过程仍然是可微的，并与外部网络一起端到端优化，不需要拆分成多个独立阶段。

线性注意力使用固定矩阵乘法压缩上下文；TTT 则使用梯度下降压缩上下文。前者是固定的线性操作，后者是一种学习驱动的非线性压缩方式。只要内部模型的规模保持固定，整体复杂度仍然可以维持在线性水平，但信息压缩能力有机会进一步提高。

论文中有一张关键示意图，展示了 Softmax Attention、Linear Attention 和 TTT 之间的关系。

Softmax Attention 可以被理解为一个宽度随序列长度增长的内部模型；Linear Attention 对应一个固定大小的线性内部模型；TTT 则进一步允许内部模型成为可训练的小型网络。

ViT³ 并不是完全抛开 Attention 另起炉灶，而是在同一个框架中，打开了更大的设计空间。

Softmax Attention、Linear Attention 与 TTT 的统一视角。Softmax Attention 保留完整上下文，Linear Attention 将上下文压缩为固定大小的线性状态；TTT 则通过在线训练，将上下文写入一个可更新的内部模型。

在空白的设计空间里画出地图

设计空间更大，意味着选择更多，也意味着更容易走错路。

在 ViT³ 之前，TTT 已经在语言模型中获得关注，但视觉数据与语言数据并不相同。语言天然具有顺序和因果结构。图像则是二维空间信息，不同 token 之间不存在同样明确的先后关系。

当 TTT 进入视觉领域后，一系列基础问题都需要重新回答：内部模型应该使用什么架构？损失函数如何选择？应该更新多少轮？学习率应该多大？卷积和 MLP 哪一种更适合视觉任务？

ViT³ 的重要贡献之一，是通过系统实验梳理视觉 TTT 的设计空间，总结出六条可以复用的实践原则，并讨论了TTT 当前存在的核心挑战和未来研究方向。

观察一：内部训练损失函数的混合二阶导数不能为零。

TTT 的内部训练过程要和外部网络一起做端到端优化，这意味着梯度要穿过内部训练步骤回传到外部参数。如果损失函数的混合二阶导数为零，外部参数的梯度信号就会在回传中消失。MAE（L1）损失的导数是符号函数，混合二阶导几乎处处为零——实验中它比 MSE 损失低了 2.4 个百分点。这不是一个可以通过调参弥补的小问题，它决定了某些损失函数从根本上不适用于 TTT。

观察二：视觉任务适合全批次、单轮训练。

此前 NLP 领域的 TTT 实践发现，小批量顺序更新通常更有效。但在视觉任务中，全批次更新表现更好。论文给出了一个有说服力的解释：小批量顺序更新会引入因果偏置——前面的 batch 影响后面的梯度，后面的更新也可能覆盖前面的信息。这种偏置适合具有方向性的语言数据，但对非因果的视觉数据反而是一种负担。综合准确率、吞吐和训练稳定性，ViT³ 最终采用单轮全批次更新。

观察三：在稳定的前提下，更大的内部学习率效果更好。

实验表明，在训练稳定的前提下，越大的学习率效果越好。太小的学习率会让内部模型更新不充分，无法有效存储上下文信息；过大的学习率则容易导致训练不稳定。

值得注意的是，在一些特殊情况下，内部学习率可以吸收为 K 和 V 的放缩。但是这并不内说明内部学习率的设置不重要。一个类似的例子是Softmax注意力中的

放缩，它也能够被 Q 和 K 吸收，但是依然重要。

观察四：增加内部模型容量，性能持续提升。

一个关键问题是：TTT 能不能通过简单扩大内部模型来提升序列建模能力？为了探索这一点，论文将 TTT 内部模型实现为一个 SiLU 激活函数的两层 MLP，并逐渐增加其宽度。实验表明，当隐藏维度 d 扩到 4d，准确率从 78.9% 提升到 79.6%，没有饱和迹象。这是TTT 范式的一个核心优势，即它可以在外部模型尺寸固定的条件下，通过简单地扩展内部模型尺寸来实现更好的序列建模效果。这和 Linear Attention 形成鲜明对比：后者通常将上下文压缩进固定大小的线性状态，表达能力和扩展空间相对有限。

随着内部模型宽度增加，TTT 的性能持续提升，说明内部模型容量仍有进一步扩展空间。

观察五：当前更深的内部模型存在优化困难，需要未来工作解锁其理论潜力。

一个不符合预期的结果是，把内部模型从一层变成两层、三层，参数更多、理论容量更大，但实际准确率反而下降。论文的分析指向优化困难：更深的内部模型在 TTT 的短训练步数下容易欠拟合——训练损失更高，测试准确率更低。当前深层网络的理论优势在 TTT 的快速训练场景中难以兑现。论文同时发现，如果把输出层固定为单位矩阵（一种「约束设计」），准确率反而比完整的两层 MLP 更高。这进一步证实了优化瓶颈的存在。

解决较深内部模型的优化问题，是 TTT 的一个重要未来方向。理论工作表明，神经网络的拟合能力随深度指数增长，这正是当前神经网络成功的核心原因。因此，较深的内部模型在实现高精度测试时训练序列建模中具有突出潜力。

增加内部模型深度，并没有带来更高的准确率。随着层数增加，训练损失反而更高，说明视觉 TTT 当前仍面临内部模型优化瓶颈。

观察六：卷积天然适合做视觉 TTT 的内部模型。

随着 Transformer 兴起，卷积不再是视觉模型中唯一占据主导地位的结构。但在 TTT 框架中，它获得了一个新的角色。TTT 把全局上下文压缩进内部模型的权重，当内部模型是卷积时，这些权重就是卷积核——全局信息被编码在核的参数里，而卷积操作本身又提供了局部感受野。一次前向推理同时完成了全局和局部信息的整合。实验中，一个轻量级 3 × 3 深度卷积在参数量更少的情况下，比 MLP baseline 高出 1.2 个百分点。

这六条原则并不是相互独立的经验。

观察一排除了一类不适用于TTT 的损失函数；观察二和观察三回答「应该怎么训练」；观察四、观察五和观察六则回答「内部模型应该如何设计」。

它们共同构成了一份视觉 TTT 的实践地图：哪些方向值得未来工作继续探索，哪些路径容易陷入优化瓶颈，哪些设计能够在效果和效率之间取得更好的平衡。

从分类到生成，

ViT³ 的优势在高分辨率下放大

基于前面的六条观察，研究团队最终搭建出 Vision Test-Time Training 模型，简称 ViT³。

它的整体设计并不复杂。

在多数 Attention head 中，ViT³ 使用一种简化的门控内部模型，在保持易于优化的同时，提供比纯线性状态更强的表达能力。另有一个 head 引入轻量级的 3 × 3 深度卷积，使模型在压缩全局上下文的同时，也能够利用图像中的局部空间结构。

内部训练同样保持克制：每次只进行一轮全批次梯度更新。换句话说，ViT³ 没有在推理过程中嵌入一套繁重的训练流程，而是在控制额外成本的前提下，让内部模型完成一次快速适配。

围绕这一模块，论文构建了三类模型：ViT³ 采用非层级架构，对齐经典 Vision Transformer；H-ViT³ 使用四阶段层级设计，更适合作为通用视觉骨干网络；DiT³ 则将同样的 TTT 模块放入扩散模型，用于图像生成。

这组设计的目标，不是针对某一个 benchmark 调整出更高的数字，而是验证一个更关键的问题：TTT 能否成为一种可迁移的视觉序列建模模块？

从实验结果看，答案是积极的。

在图像分类任务中，ViT³ 展现出有竞争力的视觉表征能力。在目标检测和语义分割等需要处理更高分辨率输入的任务中，它也能够超过多种同级别的 Mamba 和 Linear Attention 模型。

这说明，相比将上下文压缩进一个简单线性状态，ViT³ 使用更灵活的内部模型保存信息，能够在控制计算成本的同时，维持较强的建模能力。

ViT³ 的适用范围也没有停留在识别任务。

研究团队进一步将 TTT 模块放入扩散模型，构建出 DiT³。实验显示，在不同模型规模和 patch 配置下，DiT³ 均能够改善原始 DiT 的图像生成质量。

这意味着，TTT 可以作为一个相对独立的模块，进入不同类型的视觉架构。

但 ViT³ 最直观的优势，仍然来自高分辨率图像。

在 RTX 3090 上处理 1248 × 1248 图像时，单张图片包含 6084 个 token。此时，ViT³-T 的推理速度达到 DeiT-T 的 4.6 倍，GPU 显存消耗降低了 90.3%。

原因并不复杂。

在低分辨率输入下，序列较短，标准 Attention 的成本仍然可以承受。随着分辨率提高，token 数量快速增加，标准 Softmax Attention 的计算和显存开销随序列长度呈二次增长；ViT³ 则保持线性复杂度。两条曲线之间的差距，会随着输入规模扩大持续拉开。

对于面向真实生活场景的多模态应用而言，这一点尤其重要。

当模型开始接收更高清的图片、更长的视频和更复杂的视觉上下文时，序列长度会快速增加。单纯依赖算力堆叠，很难无限持续。

这也与阿里巴巴长期关注的方向形成呼应。

未来的多模态交互，不只是让模型识别一张图片，而是需要它在真实环境中持续处理更加复杂的视觉信息。无论是更自然的人机交互，还是面向生活场景的 AI 原生应用，都需要一个更具扩展性的视觉底座。

ViT³ 所验证的，是另一种可能性：通过架构创新提高上下文压缩质量，在不放弃线性复杂度优势的前提下，尽量缩小与标准 Transformer 之间的性能差距。

但 ViT³ 还不是对 Transformer 的全面替代。

论文给出的定位相对克制：作为一套视觉 TTT baseline，它已经超过多种线性复杂度模型，并显著缩小了与主流视觉 Transformer 的性能差距，但仍存在进一步提升空间。

另一方面，4.6 倍速度提升和 90.3% 显存节省来自 RTX 3090 上的实验结果，证明了算法层面的扩展优势，但还不能直接等同于手机、车端等边缘设备上的实际部署效果。

更准确地说，ViT³ 为端侧部署和高分辨率多模态应用打开了新的可能性，也为后续工程优化提供了基础。

算力与性能，不必互斥

过去几年，视觉模型领域逐渐形成了一种默认路径：更好的性能，往往意味着更大的模型、更多的训练数据和更高的算力成本。

线性复杂度模型虽然更加高效，但通常需要付出性能代价。

ViT³ 试图重新检验这一前提。

它系统梳理了视觉 TTT 的设计空间，证明学习驱动的上下文压缩可以覆盖分类、检测、分割和生成任务，并在高分辨率场景下展现出更加明显的效率优势。

这也是阿里巴巴持续探索的方向。

当多模态模型持续走向高清视觉、长上下文和复杂交互，行业需要回答一个更长期的问题：能力增长是否只能依赖更多算力？

ViT³ 给出了另一种可能：答案也许不在更大的模型里，而在更聪明的架构里。

入围CVPR 2026最佳论文决选，ViT³突破Transformer复杂度瓶颈

热搜

热门跟贴

热搜

热门跟贴

相关推荐

CVPR 2026 模型适应性研究盘点：从保留旧知识，到适应真实世界

CVPR震惊！16092篇投稿仅中25%，5篇最佳论文3篇剑指具身智能，传统视觉真要变天？

Nature 子刊收录！清华李勇团队用 AI 解码全球气候耦合，ENSO 预测提前期延长至 19 个月

为何HFpEF难治？金玮教授详解疾病痛点与SGLT2i破局逻辑 | OCC 2026

2026年6月AI模型爆发：GPT-5 Turbo成本暴降3倍，开源逆袭闭源差距消失

Nat Biotech | 樊荣、陈斯迪团队开发Perturb-DBiT：首次实现空间CRISPR筛选下的全景式RNA解析

Adv Mater丨梁洪文团队发表人工拓扑纳米结构设计、制备与生物医学应用综述

Anthropic CEO又发长文：1-2年内迎来高阶AI，影响力堪比核武器

人工智能推动研究范式革命

刷题时代终结！2026高考数学背后，是一场国家级的战略转向

刚刚，地表最强Claude 5被攻破！

CVPR 2026 | 20步也能稳住画质，这个扩散加速方法不一样

Transformer解决计算问题？人大团队指出上限取决于上下文管理

多变量神经缩放定律迈向大一统：Mila联手DeepMind提出UNSL

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

30B参数超越GPT-5！REDSearcher让深度搜索Agent做到低成本可扩展

4位AI大牛对话50分钟！编程是AI胜负手、Claude“神话”模型是自然结果、降token是正确的

Anthropic老大的唯一 -1，就是AI股神的未婚妻

具身智能数据基建升级！神经腕带+全景头环，补全物理操作信号

亦庄机器人马拉松现场名场面合集