编辑|+0
CVPR 2026 刚在美国丹佛落下帷幕。16092 篇投稿中,15 篇杀入最佳论文决选(Best Paper Finalists),入围率不足千分之一。
其中一篇来自阿里巴巴与清华大学的合作研究:《ViT³ : Unlocking Test-Time Training in Vision》。
它要解决的,是当前视觉模型领域最普遍的一类痛点:当图像分辨率越来越高、视频越来越长、多模态输入越来越复杂时,Transformer 逐渐算不动了。
ViT³ 给出了一条不同的路线。
在 RTX 3090 上处理 1248 × 1248 分辨率图像时,ViT³-T 的推理速度达到 DeiT-T 的 4.6 倍,GPU 显存消耗降低了 90.3%。
换句话说,它只使用接近十分之一的显存,却实现了更高的处理速度。
但这篇论文的意义,并不只是让视觉模型跑得更快。
它真正尝试改变的,是视觉模型保存和调用上下文信息的方式:不再单纯依赖固定公式压缩信息,而是在处理当前输入时,通过一次快速的在线学习,把上下文写入一个紧凑的内部模型。
这条路线建立在近年来受到关注的 Test-Time Training(TTT,测试时训练)框架之上,而 ViT³ 则进一步将其系统引入视觉领域,并梳理出一套可复用的设计原则。
- 论文地址:https://arxiv.org/pdf/2512.01643
- 代码: https://github.com/LeapLabTHU/ViTTT
阿里巴巴长期关注多模态大模型与新一代交互体验。随着 AI 逐渐进入真实生活场景,模型需要处理的视觉信息正在变得越来越复杂:更高清的图片、更长的视频,以及持续增长的多模态上下文。
如何在控制算力成本的同时,让模型看得更清楚、理解得更完整,已经成为多模态技术走向实际应用时必须面对的问题。ViT³ 所探索的,正是这一底层能力。
把上下文压缩,变成一次临场学习
要理解 ViT³ 的价值,需要先回到视觉模型长期面对的一组矛盾:如何在降低计算复杂度的同时,尽可能保留上下文建模能力。
Vision Transformer 在 2020 年被提出后,迅速成为计算机视觉中最重要的主流架构之一,并持续推动图像分类、目标检测、语义分割和图像生成等任务的发展。
但标准 Softmax Attention 有一笔随着序列长度快速膨胀的账。
一张图片进入视觉 Transformer 后,通常会被拆分成一组 token。图片分辨率越高,token 数量就越多。标准 Attention 需要显式计算不同 token 之间的两两关系,其计算和显存成本会随 token 数量呈二次增长。
为便于理解,省略缩放系数后,标准 Attention 可以简写为:Softmax(QKᵀ)V
其中,Q 代表 query,K 代表 key,V 代表 value。真正带来高成本的,是 QKᵀ 形成的 N × N 矩阵。
当模型处理的是普通分辨率图片时,这笔成本尚且可控。但一旦面对超高清图片、长视频或更复杂的多模态输入,token 序列长度迅速增加,计算和显存开销就会逐渐接近成本边界。
为了降低成本,过去几年出现了多种线性复杂度方案。
Linear Attention的思路,是改变计算顺序。它将关键计算从 Softmax(QKᵀ)V 改写为 Q(KᵀV),先把 K 和 V 压缩成一个固定大小的状态,再让 Q 从中读取信息。由于 KᵀV 的大小与序列长度 N 无关,复杂度可以降到 O(N)。
但代价也很明显:上下文被压缩进一个相对简单的线性状态。压缩效率提高了,表达能力却可能不足,实际性能往往与标准 Transformer 存在差距。
Mamba 和状态空间模型走了另一条路。它们维护一个固定大小的隐状态,并沿着序列逐步更新。相比简单的线性映射,这种状态更新机制更灵活,但仍然需要回答同一个问题:当序列越来越长、全局依赖越来越复杂时,如何把足够丰富的信息写入一个容量有限的状态?
用一个类比来说:标准 attention 是「保留全部资料,需要时重新检索」,代价是资料越多,检索成本越高;Linear Attention 是「提前压缩成一份固定摘要」,速度更快,但容易遗漏细节;Mamba 则像是「一边阅读,一边持续更新一份有限长度的笔记」。
这些方案背后长期存在一组交换条件:压缩越激进,计算越便宜;但压缩方式越简单,模型越容易损失表达能力。
Test-Time Training 试图改变这组交换条件。它不再把上下文压缩视为一次固定的矩阵运算,而是把它改写成一次快速的在线学习过程。
TTT Block 保留了 Transformer 的宏观结构。不同之处在于,原本的 Attention 计算被替换为一次可学习的上下文压缩与读取过程。
具体来说,TTT 将当前输入中的 key-value 对视为一个临时的「迷你数据集」。模型在推理过程中,对一个小型内部网络进行短暂的自监督训练,让它学习从 K 预测 V。随后,再使用更新后的内部网络处理 query。
换句话说,模型面对每一组新的输入时,都会进行一次轻量级的临场适配。
这也是「Test-Time Training」这个名字的来源:在测试阶段,模型会针对当前输入,短暂训练一个内部模型,再利用它完成信息读取。
整个内部训练过程仍然是可微的,并与外部网络一起端到端优化,不需要拆分成多个独立阶段。
线性注意力使用固定矩阵乘法压缩上下文;TTT 则使用梯度下降压缩上下文。前者是固定的线性操作,后者是一种学习驱动的非线性压缩方式。只要内部模型的规模保持固定,整体复杂度仍然可以维持在线性水平,但信息压缩能力有机会进一步提高。
论文中有一张关键示意图,展示了 Softmax Attention、Linear Attention 和 TTT 之间的关系。
Softmax Attention 可以被理解为一个宽度随序列长度增长的内部模型;Linear Attention 对应一个固定大小的线性内部模型;TTT 则进一步允许内部模型成为可训练的小型网络。
ViT³ 并不是完全抛开 Attention 另起炉灶,而是在同一个框架中,打开了更大的设计空间。
Softmax Attention、Linear Attention 与 TTT 的统一视角。Softmax Attention 保留完整上下文,Linear Attention 将上下文压缩为固定大小的线性状态;TTT 则通过在线训练,将上下文写入一个可更新的内部模型。
在空白的设计空间里画出地图
设计空间更大,意味着选择更多,也意味着更容易走错路。
在 ViT³ 之前,TTT 已经在语言模型中获得关注,但视觉数据与语言数据并不相同。语言天然具有顺序和因果结构。图像则是二维空间信息,不同 token 之间不存在同样明确的先后关系。
当 TTT 进入视觉领域后,一系列基础问题都需要重新回答:内部模型应该使用什么架构?损失函数如何选择?应该更新多少轮?学习率应该多大?卷积和 MLP 哪一种更适合视觉任务?
ViT³ 的重要贡献之一,是通过系统实验梳理视觉 TTT 的设计空间,总结出六条可以复用的实践原则,并讨论了TTT 当前存在的核心挑战和未来研究方向。
观察一:内部训练损失函数的混合二阶导数不能为零。
TTT 的内部训练过程要和外部网络一起做端到端优化,这意味着梯度要穿过内部训练步骤回传到外部参数。如果损失函数的混合二阶导数为零,外部参数的梯度信号就会在回传中消失。MAE(L1)损失的导数是符号函数,混合二阶导几乎处处为零——实验中它比 MSE 损失低了 2.4 个百分点。这不是一个可以通过调参弥补的小问题,它决定了某些损失函数从根本上不适用于 TTT。
观察二:视觉任务适合全批次、单轮训练。
此前 NLP 领域的 TTT 实践发现,小批量顺序更新通常更有效。但在视觉任务中,全批次更新表现更好。论文给出了一个有说服力的解释:小批量顺序更新会引入因果偏置——前面的 batch 影响后面的梯度,后面的更新也可能覆盖前面的信息。这种偏置适合具有方向性的语言数据,但对非因果的视觉数据反而是一种负担。综合准确率、吞吐和训练稳定性,ViT³ 最终采用单轮全批次更新。
观察三:在稳定的前提下,更大的内部学习率效果更好。
实验表明,在训练稳定的前提下,越大的学习率效果越好。太小的学习率会让内部模型更新不充分,无法有效存储上下文信息;过大的学习率则容易导致训练不稳定。
值得注意的是,在一些特殊情况下,内部学习率可以吸收为 K 和 V 的放缩。但是这并不内说明内部学习率的设置不重要。一个类似的例子是Softmax注意力中的
放缩,它也能够被 Q 和 K 吸收,但是依然重要。
观察四:增加内部模型容量,性能持续提升。
一个关键问题是:TTT 能不能通过简单扩大内部模型来提升序列建模能力?为了探索这一点,论文将 TTT 内部模型实现为一个 SiLU 激活函数的两层 MLP,并逐渐增加其宽度。实验表明,当隐藏维度 d 扩到 4d,准确率从 78.9% 提升到 79.6%,没有饱和迹象。这是TTT 范式的一个核心优势,即它可以在外部模型尺寸固定的条件下,通过简单地扩展内部模型尺寸来实现更好的序列建模效果。这和 Linear Attention 形成鲜明对比:后者通常将上下文压缩进固定大小的线性状态,表达能力和扩展空间相对有限。
随着内部模型宽度增加,TTT 的性能持续提升,说明内部模型容量仍有进一步扩展空间。
观察五:当前更深的内部模型存在优化困难,需要未来工作解锁其理论潜力。
一个不符合预期的结果是,把内部模型从一层变成两层、三层,参数更多、理论容量更大,但实际准确率反而下降。论文的分析指向优化困难:更深的内部模型在 TTT 的短训练步数下容易欠拟合——训练损失更高,测试准确率更低。当前深层网络的理论优势在 TTT 的快速训练场景中难以兑现。论文同时发现,如果把输出层固定为单位矩阵(一种「约束设计」),准确率反而比完整的两层 MLP 更高。这进一步证实了优化瓶颈的存在。
解决较深内部模型的优化问题,是 TTT 的一个重要未来方向。理论工作表明,神经网络的拟合能力随深度指数增长,这正是当前神经网络成功的核心原因。因此,较深的内部模型在实现高精度测试时训练序列建模中具有突出潜力。
增加内部模型深度,并没有带来更高的准确率。随着层数增加,训练损失反而更高,说明视觉 TTT 当前仍面临内部模型优化瓶颈。
观察六:卷积天然适合做视觉 TTT 的内部模型。
随着 Transformer 兴起,卷积不再是视觉模型中唯一占据主导地位的结构。但在 TTT 框架中,它获得了一个新的角色。TTT 把全局上下文压缩进内部模型的权重,当内部模型是卷积时,这些权重就是卷积核——全局信息被编码在核的参数里,而卷积操作本身又提供了局部感受野。一次前向推理同时完成了全局和局部信息的整合。实验中,一个轻量级 3 × 3 深度卷积在参数量更少的情况下,比 MLP baseline 高出 1.2 个百分点。
这六条原则并不是相互独立的经验。
观察一排除了一类不适用于TTT 的损失函数;观察二和观察三回答「应该怎么训练」;观察四、观察五和观察六则回答「内部模型应该如何设计」。
它们共同构成了一份视觉 TTT 的实践地图:哪些方向值得未来工作继续探索,哪些路径容易陷入优化瓶颈,哪些设计能够在效果和效率之间取得更好的平衡。
从分类到生成,
ViT³ 的优势在高分辨率下放大
基于前面的六条观察,研究团队最终搭建出 Vision Test-Time Training 模型,简称 ViT³。
它的整体设计并不复杂。
在多数 Attention head 中,ViT³ 使用一种简化的门控内部模型,在保持易于优化的同时,提供比纯线性状态更强的表达能力。另有一个 head 引入轻量级的 3 × 3 深度卷积,使模型在压缩全局上下文的同时,也能够利用图像中的局部空间结构。
内部训练同样保持克制:每次只进行一轮全批次梯度更新。换句话说,ViT³ 没有在推理过程中嵌入一套繁重的训练流程,而是在控制额外成本的前提下,让内部模型完成一次快速适配。
围绕这一模块,论文构建了三类模型:ViT³ 采用非层级架构,对齐经典 Vision Transformer;H-ViT³ 使用四阶段层级设计,更适合作为通用视觉骨干网络;DiT³ 则将同样的 TTT 模块放入扩散模型,用于图像生成。
这组设计的目标,不是针对某一个 benchmark 调整出更高的数字,而是验证一个更关键的问题:TTT 能否成为一种可迁移的视觉序列建模模块?
从实验结果看,答案是积极的。
在图像分类任务中,ViT³ 展现出有竞争力的视觉表征能力。在目标检测和语义分割等需要处理更高分辨率输入的任务中,它也能够超过多种同级别的 Mamba 和 Linear Attention 模型。
这说明,相比将上下文压缩进一个简单线性状态,ViT³ 使用更灵活的内部模型保存信息,能够在控制计算成本的同时,维持较强的建模能力。
ViT³ 的适用范围也没有停留在识别任务。
研究团队进一步将 TTT 模块放入扩散模型,构建出 DiT³。实验显示,在不同模型规模和 patch 配置下,DiT³ 均能够改善原始 DiT 的图像生成质量。
这意味着,TTT 可以作为一个相对独立的模块,进入不同类型的视觉架构。
但 ViT³ 最直观的优势,仍然来自高分辨率图像。
在 RTX 3090 上处理 1248 × 1248 图像时,单张图片包含 6084 个 token。此时,ViT³-T 的推理速度达到 DeiT-T 的 4.6 倍,GPU 显存消耗降低了 90.3%。
原因并不复杂。
在低分辨率输入下,序列较短,标准 Attention 的成本仍然可以承受。随着分辨率提高,token 数量快速增加,标准 Softmax Attention 的计算和显存开销随序列长度呈二次增长;ViT³ 则保持线性复杂度。两条曲线之间的差距,会随着输入规模扩大持续拉开。
对于面向真实生活场景的多模态应用而言,这一点尤其重要。
当模型开始接收更高清的图片、更长的视频和更复杂的视觉上下文时,序列长度会快速增加。单纯依赖算力堆叠,很难无限持续。
这也与阿里巴巴长期关注的方向形成呼应。
未来的多模态交互,不只是让模型识别一张图片,而是需要它在真实环境中持续处理更加复杂的视觉信息。无论是更自然的人机交互,还是面向生活场景的 AI 原生应用,都需要一个更具扩展性的视觉底座。
ViT³ 所验证的,是另一种可能性:通过架构创新提高上下文压缩质量,在不放弃线性复杂度优势的前提下,尽量缩小与标准 Transformer 之间的性能差距。
但 ViT³ 还不是对 Transformer 的全面替代。
论文给出的定位相对克制:作为一套视觉 TTT baseline,它已经超过多种线性复杂度模型,并显著缩小了与主流视觉 Transformer 的性能差距,但仍存在进一步提升空间。
另一方面,4.6 倍速度提升和 90.3% 显存节省来自 RTX 3090 上的实验结果,证明了算法层面的扩展优势,但还不能直接等同于手机、车端等边缘设备上的实际部署效果。
更准确地说,ViT³ 为端侧部署和高分辨率多模态应用打开了新的可能性,也为后续工程优化提供了基础。
算力与性能,不必互斥
过去几年,视觉模型领域逐渐形成了一种默认路径:更好的性能,往往意味着更大的模型、更多的训练数据和更高的算力成本。
线性复杂度模型虽然更加高效,但通常需要付出性能代价。
ViT³ 试图重新检验这一前提。
它系统梳理了视觉 TTT 的设计空间,证明学习驱动的上下文压缩可以覆盖分类、检测、分割和生成任务,并在高分辨率场景下展现出更加明显的效率优势。
这也是阿里巴巴持续探索的方向。
当多模态模型持续走向高清视觉、长上下文和复杂交互,行业需要回答一个更长期的问题:能力增长是否只能依赖更多算力?
ViT³ 给出了另一种可能:答案也许不在更大的模型里,而在更聪明的架构里。
热门跟贴