CVPR 2026 | 追踪视觉Token的演化轨迹，实现无损压缩与60%推理加速|cvpr|token|推理|文章|视觉|轨迹

近年来，以LLaVA、Qwen系列为代表的大视觉语言模型（LVLM）推动了多模态智能的发展，在视觉理解与推理任务中展现不错的表现。然而，其伴随着高昂的推理成本。面对高分辨率图像或者视频时，模型往往需要处理大量视觉Token，而这些Token会在整个推理过程中持续参与计算，成为制约模型效率的重要瓶颈。因此，如何识别并保留真正重要的视觉Token，在尽可能不影响性能的前提下降低计算开销，已成为当前多模态大模型研究的重要课题。

来自山东大学，MBZUAI的研究团队提出了TransPrune：从演化的视角衡量视觉Token的重要性，在保持整体性能无损的同时，将推理成本降低60%。

论文题目： TransPrune: Token Transition Pruning for Efficient Large Vision-Language Model 论文链接： https://arxiv.org/abs/2507.20630 代码链接： https://github.com/liaolea/TransPrune

一、研究背景

现有Token Pruning方法大多依赖Attention Score或Token Similarity来衡量视觉Token的重要性，但这些方法在实际使用中都存在一定局限性。

基于Attention的方法通常假设“被关注得多的Token就更重要”，然而Attention本身存在位置偏差 (Attention Sink)，使得一些与语义无关的Token也可能获得较高的注意力权重，从而影响重要性判断的准确性。

基于Token Similarity的方法则主要从冗余性角度出发，通过衡量Token之间的相似程度来进行融合，但这类方法往往忽略了具体任务指令的影响，难以针对不同问题动态调整Token的重要性分配。

论文发现，除了依赖某一层的Attention分数来判断Token的重要性，还可以观察Token在整个前向传播过程中的“变化轨迹”。当一个视觉Token承载更重要的语义信息时，它的多层传播中往往会经历更显著的表征变化。重要Token并不是静态存在的，而是在模型内部持续发生“演化”。

基于这一观察，论文将这种变化定义为Token Transition，并从两个维度对其进行量化：一方面是Magnitude Change，即Token向量L2范数的变化，重要语义Token通常会表现出更明显的幅值变化；另一方面是Direction Change，即Token表示方向的偏移，通过输入与输出表示之间的余弦相似度进行衡量。实验结果表明，真正重要的Token往往同时具有更大的Magnitude变化和更显著的Direction变化，且这一现象在LLM的中间层尤为突出。

二、本文方法

TransPrune整体方法由两个互补模块构成：Token Transition Variation（TTV）与Instruction-Guided Attention（IGA），分别从“Token自身在网络中的演化轨迹”和“任务语义对Token的显式约束”两个角度衡量视觉Token的重要性。

TTV作为核心评分机制，在模型前向传播过程中持续跟踪每个视觉Token在不同层之间的表示变化，并将这种变化量化为统一的重要性得分，实现对Token“动态重要性”的估计。

单层的TTV往往具有较强噪声，容易受到局部波动或特定层结构的影响，导致重要性判断不稳定。相比之下，如果观察Token在多个层中的持续变化趋势，就可以更可靠地捕捉其“长期语义贡献”。因此，论文对TTV引入了跨层累积机制来获得更加稳定Token的重要性估计。

然而，仅依靠TTV无法对齐具体问题指令的需求。为此，方法进一步引入IGA模块，通过利用文本指令与视觉Token之间的注意力关联，显式建模当前问题对不同视觉区域的关注程度，从而为Token筛选提供任务层面的约束与引导。

三、实验结果 3.1 对比现有within-LLM方法

论文对比了现有的within-LLM的方法，证明TransPrune在较低的TFLOPs的情况下仍然取得了性能的领先。

3.2 与projector-based的方法结合

论文还探索了TransPrune与projector-based压缩方法的组合效果。当将其与VisionZip等方法结合使用时，在额外减少约三分之一计算量的情况下，模型性能仅出现极小幅度下降，表明Token Transition所刻画的“动态重要性”与现有Projector-based压缩范式具有良好的互补性，不仅可以独立发挥作用，还能够作为插件式模块嵌入到其他高效推理框架中，从而进一步提升整体计算效率。

四、总结

通过发现并量化Token Transition这一现象，论文发现了一个全新的视觉Token重要性的衡量角度：不再仅仅取决于它在某一层中“被关注的程度”，还体现在它在整个网络传播过程中“持续演化的强度”。基于这一观察，论文提出了TransPrune剪枝框架，在多个主流视觉语言模型上实现了显著的推理加速，并保持了优异的性能表现。这项工作不仅能够为高效视觉语言模型研究提供新的解决方案，也能够启发研究者从动态表征演化的角度重新理解Transformer中的信息流动过程，为未来的多模态模型高效推理带来更多可能性。

Illustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情