近年来,以LLaVA、Qwen系列为代表的大视觉语言模型(LVLM)推动了多模态智能的发展,在视觉理解与推理任务中展现不错的表现。然而,其伴随着高昂的推理成本。面对高分辨率图像或者视频时,模型往往需要处理大量视觉Token,而这些Token会在整个推理过程中持续参与计算,成为制约模型效率的重要瓶颈。因此,如何识别并保留真正重要的视觉Token,在尽可能不影响性能的前提下降低计算开销,已成为当前多模态大模型研究的重要课题。

来自山东大学,MBZUAI的研究团队提出了TransPrune:从演化的视角衡量视觉Token的重要性,在保持整体性能无损的同时,将推理成本降低60%。

打开网易新闻 查看精彩图片

论文题目: TransPrune: Token Transition Pruning for Efficient Large Vision-Language Model 论文链接: https://arxiv.org/abs/2507.20630 代码链接: https://github.com/liaolea/TransPrune

一、研究背景

现有Token Pruning方法大多依赖Attention Score或Token Similarity来衡量视觉Token的重要性,但这些方法在实际使用中都存在一定局限性。

基于Attention的方法通常假设“被关注得多的Token就更重要”,然而Attention本身存在位置偏差 (Attention Sink),使得一些与语义无关的Token也可能获得较高的注意力权重,从而影响重要性判断的准确性。

基于Token Similarity的方法则主要从冗余性角度出发,通过衡量Token之间的相似程度来进行融合,但这类方法往往忽略了具体任务指令的影响,难以针对不同问题动态调整Token的重要性分配。

打开网易新闻 查看精彩图片

论文发现,除了依赖某一层的Attention分数来判断Token的重要性,还可以观察Token在整个前向传播过程中的“变化轨迹”。当一个视觉Token承载更重要的语义信息时,它的多层传播中往往会经历更显著的表征变化。重要Token并不是静态存在的,而是在模型内部持续发生“演化”

基于这一观察,论文将这种变化定义为Token Transition,并从两个维度对其进行量化:一方面是Magnitude Change,即Token向量L2范数的变化,重要语义Token通常会表现出更明显的幅值变化;另一方面是Direction Change,即Token表示方向的偏移,通过输入与输出表示之间的余弦相似度进行衡量。实验结果表明,真正重要的Token往往同时具有更大的Magnitude变化和更显著的Direction变化,且这一现象在LLM的中间层尤为突出。

二、本文方法

TransPrune整体方法由两个互补模块构成:Token Transition Variation(TTV)与Instruction-Guided Attention(IGA),分别从“Token自身在网络中的演化轨迹”和“任务语义对Token的显式约束”两个角度衡量视觉Token的重要性。

打开网易新闻 查看精彩图片

TTV作为核心评分机制,在模型前向传播过程中持续跟踪每个视觉Token在不同层之间的表示变化,并将这种变化量化为统一的重要性得分,实现对Token“动态重要性”的估计。

单层的TTV往往具有较强噪声,容易受到局部波动或特定层结构的影响,导致重要性判断不稳定。相比之下,如果观察Token在多个层中的持续变化趋势,就可以更可靠地捕捉其“长期语义贡献”。因此,论文对TTV引入了跨层累积机制来获得更加稳定Token的重要性估计

然而,仅依靠TTV无法对齐具体问题指令的需求。为此,方法进一步引入IGA模块,通过利用文本指令与视觉Token之间的注意力关联,显式建模当前问题对不同视觉区域的关注程度,从而为Token筛选提供任务层面的约束与引导。

三、实验结果 3.1 对比现有within-LLM方法

论文对比了现有的within-LLM的方法,证明TransPrune在较低的TFLOPs的情况下仍然取得了性能的领先。

打开网易新闻 查看精彩图片

3.2 与projector-based的方法结合

论文还探索了TransPrune与projector-based压缩方法的组合效果。当将其与VisionZip等方法结合使用时,在额外减少约三分之一计算量的情况下,模型性能仅出现极小幅度下降,表明Token Transition所刻画的“动态重要性”与现有Projector-based压缩范式具有良好的互补性,不仅可以独立发挥作用,还能够作为插件式模块嵌入到其他高效推理框架中,从而进一步提升整体计算效率。

打开网易新闻 查看精彩图片

四、总结

通过发现并量化Token Transition这一现象,论文发现了一个全新的视觉Token重要性的衡量角度:不再仅仅取决于它在某一层中“被关注的程度”,还体现在它在整个网络传播过程中“持续演化的强度”。基于这一观察,论文提出了TransPrune剪枝框架,在多个主流视觉语言模型上实现了显著的推理加速,并保持了优异的性能表现。这项工作不仅能够为高效视觉语言模型研究提供新的解决方案,也能够启发研究者从动态表征演化的角度重新理解Transformer中的信息流动过程,为未来的多模态模型高效推理带来更多可能性。

Illustration From IconScout By IconScout Store

-The End-

打开网易新闻 查看精彩图片

扫码观看!

本周上新!

打开网易新闻 查看精彩图片

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈