免训练、性能几乎无损！天津大学LightVLM让26B大模型比8B还快|lightvlm|令牌|大模型|天津大学lig

大型视觉语言模型（VLM）虽然功能强大，但其高昂的推理成本和延迟一直是阻碍其在现实世界广泛部署的“拦路虎”。为了解决这一痛点，来自天津大学的研究者们提出了一种名为 LightVLM 的新方法，它如同一套轻巧的“外挂”，能够无缝部署在现有的VLM之上，无需任何额外训练，即可显著加速模型的推理过程。

LightVLM的核心思想是，将VLM的推理过程分为 编码（Encoding） 和 解码（Decoding） 两个阶段，并在这两个阶段同时进行优化。通过“金字塔令牌合并”和“KV缓存压缩”两大技术，LightVLM实现了惊人的加速效果。实验表明，该方法甚至能让一个26B的超大模型（InternVL2.5 26B）跑得比一个8B的小模型（InternVL2.5 8B）还快，真正实现了“大而快”。

论文标题 : LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression

作者 : Lianyu Hu, Fanhua Shang, Wei Feng, Liang Wan

机构 : 天津大学

论文地址 : https://arxiv.org/abs/2509.00419

录用信息 : EMNLP 2025 Findings

背景：VLM推理的两大瓶颈

VLM的推理过程主要包含两个阶段，每个阶段都有其效率瓶颈：

编码（预填充）阶段 ：模型处理输入的图像和文本提示。当输入图像被转换成大量的视觉令牌（Token）时，这个阶段的计算量巨大，耗时很长。
解码（生成）阶段 ：模型逐个生成输出文本的令牌。每生成一个新令牌，都需要利用之前所有令牌的KV缓存（KV Cache）来维持上下文。当需要生成很长的文本序列时，这个KV缓存会变得异常庞大，严重拖慢生成速度。

现有的一些加速方法往往只关注其中一个阶段，而LightVLM的创新之处在于 双管齐下 ，同时解决两个阶段的瓶颈。

LightVLM：免训练的双阶段加速策略

LightVLM通过两项核心技术，分别在编码和解码阶段进行加速，且整个过程完全无需重新训练模型。

研究者观察到，在VLM的深层网络中，并非所有的视觉令牌都同等重要。如下图所示，随着网络层数的加深，模型的注意力会逐渐集中到少数“主导”令牌上。

基于此发现，LightVLM提出“金字塔令牌合并”策略。它不在一开始就丢弃令牌，而是在LLM的不同层级， 逐步地、分层地 将那些不那么重要的令牌合并掉，最终只保留少数最关键的主导令牌参与后续计算。这种金字塔式的合并方式，既能显著减少计算量，又能最大程度地保留原始图像信息，从而在加速的同时保证了性能。

2. 解码加速：KV缓存压缩 (KV Cache Compression)

针对解码阶段因KV缓存过大而导致的延迟问题，LightVLM提出了相应的压缩策略。该策略通过识别并移除KV缓存中不必要或冗余的条目，有效减小了缓存的大小。这使得模型在生成长文本序列时，能够大幅提升吞吐量，降低延迟。

实验结果：性能与速度的双重胜利

LightVLM的实验结果令人印象深刻，它在性能保持和推理加速上都取得了优异的成绩。

1. 极高压缩率下性能几乎无损

实验表明，LightVLM可以在 仅保留35%图像令牌的情况下，保持100%的性能 。即便在极为苛刻的条件下， 只保留3%的图像令牌，模型性能也仅下降约2% ，展现了其强大的效率和鲁棒性。

量化指标上，LightVLM将模型的 网络吞吐量提升了约2.02倍 ，将 预填充时间降低了约3.65倍 。在生成长文本（如4096个令牌）的场景下， 推理时间更是能降低约3.21倍 ，远超现有其他方法。

最引人注目的结果是，LightVLM打破了“模型越大，速度越慢”的常规。如下图所示，通过LightVLM加速后，一个260亿参数的InternVL 2.5模型，其推理延迟竟然低于一个未经加速的80亿参数的同系列模型。这一发现对于大模型的实际部署具有里程碑式的意义。

论文价值与总结

LightVLM的提出，为解决大型VLM的推理效率问题提供了一个简单、通用且高效的解决方案。

免训练，即插即用 ：作为一种无需额外训练的方法，LightVLM可以轻松地应用于各种现有的VLM，极大地降低了使用门槛。
双阶段并行加速 ：同时优化编码和解码两个阶段，相比只关注单一阶段的方法，加速效果更全面、更显著。
为大模型落地扫清障碍 ：通过实现“大而快”，LightVLM使得在资源有限的设备上部署更大、更强的模型成为可能，有望极大地推动VLM在现实世界中的应用。

总而言之，LightVLM以其巧妙的设计和卓越的效果，为VLM的普及和应用带来了新的曙光，证明了通过精巧的算法设计，可以在不牺牲性能的前提下，让强大的AI模型变得更加轻盈和高效。