大型视觉语言模型(VLM)虽然功能强大,但其高昂的推理成本和延迟一直是阻碍其在现实世界广泛部署的“拦路虎”。为了解决这一痛点,来自天津大学的研究者们提出了一种名为 LightVLM 的新方法,它如同一套轻巧的“外挂”,能够无缝部署在现有的VLM之上,无需任何额外训练,即可显著加速模型的推理过程。

LightVLM的核心思想是,将VLM的推理过程分为 编码(Encoding)解码(Decoding) 两个阶段,并在这两个阶段同时进行优化。通过“金字塔令牌合并”和“KV缓存压缩”两大技术,LightVLM实现了惊人的加速效果。实验表明,该方法甚至能让一个26B的超大模型(InternVL2.5 26B)跑得比一个8B的小模型(InternVL2.5 8B)还快,真正实现了“大而快”。

论文标题 : LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression

  • 作者 : Lianyu Hu, Fanhua Shang, Wei Feng, Liang Wan

  • 机构 : 天津大学

  • 论文地址 : https://arxiv.org/abs/2509.00419

  • 录用信息 : EMNLP 2025 Findings

  • 背景:VLM推理的两大瓶颈

    VLM的推理过程主要包含两个阶段,每个阶段都有其效率瓶颈:

    1. 编码(预填充)阶段 :模型处理输入的图像和文本提示。当输入图像被转换成大量的视觉令牌(Token)时,这个阶段的计算量巨大,耗时很长。

    2. 解码(生成)阶段 :模型逐个生成输出文本的令牌。每生成一个新令牌,都需要利用之前所有令牌的KV缓存(KV Cache)来维持上下文。当需要生成很长的文本序列时,这个KV缓存会变得异常庞大,严重拖慢生成速度。

    现有的一些加速方法往往只关注其中一个阶段,而LightVLM的创新之处在于 双管齐下 ,同时解决两个阶段的瓶颈。

    LightVLM:免训练的双阶段加速策略

    LightVLM通过两项核心技术,分别在编码和解码阶段进行加速,且整个过程完全无需重新训练模型。

    研究者观察到,在VLM的深层网络中,并非所有的视觉令牌都同等重要。如下图所示,随着网络层数的加深,模型的注意力会逐渐集中到少数“主导”令牌上。

    基于此发现,LightVLM提出“金字塔令牌合并”策略。它不在一开始就丢弃令牌,而是在LLM的不同层级, 逐步地、分层地 将那些不那么重要的令牌合并掉,最终只保留少数最关键的主导令牌参与后续计算。这种金字塔式的合并方式,既能显著减少计算量,又能最大程度地保留原始图像信息,从而在加速的同时保证了性能。

    2. 解码加速:KV缓存压缩 (KV Cache Compression)

    针对解码阶段因KV缓存过大而导致的延迟问题,LightVLM提出了相应的压缩策略。该策略通过识别并移除KV缓存中不必要或冗余的条目,有效减小了缓存的大小。这使得模型在生成长文本序列时,能够大幅提升吞吐量,降低延迟。

    实验结果:性能与速度的双重胜利

    LightVLM的实验结果令人印象深刻,它在性能保持和推理加速上都取得了优异的成绩。

    1. 极高压缩率下性能几乎无损

    实验表明,LightVLM可以在 仅保留35%图像令牌的情况下,保持100%的性能 。即便在极为苛刻的条件下, 只保留3%的图像令牌,模型性能也仅下降约2% ,展现了其强大的效率和鲁棒性。

    量化指标上,LightVLM将模型的 网络吞吐量提升了约2.02倍 ,将 预填充时间降低了约3.65倍 。在生成长文本(如4096个令牌)的场景下, 推理时间更是能降低约3.21倍 ,远超现有其他方法。

    最引人注目的结果是,LightVLM打破了“模型越大,速度越慢”的常规。如下图所示,通过LightVLM加速后,一个260亿参数的InternVL 2.5模型,其推理延迟竟然低于一个未经加速的80亿参数的同系列模型。这一发现对于大模型的实际部署具有里程碑式的意义。

    论文价值与总结

    LightVLM的提出,为解决大型VLM的推理效率问题提供了一个简单、通用且高效的解决方案。

    1. 免训练,即插即用 :作为一种无需额外训练的方法,LightVLM可以轻松地应用于各种现有的VLM,极大地降低了使用门槛。

    2. 双阶段并行加速 :同时优化编码和解码两个阶段,相比只关注单一阶段的方法,加速效果更全面、更显著。

    3. 为大模型落地扫清障碍 :通过实现“大而快”,LightVLM使得在资源有限的设备上部署更大、更强的模型成为可能,有望极大地推动VLM在现实世界中的应用。

    总而言之,LightVLM以其巧妙的设计和卓越的效果,为VLM的普及和应用带来了新的曙光,证明了通过精巧的算法设计,可以在不牺牲性能的前提下,让强大的AI模型变得更加轻盈和高效。