记得住、答得快、用得省：HERMES 流式视频理解实时响应提速10倍

复旦大学、上海创智学院与新加坡国立大学联合提出HERMES，一个面向流式视频理解的免训练 (training-free)框架。它将 KV Cache 重新建模为层次化记忆系统，在用户提问到来时无需额外检索或辅助计算，就能直接复用缓存进行回答。

在多项流式与离线视频基准上的实验表明，HERMES 在相较均匀采样减少 68% 视频 token的情况下，仍能取得可比甚至更优的理解性能；在流式数据集上最高带来11.4%的增益，并实现最高10倍 (10×)的首个 token 生成时间 (TTFT) 加速。

在现实世界中，人类理解视频流并不是把所有画面一股脑 “存下来” 再慢慢分析。看一场直播、盯一段监控、观察一台正在运转的机器人时，我们会自然地把刚发生的内容保留在注意力前沿，同时把更早但更关键的线索压缩进长期记忆里。等到有人发问时，我们往往可以立刻回答，而不需要重新把整段过程回放一遍。

然而，现有多模态大语言模型在离线视频理解上已经取得了显著进展，一旦进入流式视频场景，却常常陷入三难困境：既要保持理解性能稳定，又要做到实时响应，还要把 GPU 显存开销压在可部署范围内。已有方法中，一部分会把历史视频内容转存到外部 CPU、磁盘或数据库中，等用户提问时再额外检索和重建上下文；另一部分虽然尝试直接压缩缓存，却往往缺乏细粒度管理和可解释性。

现在，这个问题有了一个更优雅的答案。研究团队提出HERMES（KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding，ACL-2026），不再把 KV Cache 视作一个被动的中间产物，而是把它看作视频流理解中的层次化记忆系统。在这一视角下，缓存不仅可以被压缩，更可以被 “管理”。目前,该工作已被 ACL 2026 主会录用。

论文标题：HERMES:KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding
论文地址： https://arxiv.org/pdf/2601.14724
代码地址： https://github.com/haowei-freesky/HERMES
项目主页： https://hermes-streaming.github.io/

从离线理解到流式理解：

为什么这个问题这么难？

传统离线视频理解默认 “视频已经完整给出”，模型可以在统一采样后一次性编码、一次性回答。但流式视频完全不同：未来帧未知，用户问题未知，视频时长也可能持续增长。这意味着模型无法提前知道哪些片段最重要，也不能把每一帧都永远保存在 GPU 中。

过去的方法大多在两条路之间摇摆：

依赖外部记忆。把历史视频内容以文本描述 (caption)、视觉特征块 (patch) 或 KV 状态形式转移到 CPU、磁盘或数据库里，等提问时再检索回来。这类方法的主要问题是延迟高，而且会引入额外计算链路。

直接复用内部缓存。把 KV Cache 当作模型内部记忆来使用，理论上更适合低延迟场景；但如果没有精细的保留与淘汰机制，缓存很快就会被不断增长的视频流挤爆，或者在压缩过程中丢失真正关键的信息。

换句话说，流式视频理解真正缺的，不只是 “更小的缓存”，而是一套更接近人类记忆组织方式的缓存管理机制。

图 1：HERMES 概念图。左侧展示了其将 KV Cache 视作层次化记忆系统的整体框架；右侧则展示了不同层的注意力偏好与效率测试结果。

HERMES：把 KV Cache 变成分层视频记忆

HERMES 最有启发性的地方，在于它不是从工程经验出发硬做压缩，而是先通过注意力机制分析，去观察不同解码层到底更偏好什么样的视频信息。研究团队发现，在流式输入下，不同层实际上天然呈现出不同的 “记忆分工”。

一个关键洞察：不同层，关注的是不同粒度的信息

研究发现，浅层、中层和深层对视频 token 的偏好并不相同：

浅层像感官记忆。它们对最新到来的帧有明显的近期偏好 (recency bias)，更关心 “刚刚发生了什么”。

中层像工作记忆。它们会在近期信息和更早的语义信息之间做平衡，承担承上启下的过渡作用。

深层像长期记忆。它们不再单纯偏向最近帧，而是会周期性地锁定一些帧级 “锚点” token，用来保留更长时间跨度上的关键语义。

图 2：不同层对流式视频 token 的注意力偏好。浅层更关注最近 token，深层更倾向于捕捉具有节奏性的帧级锚点，中层则承担过渡作用。

这意味着，KV Cache 并不是一个 “各层同质” 的存储池，而天然更像一个由感官记忆、工作记忆和长期记忆组成的层次化系统。HERMES 正是基于这一点，重新设计了流式视频缓存的保留策略。

方法三件套：分层管理、跨层平滑、位置重索引

图 3：HERMES 方法总览图。包括 “分层 KV Cache 管理”、“跨层记忆平滑” 和 “位置重索引” 三大关键组件。

围绕 “KV Cache 是层次化记忆” 这一核心认识，HERMES 构建了三大关键组件：

1. 分层 KV Cache 管理（Hierarchical KV Cache Management）

HERMES 不再对所有层采用统一的淘汰策略，而是按层分配不同保留逻辑。浅层主要按时间新近性保留 token；深层则更多依据对用户查询的注意力重要性来保留帧级锚点；中层通过对 “新近性” 和 “注意力分数” 做插值，在二者之间取得平衡。

2. 跨层记忆平滑（Cross-Layer Memory Smoothing）

如果每一层都独立淘汰 token，就容易出现不同层在同一缓存位置上 “记的不是同一个东西” 的问题。HERMES 通过从深层向浅层传播重要性信号，对跨层记忆进行平滑，让多层缓存之间保持更一致的视觉记忆结构。

3. 位置重索引（Position Re-Indexing）

随着流式输入不断累积，token 的位置索引会越来越大，最终逼近模型支持的上限，影响生成质量。HERMES 通过位置重索引，把保留下来的 token 重新映射到连续位置区间中；在流式任务上使用更省算力的惰性重索引 (lazy re-indexing)，在离线长视频评测上则使用更稳定的即时重索引 (eager re-indexing)。

这三步结合起来，让 HERMES 能在不依赖额外训练、不需要查询时外部检索的前提下，直接复用一份紧凑而有效的缓存，支撑实时视频问答。

实验结果：HERMES 不只是更快，

还在多个基准上更稳更准

主结果：在流式视频基准上显著领先 training-free 基线

研究团队在StreamingBench、OVO-Bench、RVS-Ego、RVS-Movie等多个流式视频任务上进行了系统评估。结果显示，HERMES 不仅超过了对应的基础模型，也普遍优于现有 training-free 的 offline-to-online 方法。

以Qwen2.5-VL-7B为例，在仅使用4K video tokens的情况下，HERMES 在 StreamingBench 上达到79.44%，相较基座模型的73.31%提升6.13个点；在综合平均指标上达到59.21%，相比基座模型的52.28%提升6.93个点。基于Qwen2.5-VL-32B的 HERMES 版本则进一步将综合平均表现提升到64.82%。

图 4：StreamingBench 与 OVO-Bench 上的主结果。HERMES 在众多 offline-to-online 方案中表现突出，并在不同底座模型上均能稳定提升。

在开放式流式问答任务上，HERMES 同样展现出更细粒度的时序与空间理解能力，在RVS-Ego和RVS-Movie上相较基础模型最高可提升11.4%，说明其优势不仅体现在多选题上，也体现在更接近真实使用场景的开放问答中。

效率优势：查询到来时 “实时开口”

如果说准确率证明了 HERMES “记得住”，那么效率实验证明了它 “答得快”。由于 HERMES 在用户提问到来时不需要额外检索或辅助计算，它可以直接在现有缓存上完成回答，这一点对流式交互尤为关键。

在基于LLaVA-OV-7B、4K-token memory budget的测试中，HERMES 在不同输入帧数下都保持了稳定的显存占用与极低的 TTFT。论文显示，在16、64、256帧输入下，其 TTFT 分别约为27 ms、29 ms、28 ms；在256 帧设置下，相比此前的 SOTA 方法StreamingTOM，HERMES 实现了约10×的 TTFT 加速。

图 5：效率对比结果。随着输入帧数增加，HERMES 仍能保持稳定的 GPU 显存占用和极低的 Time To First Token （TTFT）。

更重要的是，这种速度优势不是靠牺牲缓存上限换来的。HERMES 在固定紧凑显存预算下持续工作，避免了随视频流增长而不断抬升的显存压力，更适合真实部署中的长期在线场景。

更少 token，不代表更差理解

HERMES 的另一个重要意义在于，它证明了流式视频理解并不一定依赖 “保存尽可能多的帧”。论文指出，相比均匀采样方案，HERMES 最多可减少68%的视频 token，但依然能在多个流式和离线基准上保持竞争力。

在离线视频任务上，HERMES 并没有因为面向流式场景设计而牺牲泛化性。以LLaVA-OV-7B为基座时，HERMES 在Egoschema和VideoMME上分别达到 60.29% 和 49.22%，高于基座模型；在MVBench上则取得与基座相当的结果。这说明它不仅适用于持续在线的视频流，也具备向更广泛长视频理解任务迁移的能力。

图 6：不同 memory budget 下的性能变化。实验表明，HERMES 在约 4K memory budget 左右已经能在流式与离线任务间取得较好平衡。

从消融实验可以看到，HERMES 的提升并非来自单一技巧，而是来自一整套协同设计：分层缓存管理决定 “留什么”，跨层记忆平滑解决 “不同层是否记一致”，位置重索引保证 “长流式输入下还能稳定生成”。这些模块共同构成了它的性能与效率优势。

为什么 HERMES 值得关注？

HERMES 的价值，不只是又一个在榜单上更高分的方法，更在于它为流式视频理解提供了一种更自然的系统设计思路。

它更接近真实部署需求。对于视频助手、机器人、智能安防、车载系统等场景来说，用户不会等待模型重新检索长上下文再开始作答。HERMES 把 “实时响应” 放在架构设计的中心位置，这一点非常关键。

它给出了更有解释性的缓存视角。很多缓存压缩方法是经验性的，而 HERMES 先做机制分析，再据此设计记忆管理规则，使 “为什么保留这些 token” 这件事变得更清楚。

它是training-free、plug-and-play的。论文在 LLaVA-OV 与 Qwen2.5-VL 等不同基础模型上验证了 HERMES 的通用性，说明它不是与某个单独模型强绑定的工程 patch，而更像一种可迁移的流式理解范式。

未来展望：让视频大模型真正走向持续在线

HERMES 所回答的，不只是 “如何压缩 KV Cache”，而是 “如何让视频大模型以更像记忆系统的方式持续工作”。从这个角度看，它为下一代流式多模态智能体提供了一个很重要的方向：模型不必在每次回答前重新回看全部历史，而是应该学会像人一样，保留最新感知、提炼关键锚点、压缩长期经验，并在需要时迅速调用。

我们可以预期，这种思路会在更多实时视频场景中释放价值，例如长时监控理解、第一视角视频助手、机器人持续感知、在线教育分析以及人机实时协作等。随着流式视频应用不断增多，像 HERMES 这样兼顾准确性、低延迟与低显存开销的方法，很可能成为视频大模型从 “能看视频” 迈向 “能持续在线理解视频” 的关键一步。

作者简介:

第一作者为复旦大学一年级博士生张浩威和南京大学本科生杨枢栋；合作者包括新加坡国立大学 See-Kiong Ng 教授；通讯作者为复旦大学计算与智能创新学院青年研究员傅金兰与邱锡鹏教授。