以存储换算力:DeepSeek Engram与KVCache背后的AI基础设施新范式|deepseek|上下文|内存|换算力|正式版模型

大模型 “记忆系统” 正在不断完善和标准化， 2025 年末到 2026 年初，AI 基础设施领域出现了三个标志性事件：

云计算巨头 AWS 通过 HyperPod Inference Operator 支持 Managed Tiered KVCache （受托管的分层 KVCache）和 Intelligent Routing （智能路由）功能，这些功能显著提升 LLM 推理的性能。
在 CES 2026 大会上，英伟达在最新的 Rubin 平台引入了 Inference Context Memory Storage （ICMS），这是专门为大规模推理设计的新型 AI 原生存储基础设施。Nvidia CEO 黄仁勋介绍每个 GPU 将会得到额外的 16TB“记忆空间”，用于承载 KVCache。
DeepSeek 在 1 月 13 日发表最新论文，推出 static memory （Engram）模块，成功将静态知识检索从动态神经网络计算中解耦，并取得非常显著的效果。

这三个事件共同指向一个趋势：大模型的"记忆结构"正在走向标准化，且在不断加深探索。

那么，KVCache（后天工作记忆）与 Engram（先天记忆词典）背后有哪些统一的设计哲学？这对 AI 基础设施意味着什么？

后天记忆：KVCache 的效果由命中率曲线决定

在理解 KVCache 时，我们可以做一个形象的类比：它就像是大模型在对话过程中的 “草稿纸记忆”，也就是后天工作记忆。正如人类在解决复杂问题时，会将中间思考过程记录在草稿纸上以避免反复心算一样，KVCache 记录了对话中已理解内容的中间计算状态。当模型需要生成新内容时，可以直接复用这些 “草稿”，而无需对已有的长篇上下文进行重复阅读和计算。

这种复用机制的底层逻辑，在于对 “语言序列局部性”的精准捕捉——只要当前的输入序列与记忆中的历史序列在 “前缀” 上实现匹配，计算资源就可以被节省下来。为了承载这些宝贵的记忆，现代 AI 基础设施构建了一个跨越 L1（GPU HBM）、L2（内存）、L3（全闪存）乃至 L4（外部存储）的多层级存储架构。

然而，KVCache 的高效使用远非单一的推理引擎优化那么简单，它本质上是一个复杂的 AI 基础设施系统问题。引入分层存储并非一本万利，它必须遵循一个严苛的“代价不等式”，才能产生正向收益：

从 L2/L3 加载缓存回 L1 的代价 < 重新计算这部分缓存的代价。

只有当 “搬运记忆” 的速度快于 “重新思考” 的速度时，这种复杂的存储分层才有意义。这要求我们在设计系统时，必须在计算算力与 I/O 带宽之间找到那个精妙的平衡点。

其次，我们还需要考虑 KVCache 多级缓存层级中，到底什么时候需要 L2/L3/L4，什么时候不需要？这是由 “命中率-Cache 容量” 曲线所决定的：

如果容量增加仍能继续提升命中率 → 则值得继续加缓存层级；
如果容量增加但是命中率趋于饱和 → 再增加缓存层级则是低 ROI。

不同业务负载，具有不同的“命中率-Cache 容量” 曲线，决定了截然不同的架构选择：

对于简单问答类场景：用户的会话往往较短，随机性强。这类负载的缓存命中率很容易触及天花板，L2/L3 足够使用，因为复用率有限。
对于编程 Agent 或长文本分析场景同一个 Session 内会话极长，上下文强相关。这类场景的复用率极高，命中率随着容量增加而显著提升。此时，引入大容量的全局内存池或全闪存储系统，就能带来巨大的性能飞跃。

综上所述，要真正利用好 KVCache，不能仅盯着模型本身，而是需要站在系统工程的高度。我们需要综合考量 GPU 节点的拓扑数量、网络带宽的瓶颈、具体的模型特性以及业务负载的命中率曲线。只有将这些因素统筹考虑，才能构建出既高效又经济的 AI 基础设施。

先天记忆：Engram 将“知识检索”从深层计算中解耦

传统 Transformer 模型要做 2 个事情：组合推理、知识检索。“知识”是隐含在大模型的参数中。这其实把“先天记忆”和“推理”混在一起了，传统大模型在推理（前向传播）时，会一边算、一边“回忆”所有东西—— 哪怕是它已经见过无数次的成语、常识或固定短语（如二元/三元词组）。由于缺少原生“知识检索”操作，只能靠多层计算来重建“高级语义”，这无疑是对算力的巨大浪费。

DeepSeek 的创新是在模型中的某些层增加 Engram 模块，你可以认为是一个“巨大 Hash 表 / 词典”，里面存有通过训练得到的 “多元词组 tokens” → “高级语义表示” 映射。DeepSeek 把 Engram 称做 Static Memory（静态知识），也就是“先天记忆”。比如原本模型需要经过 7 层计算才能知道“四大发明”这个词组的“高级语义”，现在通过第 2 层的 Engram 模块，就可以用查表方法得到这个“高级语义”，而且查找复杂度是O(1)。

Engram 将“知识检索”从深层计算中解耦出来，相当于为模型增加了额外的有效深度，在多项基准测试中显著提升:

知识密集型任务（如 MMLU: +3.4；CMMLU: +4.0) ;
通用推理（如 BBH: +5.0；ARC-Challenge: +3.7) ;
代码和数学领域（如 HumanEval: +3.0；MATH: +2.4) ;
长文本检索性能（例如 Multi-Query NIAH 从 84.2 提升至 97.0）。

Engram 模块就相当于一个百科全书的词典，通过训练去构造这个词典，然后在推理的时候使用查词典，避免做一些“重复推理”的事情。这样，就减轻了主干网络在早期层重建“多元词组的高级语义”的负担，从而增加了可用于复杂推理的有效深度。

Engram 模块捕捉的是"语言的局部性"。在论文中，DeepSeek 证明了可以通过增加 Engram 参数（Hash 表规模）来不断提高模型的推理能力。而且由于自然语言N-grams （多元词组）遵循 Zipfian 分布，少数高频模式占据了绝大多数访问。因此可以构建多级缓存：将频繁访问的词组保留在主机内存中，快将长尾的罕见词组存放在 SSD 中。这也就引入了多级缓存层次结构。