大模型 “记忆系统” 正在不断完善和标准化, 2025 年末到 2026 年初,AI 基础设施领域出现了三个标志性事件:
- 云计算巨头 AWS 通过 HyperPod Inference Operator 支持 Managed Tiered KVCache (受托管的分层 KVCache)和 Intelligent Routing (智能路由)功能,这些功能显著提升 LLM 推理的性能。
- 在 CES 2026 大会上,英伟达在最新的 Rubin 平台引入了 Inference Context Memory Storage (ICMS),这是专门为大规模推理设计的新型 AI 原生存储基础设施。Nvidia CEO 黄仁勋介绍每个 GPU 将会得到额外的 16TB“记忆空间”,用于承载 KVCache。
- DeepSeek 在 1 月 13 日发表最新论文,推出 static memory (Engram)模块,成功将静态知识检索从动态神经网络计算中解耦,并取得非常显著的效果。
这三个事件共同指向一个趋势:大模型的"记忆结构"正在走向标准化,且在不断加深探索。
那么,KVCache(后天工作记忆)与 Engram(先天记忆词典)背后有哪些统一的设计哲学?这对 AI 基础设施意味着什么?
后天记忆:KVCache 的效果由命中率曲线决定
在理解 KVCache 时,我们可以做一个形象的类比:它就像是大模型在对话过程中的 “草稿纸记忆”,也就是后天工作记忆。正如人类在解决复杂问题时,会将中间思考过程记录在草稿纸上以避免反复心算一样,KVCache 记录了对话中已理解内容的中间计算状态。当模型需要生成新内容时,可以直接复用这些 “草稿”,而无需对已有的长篇上下文进行重复阅读和计算。
这种复用机制的底层逻辑,在于对 “语言序列局部性”的精准捕捉——只要当前的输入序列与记忆中的历史序列在 “前缀” 上实现匹配,计算资源就可以被节省下来。为了承载这些宝贵的记忆,现代 AI 基础设施构建了一个跨越 L1(GPU HBM)、L2(内存)、L3(全闪存)乃至 L4(外部存储) 的多层级存储架构。
然而,KVCache 的高效使用远非单一的推理引擎优化那么简单,它本质上是一个复杂的 AI 基础设施系统问题。引入分层存储并非一本万利,它必须遵循一个严苛的“代价不等式”,才能产生正向收益:
从 L2/L3 加载缓存回 L1 的代价 < 重新计算这部分缓存的代价。
只有当 “搬运记忆” 的速度快于 “重新思考” 的速度时,这种复杂的存储分层才有意义。这要求我们在设计系统时,必须在计算算力与 I/O 带宽之间找到那个精妙的平衡点。
其次,我们还需要考虑 KVCache 多级缓存层级中,到底什么时候需要 L2/L3/L4,什么时候不需要?这是由 “命中率-Cache 容量” 曲线所决定的:
- 如果容量增加仍能继续提升命中率 → 则值得继续加缓存层级;
- 如果容量增加但是命中率趋于饱和 → 再增加缓存层级则是低 ROI。
不同业务负载,具有不同的“命中率-Cache 容量” 曲线,决定了截然不同的架构选择:
- 对于简单问答类场景:用户的会话往往较短,随机性强。这类负载的缓存命中率很容易触及天花板,L2/L3 足够使用,因为复用率有限。
- 对于编程 Agent 或长文本分析场景同一个 Session 内会话极长,上下文强相关。这类场景的复用率极高,命中率随着容量增加而显著提升。此时,引入大容量的全局内存池或全闪存储系统,就能带来巨大的性能飞跃。
综上所述,要真正利用好 KVCache,不能仅盯着模型本身,而是需要站在系统工程的高度。我们需要综合考量 GPU 节点的拓扑数量、网络带宽的瓶颈、具体的模型特性以及业务负载的命中率曲线。只有将这些因素统筹考虑,才能构建出既高效又经济的 AI 基础设施。
先天记忆:Engram 将“知识检索”从深层计算中解耦
传统 Transformer 模型要做 2 个事情:组合推理、知识检索。“知识”是隐含在大模型的参数中。这其实把“先天记忆”和“推理”混在一起了,传统大模型在推理(前向传播)时,会一边算、一边“回忆”所有东西—— 哪怕是它已经见过无数次的成语、常识或固定短语(如二元/三元词组)。由于缺少原生“知识检索”操作,只能靠多层计算来重建“高级语义”,这无疑是对算力的巨大浪费。
DeepSeek 的创新是在模型中的某些层增加 Engram 模块,你可以认为是一个“巨大 Hash 表 / 词典”,里面存有通过训练得到的 “多元词组 tokens” → “高级语义表示” 映射。DeepSeek 把 Engram 称做 Static Memory(静态知识),也就是“先天记忆”。比如原本模型需要经过 7 层计算才能知道“四大发明”这个词组的“高级语义”,现在通过第 2 层的 Engram 模块,就可以用查表方法得到这个“高级语义”,而且查找复杂度是O(1)。
Engram 将“知识检索”从深层计算中解耦出来,相当于为模型增加了额外的有效深度,在多项基准测试中显著提升:
- 知识密集型任务(如 MMLU: +3.4;CMMLU: +4.0) ;
- 通用推理(如 BBH: +5.0;ARC-Challenge: +3.7) ;
- 代码和数学领域(如 HumanEval: +3.0;MATH: +2.4) ;
- 长文本检索性能(例如 Multi-Query NIAH 从 84.2 提升至 97.0)。
Engram 模块就相当于一个百科全书的词典,通过训练去构造这个词典,然后在推理的时候使用查词典,避免做一些“重复推理”的事情。这样,就减轻了主干网络在早期层重建“多元词组的高级语义”的负担,从而增加了可用于复杂推理的有效深度。
Engram 模块捕捉的是"语言的局部性"。在论文中,DeepSeek 证明了可以通过增加 Engram 参数(Hash 表规模)来不断提高模型的推理能力。而且由于自然语言N-grams (多元词组)遵循 Zipfian 分布,少数高频模式占据了绝大多数访问。因此可以构建多级缓存:将频繁访问的词组保留在主机内存中,快将长尾的罕见词组存放在 SSD 中。这也就引入了多级缓存层次结构。
两种“记忆”的统一设计哲学
KVCache 和 Engram 有三个相同的核心原则。这是在 AI 系统中复现计算机系统的经典智慧:通过识别局部性规律,将重复计算固化为分层存储,实现性能与成本的双赢。
所以它们不是两个孤立的技术,而是相同的底层思想在不同场景的具体实现。
1、计算-存储转换原则
将"昂贵的重复计算"转化为"廉价的存储查找":
- KV Cache:将序列的注意力计算的中间结果存起来,避免重复计算;
- Engram:将深层网络的"高级语义重建"固化为查找表,避免每次都推理。
本质是用空间换时间,但这个"空间"是智能分级的。
2、局部性捕捉原则
3、分层存储优化原则
因为两者的访问分布遵循幂律,80% 访问集中在 20% 数据 ,且性能开销可控,所以都构建多级存储层次,平衡性能、容量、成本。
两者都采用统一的分层存储架构:L1(GPU HBM)、L2(Host Memory)、L3(Host SSD 或全闪存储系统)、L4(外部存储系统)。
理解幂律分布的关键在于意识到“知识并非等权重的”。Engram 利用这种分布特征,将高频 “头词” 放在近处(高速存储)快跑,将低频 “长尾” 放在远处(大容量存储)备查,从而实现了参数量的廉价扩张。
这个哲学的深层含义
这个设计哲学实际上揭示了:AI 系统本质上仍是计算机系统,仍然遵循同样的性能优化原则(局部性、缓存、分层),但局部性的表现形式却进化了(从序列的空间/时间局部性→语言局部性)。
结语:AI 基础设施的范式转变
从 AWS 将 KVCache 下沉为托管服务,到 Nvidia 将 16TB 分层存储定义为 GPU 的标配架构,再到 DeepSeek 证明 Static Memory(知识检索)的可行性——“记忆系统”正在从推理引擎的内部优化,演变为 AI 基础设施的核心组件。
这意味着:
- 存储不再是"数据容器",而是"算力加速器":KVCache 缓存池、Engram 知识库,都在用存储换算力;
- 网络不再是"连接通道",而是"内存总线":全局缓存池需要 400Gb/800Gb RDMA 支撑。
对于未来 AI 基础设施的建设,这既是挑战,更是机遇,市场需要大模型"记忆系统"的主动设计者。XSKY 正在这个方向上持续投入。如果您正在构建 AI 基础设施,欢迎与我们交流。
热门跟贴