DeepSeekV4缺少Engram成今年最大遗憾

九客说事

2026-05-06 21:03 ·四川

DeepSeek V4刚发布就刷屏了，但圈内人翻遍技术报告都找不到一个关键名字：Engram。这个被所有人视为V4“灵魂”的模块，居然消失了？网友们吵翻了：没有Engram的V4，是不是不完整？

今年1月，DeepSeek和北大联合开源Engram时，圈子里就炸开了锅。大家都觉得，这个解决大模型记忆与效率问题的模块，肯定是V4的架构地基，毕竟有了它，模型不用每次都重新推导“伦敦是英国首都”这种事实，直接查就行，既省显存又能释放深层网络做高阶推理。

团队发现，语言建模分两种任务：需要深度推理的组合问题，和静态知识检索。之前Transformer把这俩混在一起，识别“戴安娜王妃”这种实体得走6层网络，前几层还在纠结“威尔士是英国地区”这种中间状态，太浪费资源。

Engram的思路很直接：把N-gram的O(1)查表能力嵌进Transformer，在第2层和15层之间插模块，用哈希查找快速取向量，门控机制还能屏蔽不匹配的内容（比如“张”和“张仲景”的区别）。

最让人意外的是实验数据。团队固定总参数和激活参数，让MoE专家和Engram抢预算，发现把20%-25%的稀疏参数分给Engram时，模型loss最低。

为什么记忆模块能提升推理？LogitLens和CKA给出答案：Engram-27B第5层的表征，和MoE基线第12层差不多。等于Engram把早期层从“重建静态知识”的苦力活里解放出来，让深层网络做更复杂的推理：它不是新增记忆，而是变相加深了网络。

工程上更牛：1000亿参数的Engram表放host DRAM，H800推理时8B-Dense的吞吐损失只有2.8%，靠的是提前算索引、CPU异步预取和GPU计算重叠。

虽然V4没带Engram，但它的理念已经在开花结果。三个月里，三个团队搞出了新花样：

把Engram塞进CXL内存池：北大、阿里云等联合解决了存储问题：8台服务器共享4TB CXL内存池，端到端吞吐损失小于5%，等于给Engram找了个超大仓库。

你觉得Engram会出现在V4.1还是直接等V5？评论区聊聊你的猜测，顺便点个赞让更多人看到这个被V4“漏掉”的潜力股。说不定下一代大模型的突破，就藏在这个小小的查表模块里呢。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴