DeepSeek V4刚发布就刷屏了,但圈内人翻遍技术报告都找不到一个关键名字:Engram。这个被所有人视为V4“灵魂”的模块,居然消失了?网友们吵翻了:没有Engram的V4,是不是不完整?
今年1月,DeepSeek和北大联合开源Engram时,圈子里就炸开了锅。大家都觉得,这个解决大模型记忆与效率问题的模块,肯定是V4的架构地基,毕竟有了它,模型不用每次都重新推导“伦敦是英国首都”这种事实,直接查就行,既省显存又能释放深层网络做高阶推理。
团队发现,语言建模分两种任务:需要深度推理的组合问题,和静态知识检索。之前Transformer把这俩混在一起,识别“戴安娜王妃”这种实体得走6层网络,前几层还在纠结“威尔士是英国地区”这种中间状态,太浪费资源。
Engram的思路很直接:把N-gram的O(1)查表能力嵌进Transformer,在第2层和15层之间插模块,用哈希查找快速取向量,门控机制还能屏蔽不匹配的内容(比如“张”和“张仲景”的区别)。
最让人意外的是实验数据。团队固定总参数和激活参数,让MoE专家和Engram抢预算,发现把20%-25%的稀疏参数分给Engram时,模型loss最低。
为什么记忆模块能提升推理?LogitLens和CKA给出答案:Engram-27B第5层的表征,和MoE基线第12层差不多。等于Engram把早期层从“重建静态知识”的苦力活里解放出来,让深层网络做更复杂的推理:它不是新增记忆,而是变相加深了网络。
工程上更牛:1000亿参数的Engram表放host DRAM,H800推理时8B-Dense的吞吐损失只有2.8%,靠的是提前算索引、CPU异步预取和GPU计算重叠。
虽然V4没带Engram,但它的理念已经在开花结果。三个月里,三个团队搞出了新花样:
把Engram塞进CXL内存池:北大、阿里云等联合解决了存储问题:8台服务器共享4TB CXL内存池,端到端吞吐损失小于5%,等于给Engram找了个超大仓库。
你觉得Engram会出现在V4.1还是直接等V5?评论区聊聊你的猜测,顺便点个赞让更多人看到这个被V4“漏掉”的潜力股。说不定下一代大模型的突破,就藏在这个小小的查表模块里呢。
热门跟贴