DeepSeek V4 前夕再扔王炸！CEO 梁文锋亲自署名，这次要帮全行业把显存价格打下来？

AI范儿

2026-01-13 06:22 ·上海

★ 设为星标 | 只讲人话，带你玩转AIGC。

DeepSeek 真的不打算让人休息啊。

最近圈子里疯传：DeepSeek V4 即将在未来几周（春节前后）发布。

虽然官方没说话，但看这架势，大概率是真的。你们看这几周 DeepSeek 有多“反常”：

元旦当天：刚扔出 mHC 论文，试图拆掉 ResNet 的地基。
上周：悄悄更新了那篇著名的 DeepSeek-R1 论文。
今天：还没等大家消化完，又是一篇重磅论文——Engram。

这密集的动作，显然是在为后面的大招清扫障碍。

这种“暴风雨前的狂欢”，让我对传说中的 V4 更加期待了。

这篇论文又是 CEO 梁文锋亲自署名，看样子，这事儿又不简单。

如果说上一篇 mHC 是在动深度学习的“地基”，那这一篇 Engram，就是在试图绕开英伟达昂贵的“硬件壁垒”。

01｜英伟达的无奈：算力够了，但脑子装不下了

要看懂 DeepSeek 这次有多狠，我们得先看一眼英伟达（NVIDIA）最近的动作。

前不久，老黄发布了下一代核弹显卡 Rubin。

参数确实炸裂：推理算力提升了 5 倍，带宽提升了 2.8 倍。

但请注意一个极其尴尬的数据：HBM（高带宽显存）的容量，仅仅提升了 1.5 倍。

图：英伟达 Rubin NVL72 参数提升表

这就是目前 AI 行业的死穴：“显存墙”。

HBM 显存不仅产能被海力士和三星锁死，价格更是贵得离谱（是普通内存的 6-8 倍），关键是容量增长完全跟不上模型变大的速度。

你想把模型做大？不好意思，你得买更多昂贵的显卡，不是因为你需要算力，仅仅是因为你需要把模型塞进去。

这时候，DeepSeek 的“抠门”天赋又爆发了。

他们提出了一个灵魂拷问：谁说大模型的记忆必须塞在昂贵的 HBM 里？我们能不能用便宜的内存条解决问题？

02｜明人的“笨功夫”：复活 N-gram

为了省钱，哦不，为了高效，DeepSeek 的工程师把目光投向了二十年前那个被淘汰的“笨小孩”——N-gram（N元语法）。

在深度学习还没火的“远古时代”，N-gram 是统治 NLP 届的王者。

这玩意儿的原理，说白了就是“成语接龙”加上“死记硬背”。

想象一下，你给电脑看了一万本中文书，然后问它：“白日依山尽”后面是什么？

N-gram 不懂什么叫诗情画意，它只会去它的小本本里查统计概率：“哦，以前这五个字后面 99% 跟着‘黄河入海流’。”

它的优点是：查得飞快，不需要动脑子算。

它的缺点是：没脑子，只能看眼前，不懂逻辑。

后来，聪明的 Transformer 出现了，N-gram 就被扫进了历史的垃圾堆。

但今天，DeepSeek 又把它捡回来了。

03｜给 AI 挂个“外挂硬盘”

DeepSeek 发现，现在的 Transformer 虽然聪明，但也得了一种“富贵病”。

比如你问它：“东汉末年的张仲景是谁？”

模型那昂贵的神经网络大脑开始疯狂运转，动用几百亿参数，经过几十层的向量计算，最后告诉你：“他是医圣”。

这太浪费了！这就像你雇了一个年薪百万的数学天才，结果你天天让他背诵《新华字典》。

DeepSeek 的 Engram 架构，就是给大模型装了一个“超级外挂字典”：

图：DeepSeek 的 Engram 架构，右侧那个黄色的支路就是传说中的“外挂字典”

移花接木：他们把“张仲景”、“四大发明”这些固定的知识点，通过 N-gram 机制做成了一个巨大的索引表。

降维打击：重点来了！因为查表这个动作非常简单确定的，DeepSeek 直接把这个巨大的表（几百亿甚至上千亿参数）丢到了便宜量大的 CPU 内存（RAM）里。

图：红得发紫的地方，就是模型在读到“四大发明”时，正在疯狂翻字典（查表），而不是在动脑子计算

当模型需要用到这些知识时，CPU 会悄悄把数据预取过来，喂给 GPU。

结果炸裂：即使挂载了一个 1000亿参数的超级字典在 CPU 内存里，利用 DeepSeek 极致的工程优化，整个推理速度的损耗竟然不到 3%。

这意味着，在 HBM 价格上天的今天，DeepSeek 搞出了一种“用白菜价的内存条，干黄金价的显存活儿”的黑科技。

04｜不止是省钱，智商还涨了

如果只是省钱，那也就是个工程优化。

但 DeepSeek 最可怕的地方在于：它还顺便把模型变聪明了。

实验数据非常不讲道理：这个装了“外挂硬盘”的模型，不仅记性好了，逻辑推理能力也暴涨。

数学能力（MATH）：提升了 2.4 分。
逻辑推理（BBH）：竟然暴涨了 5.0 分！

为什么？

这就回到了我们刚才的那个比喻。

因为 Engram 把那些死记硬背的“脏活累活”都揽走了，模型深层的神经网络就被解放出来了。

那个“数学天才”终于不用背字典了，可以全心全意地去思考复杂的微积分和逻辑推理题了。

写在最后：算力经济学的新解法

看完这篇论文，我最大的感触是：DeepSeek 正在试图重写大模型的“解剖学”。

在过去的一年里，整个 AI 行业都被 HBM 的产能危机掐住了脖子。

为了抢那几块显存，大厂们不惜溢价 30% 甚至更多。

而 DeepSeek 却冷静地走了一条“少有人走的路”：与其被硬件厂商收“过路费”，不如用算法重新定义硬件。

Engram 的出现证明了，通过极致的算法设计，廉价的 CPU 内存完全可以成为大模型算力的一部分。

这不仅是技术的胜利，更是“算力经济学”的胜利。

如果春节前后发布的 DeepSeek V4 真的集成了 mHC 的高速通路和 Engram 的外挂记忆，那它对行业的冲击，恐怕比我们想象的还要大。

对于这种“反向操作”的技术创新，你怎么看？欢迎在评论区聊聊。

(觉得文章有启发？点个“赞”，点个♥️，假装自己看懂了)

论文地址：https://github.com/deepseek-ai/Engram