★ 设为星标 | 只讲人话,带你玩转AIGC。

DeepSeek 真的不打算让人休息啊。

最近圈子里疯传:DeepSeek V4 即将在未来几周(春节前后)发布。

虽然官方没说话,但看这架势,大概率是真的。你们看这几周 DeepSeek 有多“反常”:

  • 元旦当天: 刚扔出 mHC 论文,试图拆掉 ResNet 的地基。

  • 上周: 悄悄更新了那篇著名的 DeepSeek-R1 论文。

  • 今天: 还没等大家消化完,又是一篇重磅论文——Engram。

这密集的动作,显然是在为后面的大招清扫障碍。

这种“暴风雨前的狂欢”,让我对传说中的 V4 更加期待了。

这篇论文又是 CEO 梁文锋亲自署名,看样子,这事儿又不简单。

打开网易新闻 查看精彩图片

如果说上一篇 mHC 是在动深度学习的“地基”,那这一篇 Engram,就是在试图绕开英伟达昂贵的“硬件壁垒”。

01|英伟达的无奈:算力够了,但脑子装不下了

要看懂 DeepSeek 这次有多狠,我们得先看一眼英伟达(NVIDIA) 最近的动作。

前不久,老黄发布了下一代核弹显卡 Rubin。

参数确实炸裂:推理算力提升了 5 倍,带宽提升了 2.8 倍。

但请注意一个极其尴尬的数据:HBM(高带宽显存)的容量,仅仅提升了 1.5 倍。

打开网易新闻 查看精彩图片

图:英伟达 Rubin NVL72 参数提升表

这就是目前 AI 行业的死穴:“显存墙”。

HBM 显存不仅产能被海力士和三星锁死,价格更是贵得离谱(是普通内存的 6-8 倍),关键是容量增长完全跟不上模型变大的速度。

你想把模型做大?不好意思,你得买更多昂贵的显卡,不是因为你需要算力,仅仅是因为你需要把模型塞进去。

这时候,DeepSeek 的“抠门”天赋又爆发了。

他们提出了一个灵魂拷问:谁说大模型的记忆必须塞在昂贵的 HBM 里?我们能不能用便宜的内存条解决问题?

02|明人的“笨功夫”:复活 N-gram

为了省钱,哦不,为了高效,DeepSeek 的工程师把目光投向了二十年前那个被淘汰的“笨小孩”——N-gram(N元语法)。

在深度学习还没火的“远古时代”,N-gram 是统治 NLP 届的王者。

这玩意儿的原理,说白了就是“成语接龙”加上“死记硬背”。

想象一下,你给电脑看了一万本中文书,然后问它:“白日依山尽”后面是什么?

N-gram 不懂什么叫诗情画意,它只会去它的小本本里查统计概率:“哦,以前这五个字后面 99% 跟着‘黄河入海流’。”

它的优点是: 查得飞快,不需要动脑子算。

它的缺点是: 没脑子,只能看眼前,不懂逻辑。

后来,聪明的 Transformer 出现了,N-gram 就被扫进了历史的垃圾堆。

但今天,DeepSeek 又把它捡回来了。

03|给 AI 挂个“外挂硬盘”

DeepSeek 发现,现在的 Transformer 虽然聪明,但也得了一种“富贵病”。

比如你问它:“东汉末年的张仲景是谁?”

模型那昂贵的神经网络大脑开始疯狂运转,动用几百亿参数,经过几十层的向量计算,最后告诉你:“他是医圣”。

这太浪费了! 这就像你雇了一个年薪百万的数学天才,结果你天天让他背诵《新华字典》。

DeepSeek 的 Engram 架构,就是给大模型装了一个“超级外挂字典”:

打开网易新闻 查看精彩图片

图:DeepSeek 的 Engram 架构,右侧那个黄色的支路就是传说中的“外挂字典”

移花接木: 他们把“张仲景”、“四大发明”这些固定的知识点,通过 N-gram 机制做成了一个巨大的索引表。

降维打击:重点来了! 因为查表这个动作非常简单确定的,DeepSeek 直接把这个巨大的表(几百亿甚至上千亿参数)丢到了便宜量大的 CPU 内存(RAM)里。

打开网易新闻 查看精彩图片

图:红得发紫的地方,就是模型在读到“四大发明”时,正在疯狂翻字典(查表),而不是在动脑子计算

当模型需要用到这些知识时,CPU 会悄悄把数据预取过来,喂给 GPU。

结果炸裂:即使挂载了一个 1000亿参数 的超级字典在 CPU 内存里,利用 DeepSeek 极致的工程优化,整个推理速度的损耗竟然不到 3%。

这意味着,在 HBM 价格上天的今天,DeepSeek 搞出了一种“用白菜价的内存条,干黄金价的显存活儿”的黑科技。

04|不止是省钱,智商还涨了

如果只是省钱,那也就是个工程优化。

但 DeepSeek 最可怕的地方在于:它还顺便把模型变聪明了。

实验数据非常不讲道理:这个装了“外挂硬盘”的模型,不仅记性好了,逻辑推理能力也暴涨。

  • 数学能力(MATH): 提升了 2.4 分。

  • 逻辑推理(BBH): 竟然暴涨了 5.0 分!

打开网易新闻 查看精彩图片

为什么?

这就回到了我们刚才的那个比喻。

因为 Engram 把那些死记硬背的“脏活累活”都揽走了,模型深层的神经网络就被解放出来了。

那个“数学天才”终于不用背字典了,可以全心全意地去思考复杂的微积分和逻辑推理题了。

写在最后:算力经济学的新解法

看完这篇论文,我最大的感触是:DeepSeek 正在试图重写大模型的“解剖学”。

在过去的一年里,整个 AI 行业都被 HBM 的产能危机掐住了脖子。

为了抢那几块显存,大厂们不惜溢价 30% 甚至更多。

而 DeepSeek 却冷静地走了一条“少有人走的路”:与其被硬件厂商收“过路费”,不如用算法重新定义硬件。

Engram 的出现证明了,通过极致的算法设计,廉价的 CPU 内存完全可以成为大模型算力的一部分。

这不仅是技术的胜利,更是“算力经济学”的胜利。

如果春节前后发布的 DeepSeek V4 真的集成了 mHC 的高速通路和 Engram 的外挂记忆,那它对行业的冲击,恐怕比我们想象的还要大。

对于这种“反向操作”的技术创新,你怎么看?欢迎在评论区聊聊。

(觉得文章有启发?点个“赞”,点个♥️,假装自己看懂了)

论文地址:https://github.com/deepseek-ai/Engram