★ 设为星标 | 只讲人话,带你玩转AIGC。
DeepSeek 真的不打算让人休息啊。
最近圈子里疯传:DeepSeek V4 即将在未来几周(春节前后)发布。
虽然官方没说话,但看这架势,大概率是真的。你们看这几周 DeepSeek 有多“反常”:
元旦当天: 刚扔出 mHC 论文,试图拆掉 ResNet 的地基。
上周: 悄悄更新了那篇著名的 DeepSeek-R1 论文。
今天: 还没等大家消化完,又是一篇重磅论文——Engram。
这密集的动作,显然是在为后面的大招清扫障碍。
这种“暴风雨前的狂欢”,让我对传说中的 V4 更加期待了。
这篇论文又是 CEO 梁文锋亲自署名,看样子,这事儿又不简单。
如果说上一篇 mHC 是在动深度学习的“地基”,那这一篇 Engram,就是在试图绕开英伟达昂贵的“硬件壁垒”。
01|英伟达的无奈:算力够了,但脑子装不下了
要看懂 DeepSeek 这次有多狠,我们得先看一眼英伟达(NVIDIA) 最近的动作。
前不久,老黄发布了下一代核弹显卡 Rubin。
参数确实炸裂:推理算力提升了 5 倍,带宽提升了 2.8 倍。
但请注意一个极其尴尬的数据:HBM(高带宽显存)的容量,仅仅提升了 1.5 倍。
图:英伟达 Rubin NVL72 参数提升表
这就是目前 AI 行业的死穴:“显存墙”。
HBM 显存不仅产能被海力士和三星锁死,价格更是贵得离谱(是普通内存的 6-8 倍),关键是容量增长完全跟不上模型变大的速度。
你想把模型做大?不好意思,你得买更多昂贵的显卡,不是因为你需要算力,仅仅是因为你需要把模型塞进去。
这时候,DeepSeek 的“抠门”天赋又爆发了。
他们提出了一个灵魂拷问:谁说大模型的记忆必须塞在昂贵的 HBM 里?我们能不能用便宜的内存条解决问题?
02|明人的“笨功夫”:复活 N-gram
为了省钱,哦不,为了高效,DeepSeek 的工程师把目光投向了二十年前那个被淘汰的“笨小孩”——N-gram(N元语法)。
在深度学习还没火的“远古时代”,N-gram 是统治 NLP 届的王者。
这玩意儿的原理,说白了就是“成语接龙”加上“死记硬背”。
想象一下,你给电脑看了一万本中文书,然后问它:“白日依山尽”后面是什么?
N-gram 不懂什么叫诗情画意,它只会去它的小本本里查统计概率:“哦,以前这五个字后面 99% 跟着‘黄河入海流’。”
它的优点是: 查得飞快,不需要动脑子算。
它的缺点是: 没脑子,只能看眼前,不懂逻辑。
后来,聪明的 Transformer 出现了,N-gram 就被扫进了历史的垃圾堆。
但今天,DeepSeek 又把它捡回来了。
03|给 AI 挂个“外挂硬盘”
DeepSeek 发现,现在的 Transformer 虽然聪明,但也得了一种“富贵病”。
比如你问它:“东汉末年的张仲景是谁?”
模型那昂贵的神经网络大脑开始疯狂运转,动用几百亿参数,经过几十层的向量计算,最后告诉你:“他是医圣”。
这太浪费了! 这就像你雇了一个年薪百万的数学天才,结果你天天让他背诵《新华字典》。
DeepSeek 的 Engram 架构,就是给大模型装了一个“超级外挂字典”:
图:DeepSeek 的 Engram 架构,右侧那个黄色的支路就是传说中的“外挂字典”
移花接木: 他们把“张仲景”、“四大发明”这些固定的知识点,通过 N-gram 机制做成了一个巨大的索引表。
降维打击:重点来了! 因为查表这个动作非常简单确定的,DeepSeek 直接把这个巨大的表(几百亿甚至上千亿参数)丢到了便宜量大的 CPU 内存(RAM)里。
图:红得发紫的地方,就是模型在读到“四大发明”时,正在疯狂翻字典(查表),而不是在动脑子计算
当模型需要用到这些知识时,CPU 会悄悄把数据预取过来,喂给 GPU。
结果炸裂:即使挂载了一个 1000亿参数 的超级字典在 CPU 内存里,利用 DeepSeek 极致的工程优化,整个推理速度的损耗竟然不到 3%。
这意味着,在 HBM 价格上天的今天,DeepSeek 搞出了一种“用白菜价的内存条,干黄金价的显存活儿”的黑科技。
04|不止是省钱,智商还涨了
如果只是省钱,那也就是个工程优化。
但 DeepSeek 最可怕的地方在于:它还顺便把模型变聪明了。
实验数据非常不讲道理:这个装了“外挂硬盘”的模型,不仅记性好了,逻辑推理能力也暴涨。
数学能力(MATH): 提升了 2.4 分。
逻辑推理(BBH): 竟然暴涨了 5.0 分!
为什么?
这就回到了我们刚才的那个比喻。
因为 Engram 把那些死记硬背的“脏活累活”都揽走了,模型深层的神经网络就被解放出来了。
那个“数学天才”终于不用背字典了,可以全心全意地去思考复杂的微积分和逻辑推理题了。
写在最后:算力经济学的新解法
看完这篇论文,我最大的感触是:DeepSeek 正在试图重写大模型的“解剖学”。
在过去的一年里,整个 AI 行业都被 HBM 的产能危机掐住了脖子。
为了抢那几块显存,大厂们不惜溢价 30% 甚至更多。
而 DeepSeek 却冷静地走了一条“少有人走的路”:与其被硬件厂商收“过路费”,不如用算法重新定义硬件。
Engram 的出现证明了,通过极致的算法设计,廉价的 CPU 内存完全可以成为大模型算力的一部分。
这不仅是技术的胜利,更是“算力经济学”的胜利。
如果春节前后发布的 DeepSeek V4 真的集成了 mHC 的高速通路和 Engram 的外挂记忆,那它对行业的冲击,恐怕比我们想象的还要大。
对于这种“反向操作”的技术创新,你怎么看?欢迎在评论区聊聊。
(觉得文章有启发?点个“赞”,点个♥️,假装自己看懂了)
论文地址:https://github.com/deepseek-ai/Engram