近日,AI行业一直在连台唱戏:OpenAI GPT Image 2、GPT5.5、腾讯混元 Hy3、Kimi K2.6等大模型扎堆登场。让人应接不暇,也让人审美疲劳。

在这场AI军备竞赛的喧嚣中,梁文锋带来了大家翘首以盼的DeepSeek V4。

有人振奋于其使用国产算力芯片进行训练,感叹这是打破英伟达垄断的里程碑;也有人对于V4的性能表现略感失望,认为只是“接近”国外先进水平。

但当你反复研读DeepSeek V4官宣文案和技术文档之后,你会发现,区别于其他大模型不计成本堆料式追求顶尖生成效果,DeepSeek V4在设计上的特点,无一不在透露着梁文锋团队从一开始就坚持的选择:

效能优先、成本门槛优先、现实应用优先。

梁文锋正凭着一腔孤勇,带着DeepSeek追逐一片小众独特的星辰大海。

这份“独特”可能比千篇一律的成绩,更让人振奋。

匠心独具的设计思路

一个伟大的作品总是处处彰显着设计者的极致思考。

相对于官宣文案中并不异常突出的模型评分,让我们把目光转向DeepSeek重点提及的几大特性:

一、存算分离的MOE架构——降低部署和使用的成本

简单解释下MOE(混合专家架构),其核心是:总参数很大,但每次推理只激活少量参数(专家),做到大参数的能力、小参数的推理成本。

DeepSeek V4在MOE的基础上,依然带来了独树一帜的设计——ENgram条件记忆架构。这个架构理念是,将静态知识检索与动态计算推理彻底解耦。

概念很高深,但作用很直观:通过这套架构,模型可以将海量静态知识(非激活参数)存储在廉价的CPU内存中,释放昂贵的GPU显存专注于动态推理。

这便是DeepSeek V4降本增效的第一招,利用架构创新,降低对硬件的需求。

要知道,显存的价格是同等存储规格内存的数倍甚至10倍以上,而这套设计不但几乎没有降低模型检索和推理的性能,反而因为释放了GPU资源从而提高了模型的整体性能。

更值得关注的是,DeepSeek V4的总参数是所有开源模型最高的,但压缩比(激活参数占总参数的比例)是所有已知模型中最低的,只有3.06%。

二、全新混合注意力机制——上下文成本和机制的里程碑式突破

与ENgram架构相辅相成的,是DeepSeek V4全新的混合注意力机制——CSA(压缩稀疏注意力) 和 HCA(重度压缩注意力)。

官方解释是,CSA和HCA能大幅降低计算和显存的需求。看似平平无奇,但是他们的实际意义远不止于此。

众所周知,上下文长度,代表着大模型对于输入内容的记忆长度,一旦超出限定长度,模型便容易失忆、降智。

因此,各大厂商会将上下文长度作为第一宣传重点。目前,最高的上下文长度可以达到1M。

但是,这个上下文长度目前不能无限扩大。原因之一是过长的上下文会导致算力成本极高。

比如,传统上下文的算法复杂度是O (N²),这意味着1M上下文的算力和显存消耗,是128K的64倍。这种平方级增长,导致算力资源的爆炸性消耗,资源和成本很难支撑。

第二个原因是,传统Transformer的注意力机制,天然不擅长万级以上距离的弱关联逻辑。过长的上下文,会因为注意力稀释和噪声增大,导致性能极速下降。

而DeepSeek V4的CSA和HCA,恰好解决了这两个问题:前者保持关键局部细节的同时,大幅压缩全局计算量,后者以更宏观的全局视野,捕捉超长距离的依赖关系。

简而言之就是:CSA抓重点,省算力,HCA看全局,管长文。

这套机制,将算法复杂度降成了接近线性的O(NlogN),即算力和显存支出与上下文长度,变成了线性相关。

这意味着,1M上下文的算力和显存消耗,是128K的8倍,而不是之前的64倍,这使大规模上下文实用成为可能。

DeepSeek官方给了更准确的数字:对应1M上下文所需要的KV cashe(上下文用显存)降到了原先的10%(PRO版)和7%(Flash版),计算所耗算力降为原来的27%和10%,对更大上下文的支持还更经济,效果更好。

打开网易新闻 查看精彩图片

ENgram架构与CSA、HCA机制配合的结果是:保证一流模型能力的同时,训练、推理成本降到了普通企业可以承担的水平。

AI不再是大厂的奢侈玩具,而是可以走进各行各业的实用工具。

三、三项专门优化基础能力——降低用户的门槛

想让AI真正走入各行各业时,低成本部署和运行只是门槛,易用性才是关键。

与效能提升的设计思路一脉相承的是,DeepSeek的官宣文中重点提到的三项能力:Agent能力大幅提高,丰富的世界知识,世界顶级推理性能。

看似是泛泛而谈,但实际上全部指向了普通个人用户和企业用户使用时所需的关键能力——从应用能力层面降低用户的门槛。

我们来一一解读:

Agent 能力:诸如OpenAI等智能体工具调用时最依赖的能力,这也是个人和普通企业用户现在利用AI解决问题的最常见场景;

丰富的世界知识:包含大规模、多领域的常识 + 专业知识。对于普通企业,由于已存在的专业领域知识,不再需要昂贵的模型训练,更容易通过微调和RAG等形式,建立自己行业和公司专属的AI模型。

世界顶级推理性能:这更加是个人和普通企业用户难以调整优化的核心AI智能性能。

这三项专门强化的应用能力,无一不是个人和普通企业用户使用和部署时,难以靠自身逾越的门槛,但DeepSeek将这些基础能力专门优化后,预置在模型中,使得普通个人和企业用户AI易用性大幅度提升。

特别是DeepSeek对于flash版本的调整和描述,简直是对普通企业用户的专属优化版:常用的推理能力和简单的agent能力和pro版接近,但是较少用到的世界知识和复杂任务能力降低,更加印证了模型的设计思路和取舍。

四、宣传图上的小字——国产替代打破垄断高价

还有最关键的一点,DeepSeek V4在算力报价单下方标注了一行小字“受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调”。

打开网易新闻 查看精彩图片

这代表着DeepSeek在推理部署阶段,可以全面转向国产算力卡。而DeepSeek在官方文档中,已经确定支持全系国产算力卡。

在笔者发稿前,DeepSeek 通过降价活动,向市场展示了他的极致的成本优势:百万token输入输出只有3元和6元,对标国内同档次开源的智谱5.1和Kimi 2.6只有二分之一,而后两者只有128k和200k的上下文,对于国外同等1M上下文的模型更是只有十分之一和三十分之一,真正实现了普惠的1M上下文。

而DeepSeek在训练和部署上使用国产算力卡的成功经验,也必将带动更多国产厂商向国产算力转型,从而打破国外算力垄断带来的模型训练和使用成本的巨大门槛,最终实现全行业运营成本的下降。

笨蛋,关键是效能!

“笨蛋,关键是经济!”这是美国前总统克林顿的竞选标语,精准戳中了当时社会的痛点。

而现在AI行业的痛点是什么?是模型幻觉?算力竞赛?还是商业化困境?

但对于更多企业、用户而言,高的是门槛,难的是入门。而DeepSeek V4设计的核心,就是“普惠”。

从硬件需求,到用户易用,再到国产替代,梁文锋对于V4的设计思路,正在努力将AI向全民普惠上引领。

诚然,现在的DeepSeek V4还和最顶尖的国外闭源大模型有着很多明显的性能差距,例如编程能力,例如刚进行识图模式测试、6月份才支持全模态等等,但是DeepSeek选择的这条路却代表着更远大的未来。

首先,当前大模型核心发展方向,是模拟人脑的思考模式,大模型要真正逼近并超越人类的智能,必然走向提升效能的模式,而不是无止境的堆砌硬件。

因为人脑是一个极致高效的体系,仅需20w左右的功率便能驱动接近1PB的数据容量产生智能。DeepSeek V4的效能提升,完全符合这个大的趋势。

其次,DeepSeek V4 依托算法与架构优化,突破了传统大模型的规模化瓶颈。

传统集群部署会面临通信成本激增、算力利用率不足的问题,且单卡性能受物理条件难以快速迭代。当前多数模型依靠高端硬件、大显存冗余维持运行,成本高且扩容天花板明显。

而DeepSeek V4 通过算法与架构革新实现了算力效能的显著提升。模型的性能与规模化扩展上限,无疑会远高于仅堆叠硬件的模式。

最后,并非所有用户和企业都能够承担当前大模型“天价”的使用成本,也并非所有的需求都需要那些极致AI生成效果,性能够用、成本可控的模式无疑能适配更多行业的实际需求。

这种提升效能、降低门槛、拓展行业宽度的发展模式,在当前“堆参数、堆性能、抢第一”的AI军备竞赛环境中,显得格格不入。

但梁文锋和团队依然坚持普惠的全民路线。

“不诱于誉,不恐于诽,率道而行,端然正己。”

我们不能确定,在日新月异的AI世界,这种坚持会带来什么结果。但这种“虽千万人,吾往矣”的孤勇,或许才是梁文锋和团队的底色,也是DeepSeek V4带给AI行业最珍贵的宝藏。