快思慢想研究院院长 田丰

一、开篇:一个让硅谷彻夜难眠的问题

打开网易新闻 查看精彩图片

2025年1月,一家中国杭州的对冲基金系AI公司,用不到600万美元的训练成本,发布了一个在数学推理上击败OpenAI旗舰模型的开源系统——那一天,英伟达市值蒸发超过万亿美元。

一年零三个月后的今天,这家公司再度出手。

2026年4月24日,DeepSeek正式发布V4预览版并同步开源。它的两个变体——V4-Pro(1.6万亿参数)和V4-Flash(2840亿参数)——连同完整的技术论文、模型权重和推理代码,一并向全球开放。Apache 2.0协议,意味着商业使用完全免费,任何人、任何公司、任何国家都可以下载、修改、部署。

就在技术论文发布的同一周,另一条消息在投资圈炸开:DeepSeek融资前估值已达3000亿元人民币,计划增资500亿,对外募资300亿,投资门槛直接拉到50亿元起投,连LP身份都要严格筛选。

两条消息并排放在一起,构成了这个时代AI竞赛最耐人寻味的悖论:一家以"用穷人武器打富人游戏"闻名的公司,正在成为一个只有顶级资本才能入场的游戏的主角。免费开源的模型,和50亿起投的融资门槛,同一天出现在同一家公司身上。

斯坦福大学今年发布的《AI Index 2026》已经记录了这场追赶的速度:美中顶尖模型的性能差距,从2023年5月的最高31.6个百分点,压缩到了2026年3月的2.7%。美国私人AI投资是中国的23倍(2859亿美元对124亿美元),但性能差距已几乎可以忽略不计。

打开网易新闻 查看精彩图片

这不只是一个关于算法效率的故事。这也是一个关于资本逻辑如何在极速技术迭代中重构竞争格局的故事。

正如DeepSeek创始人梁文锋所描述的理念:在算力受限的约束下,用算法创新替代蛮力堆砌。当对手在用钱买算力,你必须用智慧换效率。快思慢想研究院田丰院长把这种路径总结为一句话:当效率成为武器,算力的不对称可以被算法的不对称所抵消。这不是追赶,这是在定义一条全新的竞争赛道。

我通读了完整的DeepSeek V4技术论文,全文超过五万字,五十余页,涵盖架构设计、基础设施、预训练、后训练四大模块。这篇报道的任务,是把论文里真正重要的东西,用你不需要计算机科学博士学位就能理解的语言讲清楚——同时一个字也不虚构。

二、被物理定律卡住脖子的行业

打开网易新闻 查看精彩图片

要理解DeepSeek V4为什么重要,必须先理解一个正在卡住整个AI行业脖子的物理定律。

传统Transformer注意力机制的计算量,随上下文长度的增长是平方级别的。用人话说:你把模型能处理的文字量翻一倍,计算成本不是翻倍,而是翻四倍。把文字量扩大到十倍,成本就是一百倍。

这就是为什么大多数AI模型的"记忆窗口"卡在128K个token——大约相当于一本两百页的书。一旦你想让模型同时处理一个完整的代码库、一个季度的财务报告或几十篇科学论文,它就会因为计算成本爆炸而崩溃或截断。

打开网易新闻 查看精彩图片

突破这个上限,是整个行业都在试图解决的"圣杯"问题。Google的Gemini系列走了一条暴力路线:扩大硬件投入,强行支持更长上下文,但代价是训练和推理成本的指数级攀升。Anthropic的Claude在长上下文质量上领先,但同样依赖顶级H100集群的大规模部署。

DeepSeek的答案,来自论文第二章那个密度极高的架构设计。而这个答案,也在某种程度上解释了为什么一家"省钱"起家的公司,如今反而需要大规模融资——因为把效率做到极致,本身就需要顶级的工程人才和算力基础设施投入,规模效应的门槛并未消失,只是被推迟到了更高的能力层级。

三、架构革命:用两把"压缩剪刀"剪断平方复杂度

打开网易新闻 查看精彩图片

DeepSeek V4的核心创新叫做"混合注意力架构",由两种机制交替叠加构成:CSA(压缩稀疏注意力)和HCA(重度压缩注意力)。

想象你正在读一部一百万字的侦探小说。传统注意力机制要求你翻到每一页时,都必须重新翻阅所有前文,才能判断当前情节与哪些过去情节相关——这在现实中是荒谬的。没有人这样读书。

CSA的做法是这样的: 每隔m个段落,先把这些段落"提炼"成一个摘要词条(这是"压缩")。当你读到第500章时,面对的不是499章的完整原文,而是经过压缩的摘要词条库。然后,一个叫做"闪电索引器"的子模块会快速扫描这些词条,判断哪些最可能与当前情节相关,只取最相关的top-k个词条进行精读(这是"稀疏选择")。压缩加稀疏,双重降低计算量。

打开网易新闻 查看精彩图片

HCA更激进: 每m'个段落(m'远大于m)才压缩成一个词条,压缩率极高,但完全不做稀疏选择——全量关注所有词条,只是每个词条都非常浓缩。它牺牲了细节精度,但计算代价极低,专门负责捕捉"万里之外"的长程依赖关系。

两种机制交替出现在模型的不同层:CSA处理精细的中程信息,HCA处理粗粒度的超长程信息。同时,每个注意力层还保留了一个"滑动窗口注意力分支",专门负责最近128个token的近邻局部信息,弥补压缩机制容易丢失局部细节的缺陷。

论文中给出的实测数据相当惊人。在100万token的超长上下文场景下,与上一代V3.2相比:

·V4-Pro的推理计算量(FLOPs)只需 27%,KV缓存(模型的"工作记忆")只需 10%

·V4-Flash更极端,推理计算量降至 10%,KV缓存降至 7%

论文还提到,如果以标准BF16 GQA8配置作为基准(行业常见设置),V4系列的KV缓存在百万token场景下可压缩至该基准的约2%。换句话说,过去需要一个大型服务器集群才能跑起来的百万上下文推理,现在用少得多的硬件就能完成。这直接决定了V4能够被更多企业、更多国家的开发者实际部署使用。

四、给神经网络装"稳压器":mHC的数学之美

打开网易新闻 查看精彩图片

如果说混合注意力架构解决了"记得多久"的问题,那么第二个创新——mHC(流形约束超连接)——解决的是"传得多稳"的问题。

深度神经网络有一个古老的工程难题:信号从输入层流向输出层,经过几十甚至上百层的传递,数值容易发生爆炸或消失——就像一条信息经过一百次人工转述,最终面目全非。2015年,微软的He Kaiming发明了"残差连接"(ResNet)作为标准解法:每层都保留一条直通线,让原始信号绕过层间变换直接传递,大大缓解了这个问题。

但残差连接的上限已经被研究者触碰到了。V4引入的mHC是一种升级方案:它把两个相邻层之间的残差映射矩阵B,强制限制在"双随机矩阵"的数学流形上。

所谓双随机矩阵,是每行每列的元素之和都等于1的非负矩阵——这一约束保证了该矩阵的谱范数(最大奇异值)不超过1,用数学语言说叫"非扩张映射"。用工程语言说:信号通过这个路由器后,不会被意外放大或压缩,只会被重新分配权重,数值稳定性得到了根本保障。这个约束通过Sinkhorn-Knopp算法迭代实现,论文中设定20次迭代收敛。

打开网易新闻 查看精彩图片

论文坦承,mHC经过工程验证确实有效,但"底层机制仍有待充分理论理解"。这句话出现在一篇顶级AI技术报告里,并不寻常——大多数论文倾向于用华丽的理论解释掩盖工程上的经验性发现。DeepSeek选择了诚实,这份克制本身,就是一种科学精神。

从工程效果来看,论文第3.5节记录了实现mHC时的系统优化:通过重新计算(recompute)策略选择性保存中间张量,结合流水线调度调整,最终将mHC引入后的额外时间开销控制在"重叠1F1B流水线阶段的6.7%"——在超大规模训练中,这是一个工程上可以接受的代价。

五、换掉训练的发动机:Muon优化器的登场

打开网易新闻 查看精彩图片

自2017年Adam优化器被广泛采用以来,几乎所有大模型训练都在用它的变体(AdamW)。V4做了一件在大规模训练中颇为罕见的事:把大部分参数的训练发动机从AdamW换成了Muon

Muon的核心思想是:在每次更新参数之前,先对梯度矩阵做一次"正交化"处理——通过Newton-Schulz迭代,把梯度矩阵的奇异值逼近1,使参数更新的方向更加"规整"。论文中描述了一个分两阶段的混合迭代策略:前8步用系数(3.4445, -4.7750, 2.0315)快速驱动奇异值收敛到1附近,后2步用(2, -1.5, 0.5)精确锁定到1——工程细节的颗粒度精细至此,显示了团队在训练基础设施上的极深积累。

嵌入层、预测头和RMSNorm模块仍保留AdamW,其余模块全部使用Muon,并引入了混合BF16精度的梯度通信策略,将跨数据并行节点的通信数据量减半。

打开网易新闻 查看精彩图片

然而,训练万亿参数级MoE模型从来不是一帆风顺的。论文第4.2.3节描述了他们遭遇的"loss尖刺"——训练过程中损失值会突然爆炸,简单回滚无济于事,因为尖刺会周期性复发。研究者找到了两个工程解法:

第一个叫"预判路由"(Anticipatory Routing):在第t步训练时,路由索引不用第t步的参数计算,而是提前在t-Δt步就预先算好、缓存起来,用于第t步——这打断了路由网络和主干网络同步更新形成的恶性循环。额外时间开销被控制在约20%,并通过自动检测机制只在尖刺发生时才激活此模式。

第二个叫"SwiGLU截断":直接把激活函数的线性分量输出截断在[-10, 10]范围内,门控分量上限截断至10,物理上压制异常值的产生。论文验证这不影响模型最终性能。

这些细节——每一个都是真实大规模训练中踩坑后的工程结晶——也从侧面说明了为什么顶级AI研发无法廉价复制:不是算法难以抄袭,而是这些踩坑的经验,是用时间和算力成本一刀一刀刻出来的。3000亿估值与50亿起投门槛背后,资本正在为这些无法用PPT传递的工程积累定价。

六、真实的成绩单:论文里的克制与坦诚

打开网易新闻 查看精彩图片

性能数据是任何AI论文的核心战场,也是最容易被过度包装的地方。V4论文在这一点上的表述,相对克制。以下所有数据均直接来自论文原文,无任何推断:

代码竞赛能力,是V4最耀眼的成绩。论文第5.3节记录,V4-Pro在14场Codeforces Division 1竞赛(共114道题,时间跨度2025年5月至11月)中,通过标准评分系统计算得到Elo评分3206分,V4-Flash为3052分,GPT-5.4为3168分——这是官方论文中首次有开源模型在编程竞赛评分上超过顶级闭源模型的记录。在SWE-bench Verified(真实软件工程任务)上,V4-Pro达到80.6%,与Claude Opus 4.6(80.8%)几乎持平。

数学推理能力,V4展示了一项引人注目的成就。在Putnam-2025(相当于数学界的奥林匹克)上,采用混合形式推理加Lean 4形式化验证的流程,DeepSeek-V4达到120/120满分,与Axiom系统并列,领先Seed-1.5-Prover(110/120)。

知识宽度,论文的描述诚实而不自夸:V4-Pro-Max在SimpleQA(事实性知识问答)上达到57.9分,"显著超过所有开源竞争者",但同时明确指出"仍落后于领先的专有模型Gemini-3.1-Pro(75.6分)"。这句话,写在了自己的论文里。

打开网易新闻 查看精彩图片

Agent(代理)能力,论文提供了一组来自内部真实工作场景的测试数据:来自50余位工程师日常任务的代码基准测试中,V4-Pro的通过率为67%,超过Claude Sonnet 4.5(47%),但低于Claude Opus 4.5(70%)和Opus 4.6 Thinking模式(80%)。超过半数参与者(52%)认为V4-Pro可以作为他们的主力编程模型,39%倾向认可,不到9%明确反对。

超长上下文能力,V4-Pro在MRCR任务(100万token场景下的多段文档检索)中以83.5分超越Gemini-3.1-Pro(76.3分),但低于Claude Opus 4.6(92.9分)。

判断:V4的真实定位清晰可辨——在推理和代码两个维度上,开源模型首次实现了与顶级闭源模型的正面对抗;在知识宽度和超长上下文质量上,与Anthropic的顶级模型仍有可见差距;Agent能力是当前开源阵营的最高水位,但尚未完全追平。这是一份诚实的成绩单,不需要任何包装。

七、后训练的秘密:" 10 位老师同时教 1 个学生"

打开网易新闻 查看精彩图片

V4论文最值得深读的章节之一,是第五章关于后训练流程的描述。这里发生了一个根本性的方法论替换。

DeepSeek把之前版本用的强化学习(RL)阶段,整体替换为"在策略蒸馏(On-Policy Distillation,OPD)"。

流程是这样的:首先针对数学、代码、Agent任务、指令跟随等不同领域,分别训练出超过十个"领域专家模型"——每个专家通过专项SFT微调加上领域定制的GRPO强化学习,在自己的领域内达到极致性能。然后,让所有专家模型同时扮演"老师",V4基础模型作为"学生",通过最小化学生与各老师之间的反向KL散度,让学生同时学习所有老师在各自擅长领域的输出概率分布——最终,十余个专家的能力被整合进同一套参数。

论文特别强调,他们选择了"全词表逻辑蒸馏"而非常见的token级别近似估算。这意味着每次蒸馏步骤都需要实时重建教师模型在完整词表(128K个词)上的输出分布,工程难度大幅提升。为此,论文第5.2.2节详细描述了分布式存储和按需加载的解决方案:教师模型的权重被卸载到中央分布式存储,只有最后一层隐藏状态被缓存,在训练时按需通过预测头重建完整logits,同时所有加载和卸载操作全部异步进行,不阻塞主计算流。

打开网易新闻 查看精彩图片

此外,论文还介绍了一个精巧的工程细节——"快速指令(Quick Instruction)"机制。在真实的聊天场景中,模型收到用户问题后通常需要先执行若干辅助判断:要不要联网搜索?这个问题是什么领域?URL需不需要抓取?传统做法是维护一个独立的小模型来完成这些判断,代价是额外的前向推理和预填充消耗,增加了首token延迟(TTFT)。

V4的解法是:在输入序列末尾追加专用特殊token(<|action|><|domain|><|query|>等,论文表5列出了六种),每个token对应一项辅助任务。这些token直接复用已计算好的KV缓存,可以并行输出多个判断结果,完全绕过了额外预填充的开销,"显著降低了用户感知的首token延迟,同时消除了维护和迭代独立小模型的工程负担"。

八、开源是战略,估值3000亿是现实

打开网易新闻 查看精彩图片

"开源"这个词,在2026年的AI语境里,已经不是技术选择,而是地缘政治声明。

美国的顶级AI公司选择了截然不同的道路。OpenAI的GPT-5.4、Anthropic的Claude Opus 4.6——这些最强大的模型,只能通过付费API访问,权重从不公开,训练代码更是商业机密。这一策略背后有两重逻辑:一是保护高达数亿美元训练成本的商业回报,二是对强大模型被滥用的安全顾虑。

中国选择了另一条路。DeepSeek、阿里Qwen、智谱GLM——这一批中国顶级模型,几乎无一例外地选择了开源。这一选择并非纯粹理想主义。美国出口管制封锁了顶级英伟达芯片流向中国;在算力受限的约束下,开源是一种精明的策略:开放模型可以加速外部社区的反馈与贡献循环,补偿算力上的劣势;越多开发者在你的模型上构建应用,你的生态就越强大,API收入和商业化路径也随之打开。正如Android挑战iOS、Linux颠覆商业Unix的历史所证明的:生态的网络效应,最终往往比单点的技术领先更持久。

然而,就在V4开源的同一周,一个信号让人必须重新审视这个故事的另一面:DeepSeek融资前估值已达3000亿元人民币,计划增资500亿,对外募资300亿,投资门槛直接拉到50亿元起投,连LP身份都要严格筛选。 这个估值,已经超过不少国内上市大模型公司,直追头部梯队。

这两件事同时成立,并不矛盾,但它们合在一起讲述了一个更完整的真相:开源降低了使用门槛,但并不降低研发门槛。 大模型研发、算力采购、顶级人才的薪酬竞争,每一项都是无底洞。梁文锋当年用600万美元训练R1的故事固然振奋人心,但那是特定历史窗口下的奇迹——当前沿已经推进到1.6万亿参数、百万上下文、十余个专家模型联合蒸馏的规模,"省钱"的上限已经远高于当初。50亿起投的门槛背后,是AI下半场资源和资金向头部玩家极速集中的结构性现实:普通机构几乎没有入局资格,小玩家的生存空间正在被加速压缩。

打开网易新闻 查看精彩图片

这对全球AI生态的意义是双重的。对最终用户和开发者而言,开源带来了免费的前沿能力;对资本和产业而言,大模型正在成为一个极度集中的"豪门局"。市场已经在用脚投票:据美国国会及行政当局中国委员会2026年3月的报告,约80%的美国初创企业使用中国基础模型开发其衍生产品。新加坡政府支持的AI Singapore项目,在Qwen和Llama之间选择了阿里巴巴的Qwen来构建其最新区域模型。马来西亚宣布本国主权AI生态系统将基于DeepSeek运行。这些不是政治宣言,是工程师做出的技术选型决定。

斯坦福AI Index 2026报告以冷静的数据揭示了这场追赶的速度:美中最强模型的性能差距,已从2023年5月的最高31.6个百分点收窄至2026年3月的2.7%。这发生在美国私人AI投资(2859亿美元)是中国(124亿美元)整整23倍的背景之下。

这组数字背后的含义,值得任何关心AI产业格局的人反复咀嚼:当投入产出比的差距已经大到这个程度,"钱能买来竞争优势"这个命题,正在被历史悄悄撤销——但与此同时,3000亿的估值也在提醒我们,钱从来没有离场,只是换了一种更集中、更高门槛的方式重新入场。

九、论文结尾的诚实,比结论更重要

打开网易新闻 查看精彩图片

几乎所有AI论文都以一段光芒四射的"未来展望"结尾——那通常是营销语言,不是科学语言。DeepSeek V4论文的最后一章,是个例外。

论文原文承认:为了降低架构风险,V4保留了大量"初步验证有效的组件和技巧",导致整体架构"相对复杂"——未来将进行更系统、更原则性的精简,以在不损失性能的前提下提升优雅度。两个关键的训练稳定性技巧——预判路由和SwiGLU截断——被明确描述为"有效但底层原理仍不充分理解",团队表示将深入研究并加强内部监控指标体系。

未来方向被列举得具体而务实:探索嵌入模块的稀疏化(论文引用了2026年1月一篇关于条件记忆的最新研究);低延迟架构和系统优化;多模态能力整合(论文最后写道:"我们正在推进多模态能力的整合");更好的数据策略。

打开网易新闻 查看精彩图片

这份坦诚,和硅谷闭源模型"只发benchmark不开代码"、"只讲能力不讲局限"的文化,形成了一种有意思的对照。科学进步依赖于公开的错误和公开的局限,而不仅仅是公开的成就。一篇愿意诚实讲述自己"还不懂的东西"的技术报告,本身就是一种贡献。

值得一提的是,这种技术层面的坦诚,与商业层面的强势估值并不冲突——事实上,正因为有这样严谨的工程文化支撑,资本才愿意给出3000亿的定价。技术的诚实和商业的自信,在这里并行不悖。

十、收尾:两种逻辑,一个时代

打开网易新闻 查看精彩图片

2026年4月24日,DeepSeek V4的发布,在技术史上标记了一个坐标点,但它同时承载着两种彼此张力的逻辑。

第一种逻辑是效率的民主化。 V4-Pro在Codeforces编程竞赛中以3206分排名全球第23位,超过了GPT-5.4(3168分)——这是真实的、与人类顶级程序员同场竞技的结果,不是benchmark游戏。在100万token的上下文处理上,推理计算量降至上一代的27%,工作记忆降至10%。这意味着百万上下文不再是只有超大规模云服务商才能提供的奢侈品,而将成为可以被普通企业、发展中国家、个人开发者实际部署的标配能力。诺贝尔经济学奖得主Paul Romer说过:"经济增长来自知识的累积,而知识是非竞争性的——一个人使用它不会减少另一个人的使用。"开源AI正在做的,正是把原本被商业壁垒圈定的知识,还给这个可以免费使用它的世界。

打开网易新闻 查看精彩图片

第二种逻辑是资本的集中化。 3000亿估值、50亿起投门槛、严格筛选的LP资格——AI的研发前沿正在演变成一个普通机构和散户根本没有入局资格的"豪门局"。大模型研发所需的算力、人才、工程积累,每一项都不是可以用聪明创意替代的,它们需要持续的、大规模的资金投入。AI下半场,资源和资金将向头部玩家极速集中,这不是预测,已经是正在发生的现实。

这两种逻辑同时成立,并不互相取消。一个更准确的图景是:AI能力的使用成本正在趋近于零,但AI能力的生产成本正在趋近于天文数字。前者让全球数十亿人和数百万企业受益,后者让这个行业的竞争格局迅速收敛为少数玩家之间的角逐。

田丰院长的判断是:当效率成为武器,算力的不对称可以被算法的不对称所抵消。 这依然成立——但同时要加上另一句:当规模成为护城河,效率的优势最终需要资本的纵深来维系。DeepSeek用技术重新定义了竞争边界,又用估值宣告了这条边界的代价。这是同一个故事里不可分割的两面。

能看清这两面,才算真正读懂了DeepSeek V4这一天。

参考资料:本文基于DeepSeek-V4官方技术论文(2026年4月24日发布)、斯坦福大学AI Index 2026报告;融资消息来源于公开市场信息。

书名:《AI商业进化论:“人工智能+”赋能新质生产力发展》

出版社:人民邮电出版社

作者:田丰

帮助你定位AI当下发展坐标的指南针

帮助你洞察AI未来演进趋势的航海图

通俗化解读AI的原理、特性和四大发展规律、提供AI赋能商业、引发新质生产力变革的一手案例分析。既有宏观视角的全局观照,又有各行业应用层面的下探记录,聚焦AI的原理与实践、现在与未来,是当下AI应用的全景图、更是身处AI技术浪潮之中的探路书。