(关注公众号设为标,获取AI深度洞察)

全文 14,000字 | 阅读约42分钟

【核心要点预览】

  • DeepSeek顶级AI模型,引发NVIDIA单日蒸发6000亿美元市值。

  • NVIDIA面临来自Cerebras等硬件创新者、CUDA生态被削弱、科技巨头自研芯片三重挑战。

  • DeepSeek通过FP8训练、多词元预测、改良MOE架构等创新,实现了AI训练和推理效率的重大突破。

  • 这场风暴连带影响Broadcom、台积电、微软等科技巨头,总计市值蒸发超1400亿美元。

  • NVIDIA 75%的高毛利率可能难以持续,整个AI芯片产业格局面临重构。

今天是除夕,先祝各位大家春节快乐!

在2025年1月27日周一的美国科技市场,半导体巨头英伟达(NVIDIA)遭遇了史上最大规模的市值蒸发。从1月24日(周五)到1月27日(周一),英伟达股价从142.62美元暴跌至118.58美元,跌幅高达16.9%,市值蒸发近6000亿美元。这场惊人的跌势不仅令英伟达元气大伤,更引发了整个科技行业的连锁反应。

这场股市风暴的导火索,是国内AI公司DeepSeek发布的R1模型。这个模型证明了一个重要观点:打造出色的AI模型,未必需要昂贵的高端芯片。这个发现对以高端AI芯片著称的英伟达来说无疑是个重大打击。

那么,DeepSeek究竟做出了什么突破?为什么能在AI领域掀起如此巨大的波澜?让我们深入解析这家"黑马"公司的技术创新。

一、牛市论点

让我们先简要回顾一下大家都耳熟能详的“看多 NVDA ”逻辑。Deep learning 和 AI 是自互联网以来最具变革性的技术,将渗透到社会的方方面面。如今, Nvidia 几乎垄断了整个行业在训练和推理基础设施上的资本开支。

像 Microsoft 、 Apple 、 Amazon 、 Meta 、 Google 、 Oracle 等全球巨头都已下定决心斥巨资,以免在这场竞争中掉队。于是各方面投入——资金、电力、数据中心建设面积,当然还有 GPU 数量——都在飙升,没有放缓的迹象。而 Nvidia 能在最高端、面向数据中心的产品上获得超过 90% 的疯狂毛利率。

这只是看多理由的初步概述。现在还出现了新的看多动因,让许多原本就很乐观的人更是“加码”看多。举例来说,“类人机器人”的兴起就可能大大颠覆我们的想象:当它们能迅速胜任包括洗衣、打扫、整理、烹饪,以及团队式地装修房子或建房子、管理仓库、驾驶叉车等工作时,很多人恐怕会被震惊到。而且还有很多更多人甚至没考虑过的因素也在发酵。

其中一个前沿话题是“新的缩放定律”,它给我们提供了理解计算需求如何增长的新视角。最初的缩放定律——也就是支撑 AI 在 2012 年 AlexNet 出现、2017 年 Transformer 架构问世后飞速前进的背后逻辑——是说:如果我们在训练中使用数十亿甚至万亿级的词元,打造更大规模的模型,并投入更多 FLOPS 来训练这些模型,模型在各种下游任务上就能获得更好的效果。

而且,这种改进趋势还具备一定可预期性,像 OpenAI 和 Anthropic 这样的顶尖实验室,在正式训练前,就能相当准确地预测模型最终的表现——有时误差还不超过几个百分点。这套“最初的缩放定律”十分关键,但一直以来也让人对未来有些担忧。

比如,我们可能已接近耗尽全球大部分高质量训练数据。虽说并非完全如此——还有很多历史书刊并未被妥善数字化,或并未获得授权用于训练——可就算加上这些,从 1500 年到 2000 年之间所有“专业出版”的英语著作,把它们投入到动辄 15 万亿词元规模的训练语料库中,增量仍然有限。

一个现实比对:Google Books 已数字化约 4000 万本书,若每本书平均含 5 万到 10 万单词(约 6.5 万到 13 万词元),那也只给我们带来约 2.6 万亿到 5.2 万亿词元;而事实上,无论版权问题如何,其中大量内容早已被拿去训练主流模型了。此外,还有学术论文(仅 arXiv 上就超过 200 万篇), Library of Congress 也收藏了 30 亿份数字化报纸页面。即使合并起来或许能到 7 万亿词元,但其中许多其实也早被纳入训练,真正的“增量”并不算大。

当然,我们也能另辟蹊径,比如自动转录 YouTube 的全部视频,将其转换成文字。尽管在边际上可能有些帮助,但比起公认权威的专业教科书,这些转录文本的质量就差得多。所以当谈及这套“最初的缩放定律”,我们一直面临“数据瓶颈”的问题:尽管可以不断增加 GPU 和数据中心的投入,要大规模制造新的、正确且增量意义显著的知识却非常难。如今,所谓“合成数据”的想法开始兴起,也就是由 LLM 自动生成的文本,这看似“自给自足”有点自嗨的感觉,但在数学、逻辑和编程方面,它确实效果显著。

原因很简单:这些领域可以自动检验结果对不对。我们可以随意生成大量数学定理或 Python 代码,然后只把检测合格的内容纳入训练数据。这样一来,至少在这些领域,我们能极大扩充高质量训练数据的规模。

此外,还有文本之外的大量数据可以用于 AI 训练。例如,一亿人的完整基因组测序数据(每个人未压缩约 200GB 到 300GB),从量上看非常庞大,尽管不同个体之间其实大同小异。这里也不能简单拿它来和书籍或互联网文本做对比,因为:

  • 基因组文件的大小和词元数量并不对应

  • 基因组数据的信息与文本完全不同

  • 高度冗余的数据其训练价值尚不明朗

  • 处理基因组数据的计算需求也不同

  • 不过,这依然是未来训练超大模型时可能的一种多样化信息来源。

因此,尽管我们有一些方法去收集更多训练数据,但看看这些年训练语料库暴涨的速度就知道:若想在“通用有用知识”这一层面不断进步、迈向“比 冯诺依曼还聪明 10 倍、精通所有人类专业领域”的超级智能,我们恐怕很快就会遇到数据极限。

除了数据量有限性,依赖预训练缩放定律的拥护者们脑中还一直藏着其他隐忧。其中之一是:当你训练完一个模型后,这么大一套计算基础设施接下来要干吗?还要用来训练下一个模型吗?固然可以,可 GPU 和技术更新速度非常快,用两年前的集群来做新模型,经济上未必划算。更理想的是使用刚建的全新数据中心,虽然建造成本比旧数据中心高 10 倍,但算力是旧的 20 倍。但问题在于,这些前期投资迟早得通过正向盈利来摊销并收回成本,对吧?

眼下,市场对 AI 的兴奋度极高,这也给了 OpenAI 等公司机会,即使在创建以来一系列运营亏损的背景下,依旧获得令人瞠目结舌的后续融资估值(当然他们营收增速确实也很快)。但从长周期看,要想让这套游戏持续下去,最终还是得收回数据中心成本,并在风险调整后保证这个行业与其他投资机会相比具备合理的回报率。

二、新的范式

我们先前谈到的预训练缩放定律,主要指的是模型在训练阶段需要投入巨大的计算量。然而,在最近一年的讨论中,另一个完全不同的“推理阶段计算缩放”定律开始引起关注。过去,训练模型的成本占据了绝大部分的计算预算,而一旦模型训练完毕,推理时所需的计算量相对来说少很多。

然而,随着一系列革命性的 Chain-of-Thought (“COT”)模型出现(其中最具代表性的就是 OpenAI 的 O1 model ,以及 DeepSeek 最近的 R1 model ),推理计算的方式彻底改变。新的 COT 模型在推理过程中除了生成对用户可见的输出文本,还会生成相当数量的“逻辑词元”——类似模型的思维草稿或“内部对话”。这样一来,通过在内部不断检验和修正思路,模型便能提供更高质量的结果。可以将它想象成给人类更多时间和工具,反复检查和验证自己的思路,然后才拿出最终答案。

这一方法解决了 Transformer 模型最大的难点:模型有时会“一条路走到黑”,即使中途发现有问题,也很难自动回退和修正。而 COT 允许模型不断迭代尝试、寻找可行方案,直到它们较有把握自己没在胡说。这让“推理”所需的计算量随内部逻辑词元的增多而飙升,但好处是正确率也显著提升。

举例而言, Anthropic 的 Claude3.5 Sonnet 模型在编写 Python 代码时已经相当出色,但处理较复杂、较长的代码时常会出一些“小错”,需要后续修补。而 OpenAI 的 O1 model 会在输出前就用 COT 过程自动发现并修复这些问题,导致很多代码第一次就能跑通,令人惊艳。

事实上, ChatGPT Plus 里的 O1 model 和更昂贵的 ChatGPT Pro 订阅( O1-Pro )使用的模型本质上差异并不大,只是后者会花更多时间在“内部推理”上,因此能产生更准确、更可靠的结果。这意味着同一个长达数百 KB 的提示,在一般模型里几秒就能开始回应,而 O1-Pro 可能需要数分钟才会完成,但回答的准确度通常更高。

在实际应用中,凡是对正确性要求高到不能犯一点错误的场景(金融交易、医疗建议、法律咨询等),都非常适合牺牲响应速度以换取更高的推理深度。最近, OpenAI 新的 O3 model 更是震惊行业:它在超高难度的数学题目上取得突破,只是因为投入了极其惊人的计算资源——为单个难题的推理就花费数千美元,这远远超过传统模型一次推理所需的几美元成本。

这让我们看到了完全独立于“预训练规模”之外的另一个新维度:如今,模型训练只是起点,真正能让 AI 解决超困难的问题并保持极高可靠度的,是在推理阶段投入巨大的计算资源,以实现“天才级别”的深度分析,从而绕过任何会令普通 LLM 出错的陷阱。

即便你像我一样,非常看好 AI 的远大前景,一个现实问题仍在眼前:“凭什么就只有某家公司能拿到这块市场的绝大部分利润?”历史上也有很多至关重要的新技术,确实改变了世界,但当初看起来最有希望的公司,往往并不一定是最后最大的赢家。比如, 莱特兄弟虽然率先发明并完善了飞机技术,但如今它的后续企业加起来市值也不超过 100 亿美元;而 Ford 现在的市值虽有 400 亿美元,却也只占 Nvidia 的 1.1% 左右。

要搞明白为什么 Nvidia 现在能吃下如此大的一块蛋糕,先得看看它为什么比别人更能赚钱。毕竟,做 GPU 的可不只它一家。AMD 也做出了不错的 GPU ,纸面参数并不落后多少,制程节点等也差不多。诚然, AMD 的 GPU 没那么快,也没那么先进,但也不是被 Nvidia 完全碾压到 10 倍性能差距那种程度。如果按每 FLOPS 的成本粗算, AMD 的价格可能还更便宜,大概是 Nvidia 的一半左右。

回头看别的半导体领域,比如 DRAM ,虽然市场高度集中到三星、 Micron 和 SK-Hynix 三家,但它们的毛利率在周期底部可能是负数,周期峰值也就 60% 左右,平均更是只有 20% 左右。而 Nvidia 最近几个季度的综合毛利率接近 75%,还包括了利润率比较低、同质化更高的消费级 3D 显卡业务。

是什么让 Nvidia 能维持如此高的利润?主要优势之一在于软件:相较于 AMD 令人吐槽的 Linux 驱动, Nvidia 的驱动更加稳定可靠、对各种环境支持也更好;主流的 AI 软件库(比如 PyTorch )对 Nvidia 的硬件也做了深度优化。此外,更底层的编程框架 CUDA 也是 Nvidia 的专有技术,几乎成了事实标准。有能力在 GPU 上“榨出”最大性能的人才,大都只熟悉 CUDA 。这意味着如果你花大价钱招了一批顶级 GPU 工程师,他们多半只会在 CUDA 里思考和写代码。

另一个大卖点是 interconnect 技术,也就是把成千上万块 GPU 连接到一起进行高效并行的带宽能力。训练这些超大型基础模型的关键在于让所有 GPU 同时保持高负载,不要因为等待数据而闲置。对带宽的要求非常苛刻,传统的数据中心网络设备不足以支持这种高吞吐低延迟的需求。

2019 年, Nvidia 仅用 69 亿美元收购了以色列公司 Mellanox ,继而掌握了业内领先的互联技术。这对训练阶段意义尤其重大,因为要同时协调数千块 GPU 的输出;而推理(包括 COT 推理)所需的 GPU 相对少,只要 VRAM 装得下训练好的模型就行。

这些都构成了 Nvidia 能长期保持高额利润率的“护城河”。此外,它还能用这些超额利润再投入到大量研发中,形成技术飞轮,保持在硬件性能方面的持续领先。

不过,对客户而言,往往最直接的考量还是“单位成本下的性能”,包括设备成本和能耗。Nvidia 的卡确实很快,但如果从“每 FLOPS 价格”的角度去看,它未必最佳。而问题在于,其他条件并非同等:AMD 驱动不够成熟,主流 AI 库对 AMD 的支持也欠佳, AMD 还缺乏足够好的互联方案,你想聘到懂 AMD 的高级人才也并不容易……这些都让 AMD 的高端数据中心前景黯淡。

听起来,这些似乎都对 Nvidia 十分有利,市值水涨船高也就不足为奇。但同时也有一些“乌云”正在酝酿。我认为值得注意的风险点主要有几个:有些其实一直存在,只是过去在市场高速扩张时并不明显;现在随着局势变化,可能会变得重要。还有一些是最近(过去两周内)才出现的动态,可能对短期 GPU 需求的增长轨迹带来巨大影响。

四、主要威胁

如果从宏观角度来审视:Nvidia 在相对小众的领域经营了很长时间;它的对手并不多,而且那些对手也没能获得足以威胁到 Nvidia 的巨大收益或增长,因为它们没有足够的资本来撼动这家市场领跑者。游戏市场虽然规模可观、保持增长,但利润率和年增长速度都称不上惊人。

2016-2017 年左右,一些科技巨头开始大力招聘并投入机器学习和 AI 项目,但就整体预算而言,这些投入更像是“登月计划”式的探索性研发,尚未成为主要支出。直到 2022 年 ChatGPT 横空出世(虽然从时间看只过了两年多,但技术迭代的密集度令人感觉像过了更久),格局才发生剧变。

一夜之间,大型公司愿意迅速砸下数十亿美元。Neurips 、 ICML 等知名学术会议的与会者人数出现井喷。那些原先可能去学金融衍生品的“天才学生”,纷纷转向 Transformers 研究;而在顶级 AI 实验室里,为不带团队的工程师开出百万美元年薪,竟也成了一种常态。

当然,让庞大的组织转向并不是一蹴而就的事:新建数据中心需要耗时一年甚至更久,设备的交付时间也在拉长;哪怕雇来了聪明人,也要花不少时间才能让他们熟悉现有的技术栈。但如今,资本、人才和大量精力正集中涌入这一领域。眼看着 Nvidia 如今是这里面“赚大钱”的代表,其他玩家自然想要从它身上“分一杯羹”。

从更大的视角看,关键在于:只要需求和利润够大,市场就会迸发出各种新方法和新硬件思路,意在绕过 Nvidia 赖以维系市场霸主地位的技术和生态壁垒。毕竟“条条大路通罗马”,为了撬动这块巨大蛋糕,竞争对手必然会试图用不同形式的创新来撼动 Nvidia 的护城河。

五、硬件领域的冲击:谁能撼动 Nvidia ?

在硬件层面, Cerebras 这类公司是很好的例子。他们开发了“整片晶圆级”(wafer scale) AI 训练芯片,把整整一块 300mm 硅晶圆做成一颗巨型芯片,容纳数量级上远超传统水平的晶体管和内核(他们也在最新博文里解释了怎样解决过去困扰此类方案的“良率问题”)。

和 Nvidia 旗舰 GPU H100 相比, Cerebras 的最新 WSE-3 芯片晶体管面积大约是 H100 的 57 倍,核心数量也达到近 90 万,而 H100 不过刚过百来个“流式多处理器”。粗略计算,在 AI 场景下,单颗 WSE-3 能提供约等于 H100 32 倍的算力。既然 H100 已经卖到近 4 万美元,这块“天价”芯片可想而知。

关键在于, Cerebras 不用去追赶 Mellanox 的互联技术,而是“一块巨型芯片干掉一堆 H100 ”,因此在带宽需求上不必走 Nvidia 的思路。Cerebras 的推理性能也非常抢眼,已经可以免费试用他们跑 Meta 的 Llama-3.3-70B 模型,推理时几乎是瞬时响应,每秒可输出约 1,500 词元。相较之下,超过每秒 30 词元就已被认为“够快”,更别提 1,500 词元/秒了。

另一个有异曲同工之妙的公司是 Groq ,这名字别和 Elon Musk 旗下 X AI 训练的 Grok 搞混了。Groq 发明了自己的“张量处理器(TPU)”,完全聚焦于深度学习所需的数学运算,并且采用“确定性计算”理念,让运算时序不会随机波动,因此能从底层对芯片进行极致优化。结果就是,在类似 Llama 的模型上,他们已演示了每秒 500+ 词元的推理速度,甚至经过“推测性解码”后能达到每秒 1,320 词元,和 Cerebras 不相上下,远超常规 GPU 。

有人也许会说, ChatGPT 的响应速度也没这么快,但用户不也觉得够用?不过别忘了,高速推理不仅能带来更好的交互体验,还能支撑更多多阶段推理或低延迟场景(内容审核、反欺诈、动态定价等)。推理越快,硬件利用率越高,按请求数摊下来的成本也更低——哪怕 Groq 的设备一台要几百万美元,只要有足够的任务负载,就能把平摊成本降到合理区间。

就像 Nvidia 有 CUDA 一样, Groq 也拥有自家的专有软件栈,能够对像 Meta 、 DeepSeek 或 Mistral 这些开源模型做特殊拆分,加速效果显著。他们的硬件思路只针对“推理计算”,不处理训练环节,但在 COT 类推理越来越重要且计算越来越昂贵的背景下,“专攻推理、更高效且更快速”也足以对 Nvidia 形成挑战,至少会使投资人对 Nvidia 未来业绩增长的乐观预期打上问号。

除了这些专注硬件创新的初创公司, Nvidia 的主要客户也在自研芯片瞄准 AI 训练和推理。Google 从 2016 年就开始研发自家 TPU ,虽曾短暂对外出租售,近年基本在内部用,迭代到第六代。Amazon 做了 Trainium2 和 Inferentia2 ,在花巨资堆 Nvidia GPU 的同时,也在投巨资建自研芯片集群,给 Anthropic 准备的一个集群据说有 40 多万颗芯片。Amazon 本身对 AI 模型开发的结果也许不尽如人意,但芯片研发是另一回事,他们只要性能“够用”,再加上没有 Nvidia 90%+ 的毛利,就已经很诱人。

OpenAI 也表态要开发自研芯片,而他们加上 Microsoft ,是 Nvidia 数据中心产品最大用户。更别提 Microsoft 自己也说要搞自研芯片!而世界最值钱的科技公司 Apple ,在移动 CPU 和 GPU 设计上也早已崭露头角:他们比 Intel 和 AMD 拿出了更高“性能/功耗比”的处理器。虽然 Apple 的方向似乎与上面这些玩家略有区别,但若真给 iPhone 用户提供大规模 AI 服务,也不能排除他们会搞一款自己的“推理/训练”芯片。

需要注意的是, Nvidia 的超级大客户群中,前几名占据了主要的利润来源。而如今几乎每个大客户都在自研专门面向 AI 的芯片,这对 Nvidia 的未来意味着什么?

更要紧的是, Nvidia 其实并不自己制造芯片——它主要是家 IP 公司。真正让这些高性能芯片得以实现的关键在于代工厂 TSMC 和提供 EUV 光刻机的 ASML 。只要你有钱、有量, TSMC 可以为任何人生产同样先进制程的芯片,不管用途是比特币挖矿、 GPU 、 TPU 还是手机 SoC 。再加上, Nvidia 的设计师薪资再高,也挡不住其他巨头的挖人。只要招到人、有资金,两三年就能憋出一颗“不一定有 H100 一半那么强但也相当不错”的芯片,关键是 Nvidia 的高毛利给对手留下了很大“降价”或“差异化”空间。有了 TSMC ,他们就能用和 Nvidia 相同的制程把图纸变成实物。

六、软件层面的挑战:CUDA 霸权还能稳固多久?

硬件上的新动向已经让 Nvidia 感到不小威胁,但近几年在软件领域也有几股力量正悄然崛起,起初没引起太多关注,如今势头渐强,可能会动摇 Nvidia 在 CUDA 生态上的统治地位。先说 AMD GPU 在 Linux 驱动方面的问题。我们提过, AMD 长期以来对自己驱动的低质量睁只眼闭只眼,真是把大笔钱拱手让出。

结果,知名黑客 George Hotz (少年时曾为初代 iPhone 越狱,如今是自动驾驶公司 Comma.ai 和 Tiny Corp 的 CEO,同时也是 tinygrad 开源框架的作者)最近公开表示,他受够了 AMD 驱动的糟糕表现。他们的 TinyBox AI 电脑系列有使用 Nvidia 也有用 AMD ,但后者的价格更低,他很想挖掘 AMD 硬件的潜能,却被驱动限制得太死。

他干脆自己动手编写 AMD 的驱动和软件栈,且没有 AMD 官方的支持。2025 年 1 月 15 日,他在公司官方 X 帐号发文,称他们只差解决 RDNA3 汇编器这一块就能在 AMD 上实现完整的自主技术栈。他们已经有了自己写的驱动、运行时、库和模拟器,总行数只有 1.2 万行左右。考虑到他过去的技术成绩,或许再过几个月就能让它跑起来,这可能为企业使用 AMD GPU 打开一个全新世界,而无需花大价钱买 Nvidia 。

当然,单靠一个还没完成的 AMD 驱动并不足以动摇 Nvidia ,还有更具潜力的变化。例如,大量大公司和开源社区正合力打造通用 AI 软件框架,让 CUDA 只变成众多编译目标之一。这样一来,开发者用更高层次的语法撰写代码,系统自己把它编译成对各种硬件都高度优化的低层代码——不管是 CUDA ,还是其他 GPU/TPU 。像 MLX (苹果领衔)、 Triton ( OpenAI 领衔)和 JAX (谷歌出品)等框架就是这种思路:它们能帮助你一次编写高水平的 AI 代码,然后自动匹配和编译到不同平台上。

这样的模式令人回想起 20 世纪 80 年代手写汇编 vs. 高级语言的演变:最初,手写汇编的性能优势显著,但随着编译器不断进步,平台更新换代的成本也倒逼大家转向更灵活的高级语言。同样地, AI 开发也将迎来类似过程——手写 CUDA 确实可能在性能上拔尖,但代码维护和迁移成本高昂。随着软件抽象层和编译器技术的成熟,开发者会更青睐一次编写、高效适配多硬件的通用框架,同时还可绕过“ CUDA 税”节省硬件开支。

再进一步想,未来 CUDA 本身或许会被当作一种“规范化”描述语言(类似硬件设计用的 Verilog ),开发者熟悉它,用它来阐述并行算法。但最终不必只编译到 Nvidia 硬件上,而是能通过 LLM 把 CUDA 源码自动转换成适配别的芯片的指令。这听上去有点像科幻,但以 OpenAI 现今的 O3 模型为例,这种功能也许已经基本可行,一两年内更有望普及。

或许最令人震惊、之前提到过的进展就发生在过去两周内。它在整个 AI 界引发了巨大的轰动,成为推特上内行人士热议的话题——尽管主流媒体对此毫无报道:一家名为 DeepSeek 的小型初创公司发布了两款新模型,其整体表现几乎与 OpenAI 和 Anthropic 的最佳模型不相上下(还远超了 Meta 的 Llama3 模型以及其他体量更小的开源模型玩家,例如 Mistral )。这两款模型分别是 DeepSeek-V3 (大致对应于 GPT-4o 和 Claude3.5 Sonnet 的水准)和 DeepSeek-R1 (大致相当于 OpenAI 的 O1 模型)。

为什么会如此震撼?首先, DeepSeek 是一家员工 reportedly 不到 200 人的中国小公司。据说他们最初是一家类似 TwoSigma 或 RenTec 的量化对冲基金,他们利用数学与工程能力转向做 AI 研究。但事实是,他们针对 DeepSeek-V3 和 DeepSeek-R1 这两款模型发布了两份极其详尽的技术报告。

这些技术报告相当专业,如果你对线性代数不甚了解,可能读起来会云里雾里。可你真正应该做的是,在此处的 AppStore 免费下载名为 DeepSeek 的应用(用 Google 账号登录即可尝试),或者在此处安装其安卓版,或直接在桌面浏览器上用他们的网页版。然后确保在设置里选择 “DeepThink” 选项以启用推理链功能(即 R1 模型),并让它用简单易懂的方式解释技术报告中的部分内容。

这样做可以让你同时看到几个重要事实:

  • 1、这个模型确实靠谱。AI 基准测试里充斥各种“注水”手段——很多模型在指标上看着很强,可在现实世界中表现糟糕。Google 在这方面尤其糟糕,常常吹嘘他们的 LLM 有多厉害,但在任何实际场景下都拙劣得连最简单的任务都无法稳定完成,更别提棘手的编程类任务了。而 DeepSeek 的模型与此截然不同——输出连贯、有说服力,的确与 OpenAI 和 Anthropic 不相上下。

  • 2、DeepSeek 不仅在模型质量上取得了深刻进展,更关键的是他们在模型训练与推理效率方面做出了重大突破。通过在硬件层面紧密协作、结合数种迥然不同且极具巧思的优化手段, DeepSeek 可以用远比其他前沿模型更高的效率来训练这些惊艳的模型。据一些测算,他们的效率比业界其他领先方案高出大约 45 倍。DeepSeek 声称,训练 DeepSeek-V3 的总成本仅略高于 500 万美元。对 OpenAI 、 Anthropic 等来说,这几乎就是九牛一毛,因为它们早在 2024 年训练单一模型的成本就轻松突破了上亿美元的门槛。

这样做怎么可能?一家资源、人员、资金、 GPU 数量等都比西方顶尖 AI 实验室少了不止一个量级的小公司,怎么能在这种层面上“抢戏”?美国对中国出口 GPU 的限制难道不应该让他们在硬件上乏力吗?具体原因非常技术化,但可以这么理解:DeepSeek 相对“贫瘠”的 GPU 资源反倒成了激发创意和聪明解决方案的关键,毕竟“匮乏往往催生创新”。

他们的一大创新在于高明的混合精度训练框架,可在整个训练过程中使用 FP8 (8-bit 浮点数)。大多数西方 AI 实验室依旧采用 FP32 (32-bit 浮点数,即“全精度”)进行训练。FP8 虽然只有 8 位,但它并不只是简单地把数值刻画为 256 个等距区间,而是运用了复杂的数学技巧来同时表示很大和很小的数——只是在精度上没有 32 位那么高。FP8 的好处是能大幅节省显存并提高性能,而仍保持对许多 AI 工作负载足够的准确度。

以往的做法往往是在高精度下完成训练,然后再压缩到低精度——过程会损失一些质量;而 DeepSeek 采用了原生的 FP8 方式,从一开始就享受内存节省的好处,又通过在网络中的关键位置引入高精度计算,避免性能或质量被明显折损。当你在数千块 GPU 上并行训练时,每张卡的内存需求降低,就意味着总体需要的 GPU 数量也能显著减少。

另一项重大突破是他们的多词元预测系统。大多数基于 Transformer 的 LLM 在推理时,都是一次只预测下一个词元。DeepSeek 找到方法在确保质量与单词元预测相当的前提下,一次预测多个词元。他们的办法能让这些额外预测的词元有约 85%-90% 的正确率,等于是将推理速度提高近一倍,而质量损失很小。更巧妙之处在于,他们依旧保留了完整的因果预测链,模型并非在“瞎猜”,而是在构造化的上下文中进行推断。

这是他们在处理所谓 Key-Value 索引方面的一次突破——这些 KV 索引可以理解为 Transformer 架构中注意力机制里对各个词元的表征方式。虽然这里的技术含量相当高,但简单来说, KV 索引在训练和推理过程中会大量消耗 VRAM ,这也是为什么在训练这些模型时往往需要成千上万块 GPU ——每块 GPU 的 VRAM 最多不过 96GB,而这些索引会迅速将这部分内存占满。

他们的 MLA 系统找到了一个方法,可以把这些索引用压缩过的形式存储起来;它在保留核心信息的同时,大幅减少了内存占用。巧妙之处在于,这种压缩直接融入到模型的学习过程中——不是后期再加上的某种“额外步骤”,而是直接进入了端到端训练流程。这意味着整个机制是“可微分的”,可以用标准优化器直接训练。能做到这一点的原因在于,模型本质上会在更低维的空间中对底层数据进行表示,而非使用所谓“环境维度”(ambient dimensions)。所以即使大家一直以来都存储完整的 KV 索引,这其实在浪费大量空间。

这样一来,不仅可以避免存储许多无用数据而浪费宝贵的显存,从而显著提升训练时的内存占用效率(再次强调,这能减少你需要的 GPU 数量),还能在一定程度上强化模型质量,因为这在某种程度上充当了“正则化”的角色,让模型将注意力放在真正重要的部分,而不是把过多容量用于拟合训练数据中的噪音。因此,你不仅节省了内存,而且模型可能表现更佳。至少,你不会因大幅减少内存消耗而显著降低性能(这通常是 AI 训练中面对的艰难取舍)。

他们还借助自己的 DualPipe 算法和定制的通信内核,实现了 GPU 通信效率的重大飞跃。该系统能够智能地将计算与通信重叠进行,同时在两者之间平衡 GPU 资源。训练时,他们只需要让大约 20 个 GPU 的流式多处理器(SM)用于通信,剩余部分全部用于计算。结果是远高于常规训练配置的 GPU 利用率。

另一个非常聪明的做法是对 Transformer 架构采用所谓“专家混合(Mixture-of-Experts,MOE)”方案,但在负载均衡方面进行了关键的创新。可能大家知道, AI 模型的“规模”常常用模型中包含的参数数量来衡量。参数就是存储在模型内部的一些数值,用来描述某个人造神经元的重要程度,或在注意力机制中某个词元在特定上下文里的权重等等。

例如, Meta 新的 Llama3 模型有几个规模版本:1B 参数的(最小)、 70B 参数的(最常用)以及高达 405B 参数的巨型版本。但这个庞大模型对大多数人来说用处有限,因为即便只是在推理时想获得还算凑合的速度,也需要数万美元的 GPU 设备投入,尤其是在原生全精度模式下。现实里,大多数真正在用、或者让人兴奋的开源模型使用的是 8B 参数版本,或者高度量化的 70B 参数版本,因为这样才能在一张消费者级 Nvidia 4090 显卡(不到 1,000 美元)上运行。

为什么这些数字重要?从某种角度看,参数量和精度代表了模型内部存储的“原始信息”规模。当然,这与模型的推理能力或“智商”并不能直接画等号;事实证明,有时参数量并不算大的模型也能在复杂逻辑问题、几何定理证明、 SAT 数学题等方面展现令人惊讶的推理水平。

可是,若论对世界上各种知识点都面面俱到,或者记住所有名家小说的情节与转折,小模型就不一定能应对,而特别庞大的模型有可能办到。这样的“代价”是:无论在训练还是推理时,你都需要同时把所有 405B 参数(或者任何具体数量)加载到 GPU 的 VRAM 中,这在硬件层面会非常笨重昂贵。

而采用 MOE 的好处是,你可以把“大模型”拆解成一系列“小模型”,它们各自掌握不同且不完全重叠的知识。DeepSeek 在这方面的创新是引入了所谓“无辅助损失(auxiliary-loss-free)”的负载均衡策略,能够在保持专家利用率的同时避免通常负载均衡带来的性能损失。接着,根据推理请求的性质,你可以将请求智能地分配给最合适的“专家”子模型。

粗略的类比可想象成一个专家委员会,各自擅长不同领域——比如一位是法律专家,另一位是计算机科学专家,再有一位是商业策略专家。若问题是关于线性代数,你就不会派给法律专家。当然,这只是个简单比喻,实际机制并不真的这样运作。

真正的优点在于,这种方法让模型可以容纳海量知识,但本身却不会变得过度庞大。原因在于,虽然所有专家加起来参数很多,可任何给定时刻只有一小部分参数是“活跃”的,也就是实际需要加载到显存中以完成推理。对 DeepSeek-V3 而言,他们有一个规模非常庞大的 MOE 模型,共含 671B 参数——比 Llama3 最大的 405B 还多——但在任何给定时刻只有 37B 参数在运转,这足以放进两块消费级 Nvidia 4090 显卡的显存里(总价不到 2,000 美元),而不需要动辄花 4 万美元买 H100 。据传 ChatGPT 和 Claude 也用到了 MOE 架构,一些泄露消息称 GPT-4 的总参数达 1.8 万亿,分为 8 个子模型,每个 2200 亿参数。即便这样,也比让全部 1.8 万亿参数一起加载要容易多了,但依旧需多块 H100 级别的 GPU 才能运行,因为内存占用非常庞大。

此外,论文还提到几项其它关键优化。比如,他们极度节省内存的训练框架避免了张量并行,通过在反向传播时重新计算部分操作(而不是存储它们),并在主模型与辅助预测模块之间共享参数,从而进一步降低负担。所有这些创新叠加起来,就产生了网络上流传的“ ~45 倍效率提升”这种惊人数据。我个人也十分相信这个量级至少大致靠谱。

很有力的佐证之一是 DeepSeek 的 API 成本:在几乎达到业界顶尖表现的前提下,他们的接口调用费比 OpenAI 或 Anthropic 便宜了约 95% 。某种意义上,这像极了把 Nvidia GPU 与竞争对手的专用芯片对比——哪怕对手的性能稍弱,只要在投入产出比上好得多,对于特定应用来说依旧值得考虑,只要他们能证明性能足够达标且接口可用性与延迟也令人满意(迄今为止,鉴于这些新模型性能引发的需求爆炸,大家对 DeepSeek 的基础设施居然还能稳定运转都感到非常惊奇)。

但是,与 Nvidia 的情况不同的是, Nvidia 的超高毛利主要来自它在数据中心产品上几乎垄断的地位,而 DeepSeek 在 API 价格上与 OpenAI 和 Anthropic 相差如此之大,可能纯粹是因为他们在计算效率上接近高出 50 倍(且在推理环节上可能还不止)。事实上,目前并不清楚 OpenAI 和 Anthropic 在 API 服务上能赚到多少利润——它们或许更关心营收增长,以及从所有 API 请求中收集到的数据。

最后需要补充的是,不少人猜测 DeepSeek 或许在夸大他们的 GPU 利用率数据,因为他们实际拥有远超限额的 H100 卡,只是由于出口管制不想惹麻烦,或不想妨碍今后继续获取 GPU 。虽然这不无可能,但我个人更倾向于相信他们是真正通过极具创造力的训练与推理方式实现了这个成绩。他们在论文中具体说明了方法,我觉得等其他实验室的研究人员尝试复现实验,也许就能证明这些结果确实可靠。

八、一个真正会思考的模型

新的 R1 模型和技术报告或许更加令人惊叹,因为他们在 chain-of-thought 方面抢在 Anthropic 之前,成了除 OpenAI 外唯一能让这项技术大规模商用的团队。不过别忘了, OpenAI 的预览版 O1 模型还是在 2024 年 9 月中旬才发布的,到现在也就 4 个月左右!你必须得明白一件事:不像 OpenAI 非常讳莫如深地对外界保密其底层运行原理,且除了与 Microsoft 等签过保密协议的合作伙伴外不开放模型权重, DeepSeek 却将这两款模型完全开源并且允许相当自由地使用。他们不仅发布了极其详尽的技术报告,解释工作原理,还放出了源代码供任何人查看或尝试复刻。

通过 R1 , DeepSeek 可以说是在 AI 领域攻下了一座“圣杯”:让模型在没有海量监督数据集的情况下,能一步步地推理。他们的 DeepSeek-R1-Zero 实验显示了惊人的结果:利用纯粹的强化学习,再加上精心设计的奖励函数,模型自己就能发展出复杂的推理能力。这不仅是为了解题——模型会自发地长篇推理、对答案进行自我校验,并在面对较难问题时分配更多计算时间。

其核心技术突破在于他们对奖励建模(reward modeling)的新颖思路。他们没用那些可能导致“奖励投机(reward hacking)”的复杂神经网络式奖励模型(模型会想出不真实的方法来提高奖励,反而无法提升真实世界表现),而是设计了一套精巧的基于规则的系统,将对最终答案正确性的奖励和对思维结构的奖励结合起来。跟许多团队采用的过程式奖励模型相比,这种更简单的方式反而更稳健且更易扩展。

最令人着迷的是,在训练过程中,他们观察到一个名为“aha 时刻”的现象:当模型遇到不确定性时,它会在中途自发地修正推理思路。这个涌现行为并非靠人工编写,而是自然地从模型与强化学习环境的交互中产生的。模型会在内部“叫停”自己,指出潜在的推理问题,然后换种方法重来——而这些都没经过显式的训练指令。

完整的 R1 模型在这些洞见之上又加了一些东西,比如在应用强化学习技巧之前先用了一个小规模的高质量示例集(“冷启动”数据),并成功解决了推理模型的一个重大挑战:语言一致性。过去很多 chain-of-thought 推理尝试会让模型“混杂语言”或输出不连贯的内容。而 DeepSeek 通过在 RL 训练过程中加入语言一致性奖励,牺牲少许性能来换取更可读、更一致的结果。

效果惊人:在难度极高的高中数学竞赛 AIME 2024 上, R1 获得了 79.8% 的准确率,追平 OpenAI 的 O1 模型;在 MATH-500 测试中达到了 97.3% ,而且在 Codeforces 编程比赛中排名进了 96.3 百分位。但或许最令人震撼的是,他们成功将这些能力压缩到更小规模的模型上:他们的 14B 参数版本就能胜过许多更大型的模型,说明推理能力不光取决于纯粹的参数规模,还要看怎样训练模型处理信息。

九、总结

概括而言, Nvidia 正陷入一场前所未有的“合围之战”:依靠 20x 未来营收和 75% 毛利率来支撑的高估值,随着各路竞争对手的逼近,越来越让人心里没底。公司在硬件、软件与效率层面的护城河,正出现令人担忧的裂痕。全球有数不清的资金和顶尖人才,正从每个可能的角度对 Nvidia 展开进攻。

硬件上, Cerebras 和 Groq 这类颠覆式架构表明:Nvidia 引以为傲的互联技术并非无法替代,甚至可以用完全不同的设计路线来绕过它。Cerebras 的整片晶圆方案、 Groq 的确定性计算,都展示了无需 Nvidia 互联也能获得强悍性能。而在传统赛道上, Google 、 Amazon 、 Microsoft 、 Meta 、 Apple 等超级客户也都在研发自研芯片,或许会逐步蚕食 Nvidia 在数据中心的高额利润;它们的项目已经不再是“实验室里玩玩”,例如 Amazon 单单为 Anthropic 就上马了 40 多万颗自研芯片的基础设施。

在软件领域,形势也类似。MLX 、 Triton 、 JAX 等高层次框架正在淡化 CUDA 的地位,同时改进 AMD 驱动也意味着以更低成本选用其它硬件成为可能。回想汇编到 C/C++ 的演变, CUDA 的领先地位是否能长期保持,真的要打个问号。更何况,如今的大模型能自动翻译 CUDA 代码到任意目标硬件——这足以撼动 Nvidia 生态最大的“粘性”之一。

最让人瞠目结舌的,是 DeepSeek 以不到别人 1/45 的计算投入就拿下顶尖模型的表现,这暗示全行业对算力的需求预测或许都高估了。如果再加上 chain-of-thought 等技术让推理更高效,那么实际算力需求恐怕远低于以往设想。从经济角度看,当 DeepSeek 能与 GPT-4 旗鼓相当,却只要对方 5% 的 API 价格时,这不是说明大家在白白烧钱,就是意味着行业利润终将显著收缩。

再考虑到 TSMC 愿意把最先进的工艺给任何能付得起钱、能保证产能的客户, Nvidia 的架构优势也就有了天花板。更重要的是,历史告诉我们,“超额利润”极难在一个竞争激烈的市场里长久维持。将这些威胁放在一起看, Nvidia 要想持续现在的高增长和高毛利,恐怕没那么容易。无论是硬件架构创新、客户自研、软件层屏蔽、效率突破,还是制造能力普及化,只要其中任何一点见效,就可能对 Nvidia 的增长或利润造成实质打击。以当前的股价来衡量,市场似乎对这些风险的定价几乎为零。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://youtubetranscriptoptimizer.com/blog/05_the_short_case_for_nvda

https://techcrunch.com/2025/01/27/nvidia-drops-600bn-off-its-market-cap-amid-the-rise-of-deepseek/

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编:图灵