2026 年,全球四大科技巨头亚马逊、Meta、谷歌和微软的资本支出预测总额达到 6,000 亿美元。换算成数据中心的年租赁价格,大约对应 50 GW(吉瓦)的算力容量。与此同时,OpenAI 刚刚完成 1,100 亿美元融资,Anthropic 官宣了 300 亿美元的新一轮募资。钱到位了,但这些钱到底能不能变成真正运转的芯片和数据中心?

半导体研究机构 SemiAnalysis 创始人兼 CEO Dylan Patel 近日做客 Dwarkesh Patel 的播客节目,就 AI 算力扩展的核心瓶颈进行了一次信息量极高的深度对话。Dylan 长期追踪全球半导体供应链和 AI 基础设施建设,SemiAnalysis 的客户涵盖超级云厂商、AI 实验室和对冲基金,其数据和预测在行业内被广泛引用。

图丨 Dylan Patel(来源:Youtube)
打开网易新闻 查看精彩图片
图丨 Dylan Patel(来源:Youtube)

对话核心要点如下:

•6,000 亿美元资本支出的真相:四大科技巨头今年的资本支出中,大量用于未来数年的前置投入(涡轮机定金、数据中心建设、电力协议),而非今年直接上线的算力。美国今年新增约 20 GW 数据中心容量。

•Anthropic 的算力困境:收入增速远超预期(1 月 +40 亿、2 月 +60 亿 ARR),年底需要超过 5 GW 才能满足推理和训练需求,但因此前采购过于保守,不得不接受更高价格或更大比例的收入分成来获取算力。OpenAI 因激进签约获得了显著的算力先发优势。

•H100 今天比三年前更值钱:因为更强的模型(如 GPT-5.4)能从同一颗芯片中榨取更多价值,而芯片供给始终有限,其定价取决于芯片能产生的经济价值,而非替代品的比较价格。

•瓶颈已从电力转向芯片制造:2026 年最大瓶颈不再是电力或数据中心,而是半导体供应链本身,逻辑晶圆、内存和晶圆厂产能。

•ASML 是终极天花板:每 GW AI 算力需要约 3.5 台 EUV 光刻机。ASML 目前年产约 70 台,到 2030 年最多约 100 台。全球存量加增量到 2030 年底约 700 台,理论上限约 200 GW,12 亿美元的光刻设备卡住了 500 亿美元的数据中心投资。ASML 的供应链(蔡司透镜、Cymer 光源等)极度复杂且手工化,无法快速扩产。

•内存危机正在到来:内存厂商过去数年未建新厂,新产能最早 2027 年底才能上线。HBM 每晶圆面积比特数仅为普通 DRAM 的 1/4,但带宽高一个数量级,无法用 DDR 替代。内存涨价将导致智能手机出货量从 11 亿部骤降至 5-6 亿部,中低端机型首当其冲。

•回到 7 纳米不现实:虽然旧制程有存量产能,但 Hopper 与 Blackwell 在实际推理场景中的性能差距达 20 倍(非 FLOPS 暗示的 2-3 倍),因为芯片内通信带宽、封装密度、网络架构等优势层层叠加。

•电力不是主要瓶颈:除联合循环燃气轮机外,还有航改燃机、往复式发动机、船用发动机、燃料电池、太阳能 + 储能等十余种技术路线,每种可贡献数十 GW,合计可达数百 GW。释放美国电网 20% 的峰值冗余容量即可获得 200+ GW。

•太空数据中心这十年不可行:芯片是最稀缺资源,部署到太空额外延迟 6 个月以上;卫星间通信带宽远不及地面 NVLink;散热更困难;可靠性更差。唯有芯片不再是瓶颈且地面资源耗尽时,太空方案才有意义。

•快时间线美国赢,慢时间线中国赢:如果 AI 收入和能力快速起飞,美国的基础设施和模型优势在扩大;如果到 2035 年 AGI 才成熟,中国有足够时间建立完全自主的垂直整合半导体供应链。

以下是这期节目的完整编译。

为什么 H100 现在的价值比三年前更高

Dwarkesh:如果把四大科技巨头今年的资本支出加在一起是 6,000 亿美元,按每 GW 数据中心年租金大约 130 亿美元来算,接近 50 GW。但我们今年显然不可能一下子部署 50 GW,那这些资本支出到底什么时候才能变成真正上线的算力?

另外,AI 实验室也在疯狂融资,OpenAI 融了 1,100 亿,Anthropic 融了 300 亿。如果看它们今年实际上线的算力,加上租赁成本,这些融资似乎单独就够覆盖今年的算力支出了,还不算它们会赚到的收入。所以第一,大型科技公司的资本支出到底什么时候转化为上线算力?第二,实验室融这么多钱到底要干什么?

Dylan:6,000 亿美元的超级云厂商资本支出,加上供应链其他环节的开支,总额接近 1 万亿美元。其中一部分确实直接用于今年上线的芯片和算力,但还有大量的前置性资本支出。我们今年在美国大约新增 20 GW 的增量数据中心容量,但其中不少资本支出其实是去年花出去的。

以谷歌 1,800 亿美元为例,很大一块花在了 2028、2029 年的涡轮机定金,还有 2027 年的数据中心建设、长期电力采购协议的预付款等等。微软、亚马逊和 Meta 也是类似的情况,它们花这些钱是为了后续几年的超高速扩张铺路。

而这些公司最大的客户就是 Anthropic 和 OpenAI。OpenAI 目前大约有 2 到 2.5 GW 的算力,Anthropic 大约在 1.5 GW 左右,两家都在拼命往上扩。

如果看 Anthropic 最近几个月的收入走势,1 月新增约 40 亿美元 ARR(年化经常性收入),2 月是短月,居然新增了大约 60 亿美元。有人甚至会说这个线性外推还是偏保守的。按这个速度算,未来 10 个月 Anthropic 会新增大约 600 亿美元的收入。

以目前媒体报道的毛利率推算,对应大约 400 亿美元的算力支出。按每 GW 约 100 亿美元的租赁成本计算,Anthropic 光是为了支撑推理收入增长就需要新增 4 GW。这还是假设它的研发训练集群规模保持不变。所以 Anthropic 今年年底需要达到远超 5 GW,才能满足需求,但这对它来说将非常艰难。

Dwarkesh:所以如果 Anthropic 不可能在年底达到 5 GW,但收入的疯狂增长和下一代模型训练都需要这些算力,它该怎么办?

Dylan:Dario 之前在你的播客上说过,他不会在算力上疯狂下注,因为万一收入拐点来得比预期晚,他不想公司破产,要负责任地扩张。但实际上,他确实在算力采购上比 OpenAI 保守太多了。OpenAI 的策略一直是直接签下那些看起来疯狂的大合约。结果到年底,OpenAI 的算力获取远多于 Anthropic。

Anthropic 最优质的算力供应商历来是谷歌和亚马逊,也就是世界上最大的几家公司。OpenAI 就激进得多,除了从微软拿到大量算力,还拿了谷歌、亚马逊的算力,同时跟 CoreWeave、Oracle 签了巨量合约,甚至找到像 SoftBank Energy 这种从来没建过数据中心的公司来给它建数据中心。还有 N Scale 等各种新兴供应商。

所以 Anthropic 面临一个困境。它太保守了,签合同时故意低估自己的需求,以免破产。而 OpenAI 呢,去年下半年确实有一段时间整个金融市场都在恐慌:“OpenAI 签了这么多合约,它根本没钱付”,Oracle 的股票暴跌,CoreWeave 的股票暴跌,信用市场也跟着慌。结果现在好了,OpenAI 融到钱了,可以付了。

Dwarkesh:那我想理解的是,“临时抢算力”到底意味着什么?是 Neo Cloud(新兴云服务商)的硬件质量更差?还是说你得给云服务商额外付高额利润,因为你来得太晚了?如果 OpenAI 和 Anthropic 到 2027 年算力规模差不多,那 OpenAI 到底得到了什么具体好处?今年年底两家各有多少 GW?

Dylan:要获取额外算力,确实有一些存量可用。不是所有的算力合约都是五年长约,也有一年、两年、六个月甚至按需的短期合约。当这些合约到期时,谁最愿意出高价?我们已经看到 H100 的价格大幅上涨,有些 AI 实验室,我就不点名了,他们在签每小时 2.4 美元、为期两到三年的 H100 合约。要知道 H100 的五年部署成本大约是每小时 1.4 美元,而现在两年后你签的合约已经到了 2.4 美元,利润率高得多。

所以你可以用高价格把其他供应商的客户挤出去,不管是亚马逊、CoreWeave、Together AI 还是 Nebius。这些 Neo Cloud 的特点是 Hopper 占比更高(因为它们更激进地采购了),而且很多签的是短期合约。所以如果你想要 Hopper 算力,市面上确实还有一些。至于 Blackwell,基本上所有在本季度上线的算力都已经卖掉了。而且有些供应商实际交付的量还达不到承诺的数字,因为数据中心建设有延误。

但还有一种路径,Anthropic 不必直接持有所有算力。亚马逊可以通过 Bedrock 提供算力为 Anthropic 服务,谷歌可以通过 Vertex,微软可以通过 Foundry,然后跟 Anthropic 做收入分成。

Dwarkesh:所以你是说,Anthropic 要么接受 50% 的收入分成抽成,要么就得去接受临时加价的现货算力,如果当初早点买,就不需要多付这些钱。

Dylan:对,而且这里面还有一个有趣的动态。过去有好几个月,所有人都在说“OpenAI,我们不会跟你签合同,听起来太疯狂了,你们根本没钱”。现在呢,所有人都说“我们一直都相信你,随便签什么合同都行,因为你融到钱了”。从这个意义上说,Anthropic 是受限的,因为市场上目前的增量算力大买家并不多,Anthropic 是第一个命中能力拐点、收入开始飞涨的。

不过我认为 Anthropic 通过自己的直接采购,加上通过 Bedrock、Vertex 和 Foundry 服务其产品,今年年底大概能达到 5 到 6 GW。这远超它最初的计划。OpenAI 大致也在这个量级,可能稍高一些。

Dwarkesh:这也引出一个有趣的问题。有人一直在讨论 GPU 的折旧周期。空头们说折旧应该是两年而不是四五年,因为技术进步太快了。但按你说的,如果 H100 在 2024 年价值 2 美元/小时,2026 年 Blackwell 大批量部署后就只值 1 美元了,到 2027 年 Rubin 出来又降到 0.7 美元,但问题是,你造不出无限量的最新芯片。供给是有限的。所以给芯片定价的不是“我今天能买到什么更好的替代品”,而是“这颗芯片今天能为我产生多少价值”。

Dylan:完全正确。拿 GPT-5.4 来举例。GPT-5.4 比 GPT-4 便宜得多,活跃参数更少,模型更小,不是像 GPT-4 那样的粗粒度 MoE(混合专家模型),再加上训练方法、RL(强化学习)、模型架构、数据质量等各方面的进步,GPT-5.4 的质量远超 GPT-4。一颗 H100 跑 GPT-5.4 能产出更多的 token,而且每个 token 的质量更高。

想想看,GPT-4 的 token 最大 TAM(总可寻址市场)也许是几十亿美元。GPT-5.4 的 TAM 可能超过 1,000 亿美元,只是采用需要时间,而且有竞争。如果技术进步停在这里不动了,一颗 H100 的价值就不再由 GPT-4 能从它身上榨取多少价值决定,而是由 GPT-5.4 能榨取多少价值决定,而后者远大于前者。

所以一颗 H100 今天的价值确实比三年前更高。

Dwarkesh:这太疯狂了。如果再往前推,假设我们真的开发出了 AGI 模型,真正实现了“服务器上的人类”。一颗 H100 大约有 10^15 FLOPS,有人估算人脑大约也是这个量级。如果一个人类知识工作者一年能产出六位数的经济价值,一颗 H100 的价值就是在几个月内就能收回成本。

Dylan:在那种场景下,GPU 的价值只会随着时间推移不断上升。目前只有 OpenAI 和 Anthropic 真正持有这个信念。但随着时间推移,即便是开源模型,所有人都会开始看到每颗 GPU 的价值在飞涨。从这个意义上说,你现在就应该锁定算力。

Dwarkesh:这让我想到一个经济学效应叫 Alchian-Allen 效应,如果你对两种商品同时加上一个固定成本(比如关税),其中一种质量更高、一种更低,那消费者会更倾向于选择高质量的那种,因为相对价差缩小了。

拿一个具体例子:好苹果 2 美元,差苹果 1 美元,好苹果是差苹果的 2 倍价格。如果对两种苹果各加 1 美元关税,变成 3 美元和 2 美元,好苹果只贵 1.5 倍了。如果 GPU 越来越贵,所有人都在付这个固定成本,那人们就更愿意多花一点钱用最好的模型,因为反正算力已经花了那么多钱了,不如多花一点用最强的模型。

Dylan:完全对。如果一颗 Hopper 从每小时 2 美元涨到 3 美元,而它能产出 100 万个 Opus token 或 200 万个 Sonnet token,那 Opus 和 Sonnet 之间的价差就缩小了,因为 GPU 本身贵了 1 美元。事实上我们今天已经看到,所有的使用量和收入都集中在最好的模型上。

在算力受限的世界里,还有两件事同时发生:第一,那些早早锁定了五年长约的公司,也就是没有“承诺恐惧症”的公司,锁定了巨大的成本优势,因为它们按三年前或两年前的价格买的算力。第二,谁能攫取利润?随着模型越来越有价值,云服务商能不能提价?

如果看 CoreWeave,它 98% 以上的算力合约平均期限超过三年,所以它没法灵活提价。但每年新增的算力远多于存量,Meta 今年新增的算力相当于它 2022 年整个数据中心和计算基础设施的总量。新增算力按新价格成交,所以只要我们处于起飞阶段,OpenAI 从去年的 600 MW 到 2 GW,今年到 6 GW 以上,明年到 12 GW,真正的成本在增量部分,不在存量长期合约上。

那谁掌握定价权?往上游走,最终是英伟达。它们已经签了约 900 亿美元的长期合约,正在跟内存厂商谈三年期协议。英伟达、亚马逊、谷歌(通过博通)和 AMD 这些芯片公司掌握着主动权,因为它们锁定了产能。台积电没怎么涨价,但内存厂商在大幅涨价。至少今年,我们会看到模型厂商的利润率大幅提升,因为它们产能受限严重,不得不通过提价来抑制需求。Anthropic 不可能按目前的节奏继续增长而不抑制需求。

英伟达抢先锁定了台积电产能;谷歌正面临挤压

Dwarkesh:那我们来具体聊聊英伟达是怎么锁定逻辑和内存产能的。据你的数据,到 2027 年英伟达将占据 N3(3 纳米)晶圆产能的 70% 以上。如果看 Neo Cloud 的商业模式,英伟达通过给各种小型 Neo Cloud 分配算力来分散互补产业、确保自己有最大的议价权。

同样,Anthropic 和 OpenAI 与数据中心供应商合作时也会故意培养一大批供应商,不被任何一家锁定。那为什么在 3 纳米制程上,台积电就这么把产能大量给了英伟达,而不是试图分散市场?

Dylan:先看 3 纳米的背景,去年 3 纳米的绝大部分产能是苹果。苹果现在正向 2 纳米迁移,2 纳米目前只能做移动芯片,未来 AI 芯片也会迁过去。内存价格上涨也在挤压苹果,要么自己吃掉成本,要么削减出货量。

台积电的算盘其实是这样的:它们更愿意把产能分配给做 CPU 的公司。比如亚马逊既有 Trainium(AI 芯片)又有 Graviton(CPU),两者都在 3 纳米上。台积电对 Graviton 的分配更积极,因为它们认为 CPU 业务是更稳定的长期增长。作为一家保守的公司,台积电不想过度依赖高增长市场的周期波动,所以优先分配给增长更稳的市场。对 AMD 也一样,台积电更看重它的 CPU 而不是 GPU。

但英伟达比较特殊,它有 CPU、交换机、网络设备、NVLink、以太网,各种产品。到今年年底 Rubin 系列发布时,英伟达的大多数产品都会在 3 纳米上。而且英伟达就是更早下手了。比谷歌早,比亚马逊早。谷歌和亚马逊还碰到了一些波折,某颗芯片(Trainium)延迟了几个季度。

而英伟达一直在说“要更多、更多、更多”。它会去检查整个供应链的每个环节,去 PCB 供应商那里确认“有没有足够的 PCB 产能?”,去内存厂商那里确认“谁有所有的内存产能?”,答案是英伟达。

道理和 AI 实验室锁定算力一样。谁足够相信 AGI,谁就敢在看起来荒谬的时间尺度上锁定大量产能、支付不错的利润率。英伟达在半导体供应链上做的是同样的事。虽然我不认为英伟达像 Dario 或 Sam 那样真正相信 AGI,Jensen 一直说的是“加速计算”,不是“AI 芯片”,但他比去年三季度的谷歌和亚马逊 AGI 信念强得多,也看到了更多的需求。

Dwarkesh:等一下,谷歌不是卖了大约一百万颗 V7(Ironwood)TPU 给 Anthropic 吗?如果逻辑和内存是最大瓶颈,谷歌又有 DeepMind 这个世界第三大 AI 实验室,为什么不把芯片留给自己,而是卖给 Anthropic?

Dylan:这个问题确实让 DeepMind 的人很崩溃,“我们为什么要这样做?”但谷歌云的人和谷歌高管看到的是另一套逻辑。据我们掌握的数据,事情是这样的:Anthropic 的算力采购团队核心成员有两位来自谷歌,他们看到了一个窗口期,快速谈判了一笔交易,在谷歌自己反应过来之前就拿到了算力。

具体的时间线是,去年三季度初,我们在大约六周内看到 TPU 的产能出现了显著增长,而且是多次增加。谷歌甚至不得不向台积电解释为什么突然需要增加这么多产能,很大一部分就是因为要卖给 Anthropic。

然后事情发生了转折。谷歌推出了 Nano Bono 和 Gemini 3,用户指标暴涨。谷歌高层突然清醒了过来,开始说“我们必须每六个月把算力翻一倍”之类的话。然后他们去找台积电说想要更多,但台积电说:“抱歉,明年的产能已经卖光了。我们可以在 2026 年多给 5% 到 10%,但真正能大幅增加得等到 2027 年。”

从供应链数据来看,比如晶圆订单、数据中心合同、Anthropic 签约的情况等,在我看来,很明显谷歌搞砸了。从收入数据也能看出来:谷歌的 Gemini 收入在去年一季度和三季度几乎为零,三季度才开始起量,四季度退出时大约到了 50 亿美元 ARR。说明谷歌确实没预见到收入会暴涨。Anthropic 在收入起飞之前就已经有“承诺恐惧症”了,谷歌当然会更保守,谷歌的 ARR 甚至还不如 Anthropic 高。

不过好消息是,从那以后谷歌已经极度 AGI 化了。它们收购了能源公司,预付了涡轮机定金,购买了大量有电力的土地,跟公用事业公司谈长期协议,在数据中心电力方面非常激进。谷歌大约在去年年底才真正醒过来,但确实花了一些时间。

到 2030 年,ASML 将成为 AI 算力扩展的最大瓶颈

Dwarkesh:过去几年,每年的瓶颈都在变,前年是 CoWoS 封装,去年是电力。今年的瓶颈是什么?五年后呢?

Dylan:今年最大的瓶颈是芯片本身。瓶颈已经从电力和数据中心切换回了半导体供应链。在芯片供应链内部,有多个瓶颈:内存、台积电的逻辑晶圆、晶圆厂本身。晶圆厂建设需要两到三年,而数据中心不到一年,亚马逊最快八个月就能建一个。差距非常大。

之前的瓶颈,包括 CoWoS 封装、电力、数据中心,都是相对短交期的东西。CoWoS 是比较简单的芯片封装工艺,电力和数据中心虽然复杂但比芯片制造简单得多。过去一段时间,移动和 PC 芯片的产能在向数据中心滑动,但这种腾挪空间已经用尽了。英伟达现在是台积电最大的客户,也是 SK 海力士(最大的内存制造商)最大的客户。移动和 PC 行业已经没有更多资源可以转给 AI 了。

Dwarkesh:基于 EUV 光刻机的产量。有没有可能算出 2030 年的一个绝对 GW 天花板?

Dylan:完全可以。要进一步扩大算力,今年和明年有不同的瓶颈,但到 2028、2029 年,瓶颈最终会落到供应链的最底层——ASML。ASML 制造的是人类有史以来最复杂的机器:EUV(极紫外光刻机),单台售价 3 到 4 亿美元。目前它每年能造大约 70 台,明年到 80 台。即使在非常激进的供应链扩张假设下,到这个十年末它也只能到 100 台出头。

那 EUV 怎么跟 AI 算力挂钩?我来算一笔账。造一个 GW 的英伟达 Rubin 芯片数据中心容量,你需要大约 55,000 片 3 纳米晶圆、6,000 片 5 纳米晶圆和约 170,000 片 DRAM(内存)晶圆。这三种晶圆各需要不同数量的 EUV 光刻步骤。一片先进的 3 纳米逻辑晶圆大约有 70 层光刻,其中 20 层是最关键的 EUV 光刻。算下来,55,000 片晶圆乘以 20 次 EUV 曝光,就是 110 万次 EUV 曝光。加上 5 纳米和内存的部分,一个 GW 总共需要大约 200 万次 EUV 曝光。

一台 EUV 光刻机大约每小时处理 75 片晶圆,开机率约 90%。算下来,大约需要 3.5 台 EUV 光刻机才能满足一个 GW 的需求。

想想这些数字的对比:一个 GW 的数据中心资本支出大约 500 亿美元,而支撑它的 3.5 台 EUV 光刻机成本只有 12 亿美元。500 亿美元甚至 1,000 亿美元的 AI 价值链被 12 亿美元的光刻设备卡住了,仅仅因为它的供应链无法快速扩张。

Dwarkesh:你前阵子写过,台积电过去三年花了 1,000 亿美元的资本支出。英伟达只用了其中一小部分的 3 纳米产能,就把它变成了每季度 400 亿美元的收入,年化 1,600 亿。然后再往下游看 ASML,12 亿美元的光刻机就能支撑一个 GW。Sam Altman 说他想到 2030 年每周上线一个 GW,这跟 EUV 产能兼容吗?

Dylan:完全兼容。台积电和整个生态系统目前已经拥有 250 到 300 台 EUV 光刻机的存量。再加上今年 70 台、明年 80 台,逐步增长到 100 台,到 2030 年底全球会有大约 700 台 EUV 光刻机。700 台除以 3.5 台/GW,如果全部分配给 AI(当然不可能),就是 200 GW 的 AI 芯片产能。

Sam 想要 52 GW/年。如果全球 AI 用掉 200 GW 的芯片产能,他拿 25% 的份额。考虑到今年他可能就已经获取了约 25% 的 Blackwell GPU 部署量,这个数字其实是很合理的。

Dwarkesh:我很惊讶的是,ASML 大约从 2020 年才开始大批量出货 EUV,到 2030 年人们还在用十年前的机器?

Dylan:工具确实不是原封不动的。ASML 在持续改进光刻机的几项关键指标。第一是晶圆产出速度,一直在提升。第二是一个叫“overlay(套刻精度)”的规格,你做了第一层光刻和一堆沉积、蚀刻步骤之后,做第二层时,两层图案必须精确对齐在一起,允许的偏差只有 3 纳米量级。这项指标也在快速改善。第三,工具的价格确实涨了,从最初的 1.5 亿美元到现在的 4 亿美元,但涨幅没有性能提升幅度大。

顺便说一句,ASML 可能是世界上最慷慨的垄断公司了。它在 EUV 领域没有任何竞争者,也许中国到本十年末会有一些,但 ASML 从来没有像英伟达那样疯狂提价。它的价格涨幅始终没超过性能提升幅度,一直在为客户提供净价值。

Dwarkesh:如果 ASML 直接把资本支出翻倍或翻三倍呢?为什么我们能如此有信心地预测,五年后它也只能造 100 台左右?

Dylan:几个原因。首先,ASML 没有决定全力扩产。整个半导体供应链都没有。它们经历过太多周期的繁荣与萧条。没有人真正相信每年 200 GW 的 AI 芯片需求或者每年数万亿美元的半导体支出。我们不断被告知我们的数字太高了,然后当我们的预测被验证时,他们又说“好吧,但你明年的数字肯定还是太高了”。

其次,一台 EUV 光刻机有四个核心组件:光源(由位于圣地亚哥的 Cymer 制造)、掩膜台(在康涅狄格州威尔明顿制造)、晶圆台和光学系统(在欧洲制造)。每个组件都有极其复杂的供应链。

我来描述一下光源是怎么工作的。它每秒释放数万个锡液滴,然后用激光精准地三次击中每个液滴,第一次命中使锡滴展开,第二次使它扩展成完美的形状,第三次高功率轰击使锡滴激发出 13.5 纳米的 EUV 光。然后收集光线并导入透镜组。

透镜组由蔡司(Carl Zeiss)制造,这是最关键的部分。每台光刻机大约有 18 面透镜/反射镜,它们是多层反射镜,由钼和钌(如果我没记错的话)的完美薄层交替堆叠而成。光线在这些镜面上精确反射。任何沉积层的缺陷、任何曲率问题都会导致失败。这个制造过程非常手工化,每年只造几百到一千面这样的透镜。蔡司也没有试图大幅扩产,因为它们也不认为需要从 60 台增长到几百台。

然后是掩膜台,这个东西运动时承受 9 个 G 的加速度。因为光刻过程中,掩膜台和晶圆台在反方向高速移动,扫描晶圆上 26×33 毫米的区域,然后停下来移到下一个区域,在几秒内完成。两个方向各 9 个 G。

每个组件都是化学、制造工艺、机械工程、光学工程的奇迹。全部需要大量的计量测试,因为任何偏差都会导致良率归零。而且这台巨大的机器在荷兰埃因霍温的工厂组装好之后,要拆开装上多架飞机运到客户现场,再重新组装测试,这个过程又要好几个月。

ASML 的供应链有超过一万家供应商。整个系统中,每个物理运动部件的精度都必须小于 1 纳米,因为各个环节的误差会累加,而层间套刻精度要求在 3 纳米量级。你不可能打个响指就扩大产量。

打个比方:美国从 0% 的电力增长转向 2% 的电力增长,而中国已经在 30% 了,光这一步对美国来说都极其困难。电力供应链相对简单,从业人员可能有十万人以上。而 ASML 员工数量有限,蔡司做这个的可能不到 1,000 人,每个人都是超级专业化的。你没法在短时间内培训出这些人才,也没法让整个供应链立刻动员起来。

我们难道不能直接利用台积电的旧晶圆厂吗?

Dwarkesh:过去几年,每次有人说“AI 算力被 X 卡住了”,你都能指出替代方案,电网不够?那就用厂区自备发电、燃气轮机。半导体供应链也能这样绕过去吗?如果 EUV 成为瓶颈,那我们回到 7 纳米,用中国正在用的 DUV 多重曝光技术行不行?A100 是 7 纳米,到 B100 大约只有 3 倍的 FP16 性能提升,而且其中一部分是架构改进而非制程改进。7 纳米有大量存量产能,即使打个 50% 的折扣,不是也能再增加 50 到 100 GW 吗?

Dylan:理论上有可能走到那一步,但我认为不太可能。有几个不太公平的对比需要澄清。

从 A100(312 TFLOPS FP16)到 Blackwell(约 1,000 TFLOPS FP16)到 Rubin(约 5,000 TFLOPS FP16),这些数字看起来只是几倍的差距,但实际性能差距远大于此。因为每代芯片的设计目标不同,A100 针对 FP16 优化,Hopper 针对 FP8,Rubin 针对 FP4 和 FP6。所以单看 FLOPS 不是公平的比较。

更关键的是,这些模型不是跑在单颗芯片上的。DeepSeek 的生产部署跑在 160 颗 GPU 上。每次跨越芯片边界就有效率损失,延迟、功耗、带宽都受影响。芯片内部的数据传输速度是每秒数十到数百 TB,芯片之间降到每秒 TB 量级,跨机架降到每秒数百 Gb。

所以当你比较 Hopper 和 Blackwell 在推理 DeepSeek 和 Kimi K2.5 等模型时的实际性能差距,在 100 tokens/秒的推理场景下,差距大约是 20 倍,不是 FLOPS 数字暗示的 2-3 倍。因为芯片更大了,每颗芯片的计算密度更高,单芯片内的通信带宽远超跨芯片通信,所以很多通信瓶颈被消除了。

这个差距是累加的:每颗芯片的 FLOPS、芯片间网络速度、单芯片上有多少 FLOPS 相对于系统、单芯片内存带宽和整个系统的内存带宽,所有这些因素叠加在一起。

Dwarkesh:今年 B200 已经把两个 die 做到一颗芯片上了,明年 Rubin Ultra 会是 4 个 die。为什么不继续加?一颗芯片上能放多少个 die 还能保持这种高带宽?

Dylan:即便在 Blackwell 内部,同一个 package 里跨 die 通信也有性能损失,虽然比跨 package 小得多。英伟达的方案是 CoWoS 封装。你可以回过头看 Tesla 的 Dojo 芯片,它把 25 颗芯片做在一整片晶圆上。它到今天可能仍然是跑卷积神经网络最好的芯片,只是不擅长 Transformer,因为内存和算力的形状不适合。华为的 Ascend 910 也在做类似的事,从单 die 到双 die,专注于扩展封装。

但你在 7 纳米上能做的,在 3 纳米上也能做。先进封装是两个维度都在推进的。

中国半导体规模何时会超越西方?

Dwarkesh:如果到 2030 年西方有最先进的制程但产能没拉满,而中国虽然制程落后但疯狂扩产,而且整条供应链都在一个国家内,什么时候会出现交叉点?

Dylan:到目前为止,中国仍然没有完全自主的半导体供应链。中国所有的 7 纳米和 14 纳米产能都用的是 ASML 的 DUV 光刻机,ASML 持续向中国出货,但所有 EUV 收入都在中国之外。所以规模优势目前仍在西方加台湾和日本这边。

Dwarkesh:到 2030 年,中国会有完全自主的 DUV 和 EUV 吗?

Dylan:DUV 我觉得肯定会有。EUV 嘛,我认为他们会有能工作的工具,但不一定能大量生产。就像 ASML 在 2010 年代初就让 EUV 在实验室里工作了,但精度不够、产量不够、可靠性不够,又花了五到七年才进入大规模量产。中国的 DUV 国产化到 2030 年可能达到每年约 100 台的产量,而 ASML 目前每年出货数百台 DUV。

Dwarkesh:我觉得有一个很有意思但讨论不够的问题:如果你认为 AI 的时间线是“长”的,比如 2035 年才达到某个关键能力,那时候中国在半导体上会不会已经超过西方了?旧金山的人在以周为单位思考,旧金山以外的人根本不在想 AGI。如果 AGI 真的到 2035 年才来,而它会带来数十万亿美元的经济增长,那到时候谁控制半导体就太重要了。

Dylan:这确实是个非常难的问题。时间尺度拉到 2035 年,误差棒变得巨大。但我的基本判断是:如果快速起飞,不一定要相信 AGI,只要 AI 收入以当前速度持续增长,那美国和西方正在拉开差距。

看看现在的情况:美国今年大约有接近 1 万亿美元的资本支出投入数据中心。Anthropic 一月新增 40 亿收入,二月新增 60 亿,而 Claude Code 的可靠性还因为算力不足而受限,如果去掉这个瓶颈,增速可能更快。这些资本支出的投资回报率极高。美国经济因此增长加速。

中国目前还没有做到这一点,没有建起同等规模的基础设施,也没有训练出同等能力的模型来部署和产生收入。而且 Opus 4.6 和 GPT-5.4 已经明显拉开了与中国模型的差距。当 AI 实验室从“卖 token 和推理链”转向“卖自动化白领工作”时,从美国模型蒸馏到中国模型的难度会大幅增加,因为你买的不再是展示完整推理链的 token,而是结果。

如果起飞速度够快,美国在发散。如果起飞速度慢,中国就有时间建立完全自主的垂直整合供应链。快时间线,美国赢;慢时间线,中国赢。

即将到来的巨大内存瓶颈

Dwarkesh:HBM(高带宽内存)由 DRAM 制造,但每单位晶圆面积的比特数只有普通 DRAM 的三到四分之一。如果未来 AI 应用更多是 agent(智能代理),不需要同步聊天那种极低延迟,能不能用普通 DRAM 代替 HBM?

Dylan:理论上可以。Anthropic 甚至可以推出一个“慢模式”,大幅降低 Opus 4.6 的价格,可能降 4-5 倍,速度降 2 倍。但没人想用慢模型。即使 agent 任务可以跑几个小时,如果模型更快的话几个小时就能变成一个小时。最有价值的任务往往也有时间敏感性。

更根本的问题在于带宽。一块 HBM4 芯片堆的带宽大约是 2.5 TB/s,2,048 bit 宽、10 Giga transfers/秒。同样的芯片边缘面积放 DDR5 呢?大约 64 或 128 bit 宽,传输速率 6.4-8 GT/s,带宽只有大约 64-128 GB/s。差一个数量级。而芯片的边缘面积是有限的,die 的最大尺寸是 26×33 毫米,边缘放内存和 I/O,内部放计算单元。你受限于带宽。

推理性能受四个约束:FLOPS、网络带宽、内存带宽和内存容量。如果换成 DDR,你确实得到了 4 倍的比特数/晶圆,但内存带宽暴跌,所有那些计算单元就只能干等着,算力被浪费了。

Dwarkesh:那回到宏观层面,你在 newsletter 里说 2026 年大型科技公司资本支出的 30% 要花在内存上?

Dylan:对,去掉英伟达的利润率堆叠之后,大约三分之一的资本支出花在内存上。

内存价格还会继续涨。这对市场不同部分的影响是不同的。一部 iPhone 有 12 GB 内存,以前每 GB 大约 3-4 美元,所以内存成本大约 50 美元。现在 DDR 涨到了约 12 美元/GB,变成 150 美元,多了 100 美元。苹果不太会全部自己吃掉这个成本,所以最终消费者可能要为一部 iPhone 多付大约 250 美元。

但这只是高端市场,苹果每年只卖两三亿部手机。大头在中低端市场。之前全球每年卖 14 亿部智能手机,现在降到 11 亿。我们的预测是今年可能降到 8 亿,明年 6 亿甚至 5 亿。我们在亚洲的分析师追踪到小米和 OPPO 正在把中低端手机出货量砍半。因为低端手机内存占物料成本的比例更高,利润更薄,根本吃不下这个成本上涨。

关键是,砍掉的主要是低端,每部手机内存量小,释放出来的内存产能也少。消费端仍然占全球内存需求的一半以上。释放出来的 DRAM 会流向 AI 芯片,AI 客户愿意签更长的合约、付更高的价格。

NAND 闪存也在涨价。但手机和 PC 的 NAND 占比更高,所以当消费需求被挤压时,释放的 NAND 相对更多,DRAM 涨价幅度会大于 NAND。

这大概率会让普通消费者更加厌恶 AI。你已经能在 PC 论坛和 Twitter 上看到各种表情包了,“就是因为这些猫咪跳舞视频(指 AI 训练),内存价格翻倍了,我买不起新显卡了”。等内存价格再翻一倍,情况只会更糟。

Dwarkesh:为什么不能多造一些内存?

Dylan:限制内存扩产的原因跟限制逻辑芯片扩产的原因惊人地相似。过去三四年,内存厂商根本没建新晶圆厂。2023 年内存价格很低,厂商在亏钱,所以不建厂。市场慢慢恢复,但直到去年价格才真正起来。我们一年半前就一直在说:推理意味着长上下文,长上下文意味着大 KV Cache,大 KV Cache 意味着需要大量内存,而 AI 加速器成本的一半就是内存。

但从“显然需要更多内存”到内存价格实际反映这个现实,花了整整一年。价格反映之后,又过了三到六个月内存厂商才开始建新厂。而新厂建设需要两年。所以有意义的新产能要到 2027 年底或 2028 年才能上线。

现在的情况是一些非常规操作,美光收购了台湾一家做落后制程芯片的公司的晶圆厂,SK 海力士和三星也在想各种办法在现有厂房里挤出产能。核心问题就是,没有地方放设备。晶圆厂是人类建造的最复杂的建筑,建设需要两年。

在美国扩展电力供应不会成为问题

Dwarkesh:听起来你认为电力可以几乎无限扩展?

Dylan:不是无限,但电力不会成为主要瓶颈。

目前今年我们大约部署 20 GW 的关键 IT 容量。需要注意,我说的 GW 是服务器插上电源的实际功耗,但还有传输损耗、变换损耗、冷却功耗等,所以发电端要上浮 20-30%。而且涡轮机不是 100% 运行,PJM(美国最大的电网之一)在模型中假设涡轮机的开机率约 90%,外加 20% 的冗余容量。所以发电端的铭牌容量始终远高于实际关键 IT 容量。

但电力来源不只是联合循环燃气轮机(CCGT)。虽然全球只有三家 CCGT 制造商,GE Vernova、三菱、西门子,但我们追踪了 16 家不同的天然气发电设备制造商。还有航改型燃气轮机,把飞机引擎改成发电机,包括像 Boom Supersonic 这样的新进入者在跟 Crusoe 合作。

还有中速往复式发动机,康明斯等十几家厂商。以前柴油发动机主要用在卡车上,现在汽车产量在下降,这些厂商有产能可以转做数据中心发电。船用发动机也可以,Nebius 在新泽西州就是用船用发动机为微软的数据中心发电。Bloom Energy 在做燃料电池,我们对它很看好,已经看好一年半了。还有太阳能加储能、风电加储能,成本曲线在持续下降。

还有一个很重要的维度:美国电网的容量是按用电高峰设计的,夏天最热的那天。但那只是全年平均负荷的 10-15-20%。如果部署足够多的公用事业级储能或调峰电厂,可以是燃气、工业燃气轮机、电池、任何上述电源,你就能释放出美国电网 20% 的容量给数据中心。因为大部分时间那些容量是闲置的,只在每年几天的几个小时会达到峰值。美国电网是太瓦级的,20% 就是 200 多 GW。

今天数据中心只占美国电网的 3-4%,到 2028 年会到 10%。而如果能像我说的这样释放电网容量,空间是非常充足的。这些事情不容易,涉及大量的硬件工程和风险,但供应链比芯片简单太多了。

Dwarkesh:即使 CCGT 可能要 1500 美元/千瓦的资本支出,其他技术成本更高也没关系?

Dylan:可以高到 3,500 美元/千瓦。电力成本翻倍意味着什么?一颗 Hopper 的部署成本从每小时 1.4 美元变成 1.5 美元。因为模型的边际效用提升远大于那一毛钱的能源成本增加。

我们追踪的数据显示,到这个十年末,大约一半的新增数据中心容量会是“behind the meter”(厂区自备发电)。Behind the meter 几乎总是比电网接入贵,但电网有审批、互联排队等各种问题。Behind the meter 的技术路线非常多样,往复式发动机、船用发动机、航改燃机、CCGT、Bloom Energy 燃料电池、太阳能加储能,每一种技术单独都能做到数十 GW,加起来就是数百 GW。

太空 GPU 在这十年内不会实现

Dwarkesh:马斯克非常看好太空数据中心。如果你说电力在地面不是瓶颈,那太空数据中心的理由是什么?马斯克可能会说地面的审批太难了。

Dylan:用地方面,美国很大,数据中心占地不多。空气排放许可是个挑战,但特朗普政府已经降低了门槛,在得克萨斯州可以跳过很多这类繁文缛节。

太空确实能源免费,这是唯一的理由。但即便地面电力成本翻倍,它仍然只占 GPU 总成本的一小部分。

真正区分各个云服务商的,除了软件之外,是它们部署和管理故障的能力。GPU 可靠性很差,Blackwell 大约 15% 部署后需要返修。你已经在地面测试好了,然后要拆掉、装上火箭、送进太空、再重新上线——这至少多花六个月。而在算力受限的世界里,前六个月是算力最有价值的时候,因为现在比未来更稀缺。你延迟了六个月的算力部署。地面上我们看到有的云服务商部署 GPU 需要六个月,有的快得多。太空不可能更快。

Dwarkesh:那通信怎么办?Starlink 卫星之间现在是 100 Gb/s 的激光链路,未来可以更高,接近 InfiniBand 的 400 Gb/s。

Dylan:但那是每颗 GPU 的带宽,不是每个机架。而且还要乘以 72(一个 NVL72 里的 GPU 数量)。从 Hopper 到 Blackwell 到 Rubin 还分别翻倍。

更关键的是,随着模型变得越来越稀疏(MoE 专家越来越多,领先模型已经有数百甚至上千个专家),你需要在成百上千颗芯片之间做通信。你没法把卫星做到无限大,所以需要卫星间的互联。这些空间激光比地面的可插拔光收发器贵得多、可靠性更差,地面的光收发器是百万级量产的,而且已经很不可靠了,经常需要拔出来擦一擦再插回去。

归根结底,空间数据中心面临的是同一个稀缺资源:我们到本十年末每年只能造 200 GW 的芯片。不管放在地面还是太空,都不重要。芯片是最大的瓶颈,所以你要做的是让芯片在制造完成的那一刻就开始工作产出 token。为此,地面的人们在做各种事情来加速部署,数据中心模块化、机架模块化、甚至在数据中心现场才装芯片(其他所有东西提前布好线)。这些在太空做不到。

太空数据中心终会有意义的那一天,但不会在这个十年,而是在更远的未来。当能源真正成为大瓶颈、当土地和审批更加困难、当芯片不再是瓶颈的时候。马斯克不靠 20% 的优化赢,他靠的是 10 倍的颠覆,那是 SpaceX 和 Tesla 成功的模式。太空数据中心也许最终能提供 10 倍优势,但不是在地球资源还没用完的时候。

为什么没有更多对冲基金进行 AGI 交易?

Dwarkesh:你做 SemiAnalysis 这些数据表格,六个月前预测了内存危机,现在在讲清洁室(洁净室)危机,未来是设备危机。为什么只有 Leopold Aschenbrenner(前 OpenAI 超级对齐团队研究员,对冲基金 Situational Awareness LP 创始人,专注押注 AI 基础设施供应链的公开市场股票。

该基金 2025 年上半年扣费后回报率达 47%,远超同期标普 500 的 6%;截至 2025 年四季度,其公开持仓规模从创立时的 2.25 亿美元增长至约 55 亿美元)在用你的数据赚疯了?其他人在干什么?

Dylan:很多人在赚钱,只是方式不同。Leopold 开玩笑说他是唯一一个告诉我“你的数字太低了”的客户,其他所有人都说我的数字太高了。不管是超级云厂商还是 AI 实验室,都说“那家公司不可能有那么多”,然后我们得费劲用事实说服他们。有时候他们要六个月到一年才接受现实。

我大约 60% 的业务来自产业客户,AI 实验室、数据中心公司、超级云厂商、半导体公司。另外 40% 来自对冲基金。很多基金也在用我们的数据交易。比如内存交易,一年前如果你告诉别人内存价格会翻四倍、智能手机出货量下降 40%,所有人都会说你疯了。但有一些人相信了,而且交易了内存股票。Leopold 当然在持仓规模和仓位构建上做得可能比大多数人好,但他绝不是唯一一个。

关键在于信念。你得真正相信 AI 会以这种方式爆发,才会去做这些交易。而 Leopold 可能是所有人中对 AGI 起飞最有信念的。

台积电会将苹果踢出 N2 制程名单吗?

Dwarkesh:如果英伟达、亚马逊和谷歌都愿意为 N2 产能出高价,台积电会不会把苹果踢出去?

Dylan:不会直接踢出去。芯片设计周期很长,超过一年,所以更可能发生的是英伟达等预付产能扩张费用。台积电不会完全驱逐苹果,但当苹果订了 X 的量时,台积电可能会说“我们预测你只需要 X-1”,然后只给 X-1。苹果传统上总是多订 10%、然后在年中削减 10%。这个弹性空间苹果以后可能就没有了。

今年苹果仍然占据 N2 大部分产能,AMD 也在争取一小部分来早期做 AI 芯片和 CPU——这对 AMD 来说是个很大的赌注,因为新制程有延迟风险。但随着时间推移,苹果占台积电收入的比例会越来越小。

到 A16 节点时,第一个客户已经不是苹果而是 AI。苹果不再是台积电最亲密的伙伴了,它的业务没在增长,而台积电的资本支出在膨胀。加上内存和封装成本上涨挤压苹果的物料成本,苹果的出货量可能会下降,进一步变成一个不那么重要的客户。

机器人与地缘风险

Dwarkesh:如果到 2030 年有数百万台人形机器人在运行,每台都需要本地算力,这对半导体有什么影响?

Dylan:不需要把所有智能都放在机器人里。更高效的做法是把大部分规划和高层任务交给云端更强大的模型来做,高批量推理、更大的模型。云端给出指令比如“拿起那个杯子”,然后机器人本地的小模型处理具体的力度、重量等实时反馈。每秒或每秒十次从云端更新指令就够了。

如果把所有处理都放在设备端,一是更贵(无法做批量推理),二是智能不够(云端模型更大更强),三是我们处于半导体短缺的世界,机器人需要先进制程芯片(因为功耗敏感),你每给一台机器人装一颗先进芯片,就少了一颗给 AI 数据中心的。

Dwarkesh:这其实暗示了一个关于未来的有趣事实,智能会高度集中在物理空间上。今天 80 亿人的计算是分布在每个人的脑袋里的。未来即使有数百万台机器人散布在世界各地,实际的思考和计算仍然在集中式数据中心里完成。

Dylan:没错。我觉得马斯克也意识到了这一点,所以他跟三星签了大合同来造机器人芯片,一方面分散地缘风险,另一方面三星的 AI 芯片产能竞争没台积电那么激烈。他同时得到了地缘政治多元化和供应链多元化,而且不必跟那些愿意付“无限”价格的数据中心买家直接竞争。

参考资料:

1.https://www.youtube.com/watch?v=mDG_Hx3BSUE

运营/排版:何晨龙