整理|冬梅
如果把过去两年的 AI 叙事拆开来看,一个趋势已经越来越清晰:真正的瓶颈,正在从“模型能力”转向“资源分配”。
一边是推理成本持续下降、调用门槛几乎被抹平,另一边却是算力、带宽乃至组织内部认知结构的全面紧张——供给看似在爆炸,约束却变得更加隐性而复杂。
也正是在这种“表面过剩、内里稀缺”的张力之下,越来越多一线从业者开始重新审视一个问题:AI 到底在重塑什么,又在抬高什么。
在这样的背景中,一些来自实践一线的信号,比任何宏观判断都更具解释力。
在一档播客栏目中,SemiAnalysis 创始人 Dylan Patel 与主持人展开了一场对话,共同探讨 AI 革命中爆发式的供需动态。Dylan 分享了其公司的 Token 开销如何飙升至每年 700 万美元,这彻底改变了他们的生产力,并凸显了一个新时代的到来:在这个时代,执行的成本很低,但高质量的想法却价值连城。
他们深入探讨了 Anthropic 尖端模型(如 Opus 4.7 和 “Mythos”)的影响、半导体供应链中隐藏的瓶颈(包括内存、台积电和 CPU),以及“幻影 GDP”这一经济现象。最后,Dylan 对 AI 快速扩张带来的社会影响分享了大胆预测,包括为什么大规模的反 AI 抗议活动可能就在眼前。
以下为完整访谈内容,经由 InfoQ 翻译 & 整理:
1 Token 成本疯涨,即将超过员工薪资
主持人:过去很长一段时间里,真正稀缺的是执行力——执行非常非常困难,而想法却很廉价。但现在情况完全反过来了:想法变得廉价而且泛滥,执行却变得极其容易。所以,真正有价值的,只剩下那些能够证明自己“值得投入”的好想法。
你之前跟我讲过一个很惊人的故事,说你们团队今年在 AI token 使用上的变化非常剧烈。能不能再讲一遍?这件事让你对整个世界发生的变化有什么新的理解?
Dylan Patel:去年我们还觉得自己已经算是 AI 的重度用户了。大家都在用 ChatGPT、用各种云服务,公司也基本是“谁需要什么订阅就给什么订阅”,整体开销也就是几万美元量级。
但今年完全不一样了。真正的转折点大概是从 12 月底开始,随着 Anthropic 的 Opus 模型发布。我们公司总裁 Doug 带头推动了一件事——让非技术人员也开始用 AI 写代码。
一开始是工程师在用,但到了 1 月份,使用量开始爆发式增长,一路飙升。后来我们直接和 Anthropic 签了企业协议。到你上次跟我聊的时候,我们的 AI 开销年化大概是 500 万美元,但现在已经涨到 700 万美元了——而且那是上周的数据。
很多开销其实来自“使用本身”。比如一些从来没写过代码的人,现在也在用 Claude 写代码,有的人一天就能花掉几千美元的 token。整体算下来,我们现在一年大概花 700 万美元在 AI 上,而公司的薪资成本大概是 2500 万美元。
也就是说,我们在 AI 上的支出已经超过了薪资的 25%。如果这个趋势继续下去,到今年年底甚至可能超过 100%。这听起来确实有点可怕。
不过幸运的是,我们公司在快速增长,所以还不用在“雇人还是用 AI”之间做取舍。更现实的情况是:我们可以少招很多人,同时把钱投入 AI,然后增长得更快。
但我觉得,很快其他公司就会面对一个现实:如果一个人借助 AI 能完成原本 5 到 15 个人的工作,那企业就会开始考虑裁员。
主持人:你能不能举一些具体的例子?这些投入到底带来了什么样的变化?
Dylan Patel:有一个特别典型的例子。我们在俄勒冈州建了一个芯片逆向工程实验室,已经投入了一年半。里面有各种高端设备,比如扫描电子显微镜。我们会拆解芯片,分析它的结构和材料,这些数据是我们卖给客户的核心产品。
但这个分析过程本来是非常慢的。
现在,一个团队成员用几千美元的 token,做了一个 GPU 加速的应用,部署在 CoreWeave 的服务器上。现在只要上传一张芯片图片,这个系统就能自动识别出不同材料——比如哪里是铜、哪里是钽、哪里是锗、哪里是钴——并完成整个结构的有限元分析,还带可视化界面。
这个人之前在英特尔工作过,他说:这在以前是一个完整团队的工作,而且还需要长期维护。但现在,一个人就做出来了。把这种效率放大到整个公司层面,影响是非常夸张的。
还有一个我特别喜欢的例子。我们有个同事 Malcolm,他之前是大型银行的经济学家。那种机构的经济学团队通常有一两百人。
他一个人,用 AI 做了一件非常疯狂的事:他把 FRED 数据、就业报告等各种经济数据,通过 API 全部接入,然后开始跑回归分析,研究不同经济变量对通胀和通缩的影响。
更夸张的是,他还分析了美国劳工统计局(BLS)的 2000 项任务,判断哪些可以被 AI 完成,哪些不行,并建立了一套评估体系。目前大概只有 3% 的任务是 AI 可以完成的。
基于这些,他提出了一个概念,叫“幻影 GDP”(Phantom GDP):AI 会让产出增加,但由于成本下降得更快,理论上 GDP 反而可能下降。
他还顺手做了一整套语言模型评估体系,包含 2000 个评测任务。这些,全都是他一个人完成的。他自己也说,这在以前需要一个 200 人的团队干一年。
主持人:那作为公司经营者,你怎么看这种支出从接近 0 一路涨到 25%,甚至可能更高?你有没有想过什么时候该“踩刹车”?比如不用最顶级的模型,换便宜一点的?
Dylan Patel:从本质上讲,我们是在做信息生意——卖分析、做咨询、提供数据集。如果我不持续提升产品质量,这些东西很快就会被商品化(commoditized)。
比如我们最早做的数据产品,现在已经有很多人开始做类似的了。如果我们停在原地,很快就会失去竞争力。
AI 的确会让很多东西变成“商品”,就像它对软件行业做的那样。但关键在于:谁能更快迭代、谁能持续提升服务质量、谁能掌握客户,谁就能增长。
那些不行动的“既得利益者”,一定会输。所以这其实是一个生存问题:如果我不用 AI,别人会用,然后打败我。
再举一个能源领域的例子。
我们之前有几位分析师,花了一年时间想做一个能源模型,但一直没做出来。能源数据服务市场大概有 9 亿美元规模,是一个很大的机会。
后来,我们有个负责数据中心能源业务的同事 Jeremy,“AI 上头”了。他连续几周每天花大概 6000 美元的 token。
在短短 3 周内,他做了这些事:抓取了美国所有发电厂、所有高压输电线路的数据,构建了整个美国电网的映射,还整合了大量需求侧数据。
最后做出了一个可视化系统,可以看到美国各个区域的电力供需情况。我们拿去给一些做能源交易的客户看,他们的反应是:“这东西你们做了多久?太强了,比某某公司还好。”
而那家公司,有 100 人团队,做了 10 年。当然,我们的系统还不够完善,但在某些方面已经更强了。
主持人:听起来,你描述的不只是效率提升,而是整个生产函数都被改写了。
Dylan Patel:完全是这样。现在的问题已经不是“能不能做”,而是“这个想法值不值得做”。因为执行成本已经低到几乎可以忽略不计了。
从你的角度来看,本质上你是在“商品化”这些能源数据服务公司。如果你不加快速度,那谁会来商品化你?所以问题就变成:作为一个企业经营者,你确实在大笔花钱,但这些投入到底带来了什么?是否真的带来了更多收入?
Dylan Patel:是的,确实带来了更多收入。
主持人:那你有没有担心过一个极限情况:那些掌握资本、负责投资的人——他们本来就是你的客户——会不会有一天说,“我们自己也有很聪明的分析师,那我们干脆自己做,不再买你的服务了”?如果一切变得这么容易,最终会不会所有能力都内收进这些投资机构内部?
Dylan Patel:首先,任何信息服务业务都有一个基本逻辑:我从信息中创造的价值,永远小于我的客户从中获得的价值。
举个简单的例子,如果我以 1 美元卖给你一条信息,你之所以愿意买,是因为这条信息能帮你赚超过 1 美元。所以,本质上你从我这里“套利”了,你赚得比我多。
像一些顶级投资机构,比如 Jane Street、Citadel,它们内部本来就有非常强的数据和研究能力。但即便如此,它们仍然会持续购买我们的数据,而且合作规模还在扩大。
原因很简单:我们有某种“优势因子”。我们更快、更灵活,是一个小团队,专注在一个非常具体的方向——AI 基础设施、token 经济,以及这场技术革命的演进路径。
我们对趋势的判断更前置,执行速度更快,产品迭代也更快。
当然,投资机构也会尝试自己构建一部分能力,但更多时候,他们会发现:直接买我们的数据更便宜。因为他们可以在我们的数据之上再做自己的分析,而不是从零开始构建整套体系。
不过,确实会有一部分人尝试自建,这是不可避免的。
2 Token 需求暴涨,但供给跟不上
主持人:我感觉每次跟你聊天,最后都会回到一个核心问题:token 的供需关系。这似乎是现在整个世界最关键的变量。从你亲身经历的这些变化来看,你对“需求侧”的判断有没有发生变化?
Dylan Patel:变化非常大。
如果我们从宏观角度看,比如 Anthropic,它的收入从大约 90 亿美元增长到现在的 350 亿到 400 亿美元年化水平——等这期播客播出时,可能已经到 400 亿到 450 亿美元了。
但关键是:它的算力并没有按同样比例增长。
如果你做一个简单的推算,并假设它没有减少研发算力(而事实上它不可能减少,因为它还在发布像 “Mythos” 和 Opus 4.7 这样的模型),那么可以得出一个结论:即使把所有新增算力都用于推理(inference),它的毛利率底线也在 72% 左右。
而现实情况是,一部分新增算力还投入到了研发中,所以真实毛利率可能更高。
要知道,在今年年初,有人泄露过他们融资文件中的数据,当时的毛利率只有 30% 多。这意味着什么?意味着 token 的需求增长速度,远远超过了供给增长。整个系统正在被需求侧“拉爆”。
主持人:也就是说,你看到的是一个需求远超预期、而供给跟不上的市场?
Dylan Patel:没错,而且这种失衡还在加剧。从我自己的公司就能感受到:一旦你真正把 AI 深度嵌入工作流,token 消耗会呈指数级增长。而且这种增长,不是“可选项”,而是“竞争所必需”。
这才是最关键的变化。
主持人:像这样的公司,利润率是怎么能做到这么高的?这听起来几乎不现实。
Dylan Patel:本质原因很简单:需求太强了。
现在真正重要的,不是你用不用这些模型,而是你有没有“访问权”。比如,你有没有 Anthropic 的客户经理?有没有企业级合同?能不能提高你的 rate limit(调用速率限制)?
因为 token 本身已经变成一种高度稀缺资源。谁能付得起钱,谁就能用到更多。
这其实不是问题,而是资本主义的自然结果。Anthropic 现在一年大概有 400 亿美元的 token 收入,但关键是——这些 token 为客户创造的价值,远远超过 400 亿美元。
不同企业,每个 token 能创造的价值不同。但随着模型越来越智能,真正重要的是:你是否能获取这些“最聪明的 token”,以及你如何使用它们。
最终,决定胜负的不是模型本身,而是人——你能不能把这些 token 用在最有价值的地方。
因为会有很多人使用 token,但并不是所有人都在创造价值。比如一些做 SaaS 的初创公司,用 Claude 生成代码,但如果他们的产品本身不创造足够价值,那他们很快就会被“挤出”市场——因为他们用不起这些 token。
3 “Mythos 强大到让 Anthropic 不敢公开”
主持人:我今天刚好有个亲身体验:在飞机上我用模型的时候,被 rate limit 限制了。当我看到 4.7 发布后,我立刻就想用 4.7,甚至已经不想再用 4.6 了——尽管过去几周我一直用得很开心。你会不会觉得,大家对“最新、最贵模型”的执念,有点出乎意料?
Dylan Patel:完全不意外。我最近一个很好笑的经历是:我和朋友 Leopold,曾经“跪着求”一位 Anthropic 的联合创始人,让他给我们 Mythos 的访问权限——尽管他一直假装这个模型不存在。
但这恰恰说明了问题:大家都知道,更强的模型意味着更大的价值。
从目前流出的 benchmark 来看,Mythos 可能是过去两年里模型能力最大的一次跃迁。这一点非常关键。甚至可以说,它强到让 Anthropic 不敢完全公开发布。虽然他们已经给部分客户定了价格——大概是当前 token 成本的 5 到 10 倍——但他们仍然在犹豫,因为担心它对世界的影响。
现在对外发布的 Opus 4.7,其实是一个“刻意削弱”的版本,尤其是在某些敏感能力上。所以我的建议很直接:如果你有足够的资金,就应该尽早签一个 Anthropic 的企业级合同,按 token 付费,而不是用普通订阅。这样你才能避免被 rate limit 卡住。
然后,你必须解决一个核心问题:如何把这些 token 用在“最值钱”的任务上,并且从中赚钱。
从某种意义上讲,一两年之后,很多公司的本质,可能就是在“做 token 套利”:token 本身很强大,但关键在于你把它“指向哪里”。
再往后走三到四年,甚至连这个问题都不需要人来决定——模型自己就会知道,应该把算力用在哪些地方,来创造最大价值。
主持人:听起来像是一个完全不同的经济体系。
Dylan Patel:其实我们已经能从历史中看到这个趋势。
随便选一个能力基准来看:过去达到某个能力水平,可能需要非常高的成本;现在,成本可能已经降到原来的 1/100,甚至 1/1000。
比如一些新模型,在达到类似 GPT-4 能力时,成本已经下降了几个数量级。但有趣的是——没人真的在乎这些“旧一代能力”变便宜了。大家真正想要的,是最前沿的模型。因为只有前沿模型,才能创造真正有经济价值的东西。
Dylan Patel:所以,驱动需求的,从来不是“成本下降”,而是“能力上限的提升”。
一年之后,今天的 Opus 4.6 或 4.7,可能成本只剩下现在的 1/100——比如我现在 700 万美元的开销,可能只需要 7 万美元。
但这不重要。
因为到那时候,我用的会是更强大得多的模型,能做更多、更复杂、更有价值的事情。
主持人:虽然 Mythos 这个模型单个 token 更贵,但因为它完成任务所需的 token 数量更少,所以在很多任务上反而比 Opus 4.6 更便宜,对吧?
Dylan Patel:没错。本质上是“单位 token 更聪明”。虽然单价更高,但效率提升太明显了,所以整体成本反而下降。
主持人:我记得上次见你的时候,Mythos 刚出来,你说这个模型好到让你有点“害怕”。你当时是什么意思?
Dylan Patel:Anthropic 在 2024 到 2025 年的一个核心目标,是让模型达到“L4 软件工程师”的水平——也就是一个比较初级但已经能独立工作的工程师。
基本上,他们用 Opus 4.6 做到了这一点。
但他们没明说的是:如果你看 Mythos 的 benchmark,它更接近“L6 工程师”——也就是一个经验相当丰富的高级工程师。更夸张的是,这个能力跃迁只用了两个月时间。他们内部大概在 2 月就已经有这个模型了。
所以问题就来了:接下来会发生什么?模型进步不仅没有放缓,反而在加速。无论是 Anthropic 还是 OpenAI,模型发布节奏都在明显压缩。
原因其实很清楚:要做出更强的模型,需要三样东西——算力、研究人员、以及“实现能力”。
算力很贵,而且短期内基本是“锁定”的;顶级研究人员也极其稀缺,薪酬动辄上千万美元。但“实现能力”(implementation)这件事,过去一直是瓶颈,现在却被 AI 极大地降低了门槛。
以前你有一个好想法,但实现它很难;现在你有想法,实现变得很容易——虽然仍然需要花钱,但技术门槛已经大幅下降。
主持人:这会带来什么变化?
Dylan Patel:这会彻底改变“创新的节奏”。因为实现变容易了,你可以同时尝试更多想法,然后快速迭代。无论是在做模型研发,还是在做应用——都一样。
比如过去模型可能 6 个月发布一次,现在可能 2 个月就发布一次。再比如,你想建一个美国电网的供需模型——以前很难,现在也可以快速做出来。
问题变成了:你有那么多想法,但哪些想法值得投入 token 成本去实现?
这其实是一个核心转变:过去,想法廉价,执行昂贵;现在,想法廉价且泛滥,执行变得便宜而容易。
所以,真正有价值的,只剩下“好想法”——那些能够证明自己值得被执行的想法。
主持人:那你说的“害怕”,更多是技术不确定性,还是别的?
Dylan Patel:不确定性肯定存在,但确实也带来了一种更深层的担忧——社会层面的。
我们正在进入一个世界:“你能不能执行”不再重要,真正重要的是——你能不能选对要做的事情。你的价值,变成了三件事:
1)选择正确的问题让 AI 去解决
2)把 AI 的产出转化为产品或价值
3)获取资源(资本、算力、token)来放大这一切
这也解释了为什么“最新模型的访问权”变得如此关键。
谁能用到最先进的模型?不再是所有人。
Anthropic 已经在做选择性开放,比如 Mythos 只提供给少数客户(目前主要用于网络安全场景)。未来这种趋势只会加强——模型不会全面开放,而是越来越“定向分发”。原因很现实:AI 太贵了。谁来为万亿美元级别的基础设施买单?一定是那些能用 AI 赚到钱的公司。同时,模型公司也不希望被“蒸馏”或复制,所以不会大规模开放最先进能力。
主持人:这听起来像是资源会越来越集中。是这样吗?
Dylan Patel:是的,这正是我在思考的问题:随着 token 的价值越来越高,这些资源和由此产生的收益,会不会集中在越来越少的公司手里?
比如我现在还拿不到 Mythos,但一些顶级银行已经在用了(虽然目前主要用于网络安全)。未来可能会出现这样一种情况:因为我有企业级合同、关系不错,我能稍微更早拿到新模型,或者获得更高的调用额度。我希望是这样——因为这本身就会成为新的竞争优势。
主持人:如果你的竞争对手拿不到这些最先进模型的访问权,而你能拿到,那基本上你就可以直接碾压他们,对吧?
Dylan Patel:完全可能。你可以想象一个极端但现实的场景:像 Ken Griffin 这样的人——既有钱又有关系——直接去跟模型公司谈一个协议,比如和 OpenAI 或 Anthropic 签约,说“我每年先买 100 亿美元的 token,你们的新模型优先给我用,等我用完第一批,其他人才可以用”。
如果这种事情发生,会怎样?
那他在市场上基本就是“降维打击”。这种优势可以体现在很多领域:可能是网络安全(Anthropic 目前就对这类场景高度敏感),也可能是信息服务(像我这样的业务),本质上都是一样的——谁先用上最强的模型,谁就能碾压别人。
更关键的是:我们其实并不知道这些模型真正的能力边界在哪里。
Anthropic 不知道,OpenAI 不知道,任何人都不知道。
真正去探索这些能力的,是“使用者”。是他们在不断尝试:这些 token 能用来做什么?能构建什么?
这件事本身,对人类生产力是极大的提升。但同时,也带来一个问题:资源和能力,会不会越来越集中到少数人手里?这些都需要时间来回答。
4 具身智能将成 AI 领域新的需求爆发点
主持人:那如果把视角拉远一点,比如机器人领域?现在机器人几乎不消耗 token,但未来会不会成为一个新的需求爆发点?
Dylan Patel:我认为会,而且非常快。现在有一个概念叫“软件奇点”(software-only singularity)——也就是说,AI 的爆发主要发生在软件世界。但现实是,绝大多数经济活动发生在物理世界。
所以,软件奇点只是一个阶段,而不是终点。一旦软件变得极其容易构建,下一步自然就是:把这些能力扩展到物理世界,也就是机器人。
现在机器人难在哪里?主要难在控制系统——比如微控制器、执行器、复杂的动作控制。
而当前主流的机器人模型(比如 vision-language-action 模型)在数据效率上其实很低,没法像语言模型那样规模化。
但未来一定会出现新的路径:类似于“大规模预训练”的机器人模型,就像人类一样,通过大量经验学习,同时具备“样本高效性”(few-shot learning)。
主持人:你觉得这个突破大概什么时候会发生?
Dylan Patel:我认为在未来 6 到 18 个月内,会出现真正有意义的突破。
比如你买一个机器人,只需要给它几个示例,它就能学会任务:让它叠衣服、搬东西、保持平衡,它都能很快掌握。到那个时候,机器人会变得高度专业化:可能会有专门擦黑板的机器人、叠衣服的机器人,甚至是一种“软件包”——你下载一个模型,它就让通用机器人具备某种能力。
这会带来两个结果:一是物理世界的生产效率大幅提升;二是通缩效应(deflation)进一步加强。同时,这也会让 token 的需求继续爆炸式增长。
我个人不认为 token 需求会放缓。
主持人:那回到模型本身,比如 Mythos,它的出现有没有让你对“规模法则”(scaling laws)有新的看法?
Dylan Patel:反而更确认了一点:规模法则仍然有效。Mythos 本质上是一个更大的模型——规模显著提升。这说明一件事:投入更多算力,模型就会变得更强。
当然,不只是“堆算力”。整个过程中,还有大量“效率提升”——也就是说,达到同样能力的成本在持续下降。你可以这样理解:一方面,如果你不断扩大规模,会得到能力的巨大跃迁;另一方面,如果你维持同样能力水平,成本却在指数级下降。
5 Anthropic 已经领先了?
主持人:那从竞争格局来看,现在是不是 Anthropic 已经领先了?
Dylan Patel:表面上看是这样。他们在 2 月就有 Mythos,但甚至没有完全发布,因为需求已经爆满;现在又发布了 Opus 4.7。
很多人会说,那 OpenAI 是不是已经落后了?但事情没那么简单。Anthropic 的问题在于:算力受限。他们增长得很快,但扩张能力有限。
而 OpenAI 的策略完全不同——他们在算力上是“极端激进”的,大规模采购资源,从 Microsoft、Oracle,到 SoftBank,再到 Amazon 的 Trainium 芯片,全都在押注。
简单说:Anthropic 更克制,但现在也开始意识到算力不够;OpenAI 则是一开始就疯狂堆算力,现在反而有更大的扩展空间。
还有一个容易被忽视的点:技术的扩散是有“时间滞后”的。
你我可能第一时间用上新模型,但大多数企业需要时间去学习、适应、重构流程。
所以即使不考虑模型继续进步,仅仅是“现有能力的扩散”,到今年年底,一个类似 Opus 4.6 水平的模型,可能就能支撑起整个经济体数百亿美元的支出规模。
现在是 400 亿美元,这个数字继续增长,并不夸张。
主持人:所以你的意思是,现在的增长更像是“线性外推”,而不是指数增长?真正的指数级爆发,需要更强的模型?
Dylan Patel:没错。现在只是线性增长——真正的指数增长,取决于下一代模型能力的跃迁。
问题在于,Anthropic 可能没有足够的算力去推动那个跃迁。接下来更有可能是 OpenAI 或 Google 先达到那个层级。
一旦有人先做到,就算他们的毛利率只有 50%,而不是 70%+,他们依然会吃掉几乎所有新增需求——而且很可能他们自己也没有足够算力去满足全部用户。
你可以想象一个极端情况:如果算力完全充足,像 Mythos 这样的模型,理论上可以支撑 5000 亿美元级别的收入。
但现实是,算力严重受限。
我们已经看到,比如 NVIDIA H100 的价格在飙升,而且这些 GPU 的“使用寿命”也在被不断拉长。
这意味着什么?意味着不仅一线实验室(Anthropic、OpenAI)会“供不应求”,连二线、三线实验室也一样——大家都会把 token 卖光。
本质上,现在出现了一个越来越大的“剪刀差”:模型所能创造的经济价值,在飞速增长;但我们能提供的算力供给,增长得没那么快。这个差距会持续扩大。
而结果就是:模型公司的利润率会不断上升——直到硬件供应链开始“反向收割”,提高自己的利润。
主持人:听起来你对需求侧的判断是:几乎爆炸式增长,而且这种增长还在加速。
Dylan Patel:是的,而且我觉得很多人还低估了这一点。我有一个比较极端的说法:如果你不使用更多 token,你会被困在一个“永久底层”(permanent underclass)。
主持人:这个说法挺激进的,展开讲讲。
Dylan Patel:这里其实有三个层次的问题:
第一,你要不要用更多 token;
第二,你能不能用这些 token 创造经济价值;
第三,你能不能把这些价值“抓在自己手里”。
很多人现在只做了第一步,甚至是以一种“偷懒”的方式——比如用 AI 把 8 小时工作压缩到 1 小时。但那只是最低级的用法。
更高级的方式是:你仍然工作 8 小时,但产出变成原来的 8 倍,收入可能变成 5 倍。
这在传统“打工模式”下不一定成立,但对于创业者、自由职业者、多项目操盘的人来说,这是完全可能的。
关键是:现在还不是“标配阶段”(table stakes)。你还有窗口期,可以利用 AI 提前放大自己的产出。但一旦所有人都这么做,这种优势就会消失。如果你在这个阶段没有做到这三件事——
用 token、创造价值、捕获价值——那随着模型能力继续提升、资源进一步集中,你很可能会被甩在后面。
主持人:那我们聊聊供给侧。为了支撑这种需求爆发,整个技术栈在发生什么变化?
Dylan Patel:一句话总结:整个供应链都在“涨价 + 延长周期 + 预付款”。
首先是 GPU。像 NVIDIA 的产品,不仅价格在上涨,而且使用寿命也在延长。
过去很多人说 GPU 用 5 年就淘汰,现在看完全不成立——很多 3-4 年前的集群还在续约使用,甚至可能用到 7-8 年。这意味着云厂商的真实利润率,其实比表面看起来更高。
再往下看整个供应链:
硬件层:像 NVIDIA,毛利率依然非常高
内存:利润率已经大幅上升
光学、逻辑芯片:通过“预付款”提升资本回报率
光刻机:ASML 已经完全卖空,还依赖 Carl Zeiss 扩产
甚至更底层,比如 PCB 所需的铜箔,也开始供不应求,需要提前锁定产能。
你会看到一个非常一致的模式:整个链条上的每一个环节,要么已经售罄、在提价,要么在收预付款、提高资本效率。换句话说:只要是“有实体、有产能”的环节,现在都在被抢。这就是供给侧的现实。
主持人:从历史来看,需求爆发之后,供给通常会很快跟上,甚至出现过剩。但现在看起来,供给几乎不可能追上。你觉得当前最关键的瓶颈在哪里?
Dylan Patel:问题在于:这一次的供应链,比以往任何时候都更复杂。而且我们正在构建的系统,本身复杂度也极高,这直接拉长了交付周期(lead time)。
过去某些行业也有 18 个月的交付周期,但“扩产”本身不需要几年时间;而现在,即使你决定扩产,真正的新增供给也要等很久才会出现。
一个典型例子是内存。内存产能每年大概只能增长 20% 到 30%,这是物理极限。即使 2025 年底需求信号已经非常明确,厂商也开始扩产,但这些新增产能,真正落地可能要到 2027 年末甚至 2028 年。
这意味着什么?
意味着价格会持续上涨,而且还没结束。尤其是 DRAM,很可能还会再翻倍甚至翻三倍。很多人觉得“内存瓶颈已经被充分讨论了”,但实际上完全没有。真正的紧缺才刚开始。而在市场机制下,唯一的调节方式就是——涨价,通过“需求破坏”(demand destruction)来重新分配资源。
主持人:那除了内存,逻辑芯片这边呢?
Dylan Patel:逻辑芯片同样面临严重瓶颈。台积电(TSMC)一直在提高资本开支(capex),今年大概在 500 多亿美元,而且还在上调。
但问题是:建晶圆厂是需要时间的。
他们已经在尽可能压榨现有产能,但短期内不可能大幅提升供给。而且他们目前的涨价策略其实相对“温和”,只是个位数涨幅——不像内存那样激进。
这就带来一个问题:台积电当然是优质公司,但它未必能“吃掉”整个价值链的最大收益。
真正被低估的,是更上游的设备和材料供应链。比如:
ASML:已经完全卖空
Lam Research、Applied Materials:需求持续爆发
更下游的供应商,比如 MKSI 等:同样受益于“订单外溢”
还有很多更细分的环节:铜箔、玻纤(PCB 材料)、激光器……这些都是“小而关键”的供应链,但现在全部处于极度紧张状态。
如果台积电在 2028 年真的做到 1000 亿美元资本开支(这不是幻想,而是现实可能),那整个供应链会被“鞭子效应”(bullwhip effect)不断放大冲击。
换句话说:越往上游,波动越剧烈,瓶颈越严重。
主持人:那除了 GPU,这一波 AI 还有哪些被忽视的瓶颈?
Dylan Patel:CPU 是一个被严重低估的瓶颈。现在大家都在讨论 GPU,但实际上 CPU 也已经“卖断货”了。
原因有两个:第一,强化学习(reinforcement learning)。模型训练现在不只是“喂数据”,而是要在环境中反复试错、评估结果。这些“环境”——无论是简单的文本校验,还是复杂的 CAD 仿真——都是运行在 CPU 上的。
第二,推理后的执行层。模型生成的代码、内容,并不会直接变成最终结果,而是要在各种应用环境中运行——这些环境,大量依赖 CPU。
换句话说:
GPU / ASIC:负责“思考”(模型推理)
CPU:负责“执行”(环境运行、应用落地)
随着 AI 生成的内容越来越多,CPU 需求也在同步爆发。
主持人:那从你的角度来看,最难判断的变量是什么?
Dylan Patel:不是供给,也不是成本,而是——“token 的经济学”。我们其实很清楚:
训练成本是多少
推理成本是多少
模型公司大概赚多少钱
但最难的是:这些 token 被用来做什么?创造了多少真实价值?这些价值如何在经济中扩散?
比如我用 AI 提升了信息分析能力,然后把这些信息卖给客户,价格还比以前更便宜。这会带来什么结果?
客户做出更好的投资决策
企业做出更优的竞争策略
整个经济效率提升
但这些价值,并不会完整体现在 GDP 统计里。这就是我说的“幻影 GDP”(Phantom GDP)问题:真实创造的价值,远远大于统计数据所反映的。但我们现在还没有一个很好的方法去衡量它。
6 少谈未来,多讲当下
主持人:最后一个问题。如果我们三个月后再聊,你觉得会发生什么?
Dylan Patel:我认为,会出现大规模的反 AI 抗议。
主持人:这么快?
Dylan Patel:是的。现在很多人其实是“反 AI”的,而且这种情绪在上升。随着 AI 收入快速增长、企业结构发生变化,人们会开始把各种问题归因于 AI。
再加上一些政治人物或社交媒体的推动,这种情绪很容易被放大。甚至已经有一些极端案例,比如针对 Sam Altman 的攻击事件,网上还有人表示支持。
这只是开始。
主持人:那 AI 行业应该怎么应对?
Dylan Patel:我觉得有三个关键点:第一,沟通方式需要彻底改变。像 Sam Altman 和 Dario Amodei 的对外表达,其实并没有很好地建立公众信任;第二,多展示“正面价值”,让普通人看到 AI 如何改善生活,而不是只谈“颠覆世界”;第三,少谈未来,多讲当下,如果一直强调“AI 将改变一切”,只会加剧恐惧感。
现在的问题是,大多数人既不了解这些公司,也不了解这些技术。他们看到的,是一个“神秘的小圈子”,在打造一个可能改变世界、甚至取代人类工作的系统。
如果这种认知不改变,反弹是必然的。
https://www.youtube.com/watch?app=desktop&v=LF3aUIM57uw
声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。
会议推荐
世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?安全与可信这道坎怎么过?研发体系不重构,还能撑多久?
AICon 上海站 2026,4 大核心专题等你来:世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构。14 个专题全面开放征稿。
诚挚邀请你登台分享实战经验。AICon 2026,期待与你同行。
热门跟贴