9月26日,英伟达创始人兼CEO黄仁勋海外播客
Bg2 Pod的访谈。 这场对话 从 Scaling Law 开始 ,深入解读了 NVIDIA 与 OpenAI 的千亿 “ 星际之门 ” 美元合作计划的战略意义,并就 AI 行业的指数级增长、市场竞争格局、主权 AI 竞赛、 AI 的未来等关键问题展开了精彩的 探讨 。
黄仁勋明确提出,驱动AI发展的并非单一的预训练Scaling Law,而是预训练、后训练(强化学习)和推理(思考)三大Scaling Law的叠加,这解释了为何算力需求会呈双重指数级增长。
与OpenAI的合作是帮助其自建AI基础设施,成为完全自主运营的超大规模公司。这将是一个长期的过程,旨在补充算力,以应对他们正在经历的双重指数级增长。第一个指数级增长是客户数量,第二个指数级增长是单次使用的计算量。
黄仁勋表示,直到所有这些传统意义上的超大规模计算业务,全部转型为由 AI 驱动,在这个彻底的转型完成之前,产能过剩的可能性都极低。
他表示,NVIDIA能够保持年度迭代并实现性能飞跃的核心战略——不再是优化单一芯片,而是对模型、算法、软件、CPU、GPU、网络乃至整个数据中心进行全栈式的、颠覆性的同步革新。
对于限制对华技术出口的政策,黄仁勋表达了不同看法,他坚信,让NVIDIA在中国市场竞争,最符合中美双方的共同利益。
01
三个Scaling Law:我们正处在一场真正的工业革命中
与一年前相比,您对于“推理将增长十亿倍”以及这将把智能提升到何种高度的信心是否更强了?
黄仁勋:我还是低估了。我必须郑重声明:我低估了。我们现在面临三个 Scaling Law。有预训练 Scaling Law,还有后训练 Scaling Law。后训练,本质上就像是 AI 在进行刻意练习。反复练习一项技能,直到完全掌握。为此,它会尝试各种方法。而要做到这一点,就必须进行推理。因此,现在训练和推理已经通过强化学习融为一体。这极其复杂,这个过程就叫做后训练。第三个 Scaling Law 就是推理。过去的推理方式是单样本的。
但我们现在所推崇的、新的推理方式,是思考。也就是说,先思考,再回答。
因此现在有了三个 Scaling Law。思考得越久,答案的质量就越高。在思考的过程中,你会去做研究,核实事实,学习新知,然后进一步思考,再学习更多,最后才生成一个答案,而不是草率地立刻给出答案。总结来说:思考、后训练、预训练。我们现在有三个 Scaling Law,而不是一个。
(关于推理业务的增长信心)我今年更有信心。原因在于,看看现在的 AI Agent 。AI 不再是单个的大语言模型,而是一个由多个大语言模型协同工作的系统。它们并行运行,调用工具,进行研究,处理各种复杂任务。而且这一切都是多模态的,看看现在生成的大量视频,简直太不可思议了。
02
与OpenAI的合作是帮助其自建AI基础设施,成为完全自主运营的超大规模公司
几天前您宣布了与OpenAI Stargate的重磅交易,NVIDIA将成为其首选合作伙伴并投资一千亿美元,帮助他们建设10吉瓦的算力设施。请帮我们解读一下这项合作对您意味着什么,以及为什么这项投资对NVIDIA如此意义重大?您为什么称OpenAI为超大规模公司?此外,他们正在你们的帮助下自建数据中心,在此之前他们一直将此业务外包给Microsoft,现在希望自己构建全栈的AI工厂,这意味着什么?
黄仁勋:我先回答最后一个问题,然后再从头梳理。我认为 OpenAI 极有可能成为下一个万亿级的超大规模公司,相信我们对此已有共识。
(关于为何称OpenAI为超大规模公司)就像 Meta 和 Google 一样,都是超大规模公司。OpenAI 未来将提供面向消费者和企业的服务,并且极有可能成为全球下一个万亿级的超大规模公司。我想你会同意这个判断。
既然如此,在它成长为巨头之前进行投资,是我们能想象到的最明智的决策之一。而且,人应该投资自己了解的领域,而我们恰好非常了解这个领域。因此,能够获得这次投资机会,这笔资金未来的回报将是惊人的。我们非常乐意抓住这个机会。我们并非必须投资,这也不是强制要求,但他们给了我们这个机会,这是件好事。现在,让我从头说起。我们正与 OpenAI 在多个项目上合作。第一个是 Microsoft Azure 的扩建。我们将继续推进,合作进展非常顺利。我们还有好几年的建设任务,仅此一项就涉及数千亿美元的工作量。第二个是 OCI 的扩建。大约有 5 到 7 吉瓦的设施即将开建。我们正与 OCI、OpenAI 以及 SoftBank 合作完成这项建设。这些项目均已签约,我们正全力以赴。第三个是 CoreWeave。我所说的这一切,都与 OpenAI 相关。那么,这个新的合作关系究竟是什么?这项新合作,是我们与 OpenAI 携手,帮助他们首次构建完全自有的 AI 基础设施。这意味着我们将在芯片、软件、系统,以及 AI 工厂的各个层面上与 OpenAI 直接合作,助其成为一个能够完全自主运营的超大规模公司。这将是一个长期的过程,旨在补充算力,以应对他们正在经历的双重指数级增长。第一个指数级增长是客户数量。随着 AI 能力和应用场景的提升,现在几乎所有应用都在接入 OpenAI,这带来了使用量的指数级增长。第二个指数级增长是单次使用的计算量。AI 不再是简单的单次推理,而是在回答前进行深度思考。这两个指数级增长相叠加,导致了他们计算需求的急剧膨胀。因此,我们必须推进所有这些项目。而这项最新的合作,是在他们已宣布的所有项目、以及我们既有合作基础之上的额外补充,旨在支持这个不可思议的指数级增长。
(关于OpenAI自建AI工厂)他们基本上是想和我们建立一种类似 Elon 和 X 与我们那样的直接关系。你看,Elon 和 X 就是自建模式。所以,这是一件意义非凡的大事。
当您考虑到 Colossus 所拥有的优势时,就会明白。他们在构建全栈。这才是真正的超大规模玩家,因为如果算力有富余,还可以转售给其他客户。同样,Stargate 也在建设海量算力。他们预计自己能用掉大部分,但这也使他们能够将多余的算力出售。这听起来非常像 AWS、GCP 或 Azure 的模式。这正是你的意思。
我认为他们很可能会自己使用所有算力,就像 X 的情况一样。但他们希望与我们建立同等级别的直接关系,包括直接的工作关系和采购关系。就像 Zuck 和 Meta 与我们,我们和 Sundar 与 Google,以及我们和 Satya 与 Azure 的合作一样,都是直接的。不是吗?他们已经发展到了足够大的规模,认为现在是时候建立这种直接的合作关系了。我非常乐意支持。并且 Satya、Larry,所有人都清楚这件事,并且都非常支持。
03
为何华尔街仍未理解AI的真实增长
在Sam Altman、您、Sundar、Satya这些行业领导者谈论着万亿级别的投资愿景时,负责你们公司股票的25位华尔街卖方分析师的共识预期却是,你们的增长将从2027年开始趋于平缓,到2030年的增长率仅为8%。在AI时代已经开启两年半的今天,行业领导者与华尔街之间为何依然存在着巨大的认知鸿沟?您对此却很坦然,这背后是否并不矛盾?
黄仁勋:顺便说一句,我们对这个预期没什么意见。我们对此很坦然,并且有信心能持续超出这些数字。我每天都在财经媒体上听到这种论调。我想这源于一些担忧,比如担心当前的短缺会导致未来的过剩,他们不相信这种增长能持续。他们会说:“好吧,我们相信你到 2026 年,但到 2027 年,市场可能就供给过剩了。”
如何解释这种认知分歧我倒认为这并不矛盾。首先,作为建设者,我们的使命就是为机遇而建设。我从几个层面来阐述,希望能帮助你对 NVIDIA 的未来更安心。
第一点,是基于物理定律的:通用计算的时代已经结束,未来属于加速计算和 AI 计算。这是最根本的一点。你可以这样想,全世界有价值数万亿美元的计算基础设施,这些都必须更新换代。当它们更新时,采用的必将是加速计算。所以你首先必须认识到,通用计算的时代结束了,这一点已是共识。所有人都同意,通用计算走到尽头,摩尔定律已失效。那么这意味着什么?这意味着通用计算将转向加速计算。我们与 Intel 的合作,正是认识到通用计算需要与加速计算融合,才能创造新机会。所以,第一,通用计算正在向加速计算和 AI 转型。
第二,AI 的首个大规模应用场景其实早已普及,就在搜索、推荐引擎、购物等领域。过去,超大规模计算基础设施是用 CPU 来做推荐,而现在,则是用 GPU 来做 AI。所以,仅仅是将经典的计算模式,无论是通用计算还是超大规模计算,从 CPU 转向加速计算和 AI,这个替换过程本身,就是一个价值数千亿美元的市场,仅仅是满足 Meta、Google、ByteDance、Amazon 这些现有客户的需求。
所以,甚至无需考虑 AI 创造的全新机遇,仅仅是把旧的做事方式替换成新的 AI 方式,就是一个巨大的市场。现在我们来谈谈未来。到目前为止,我谈的都还是一些存量替换。旧的方式已经过时,就像我们不再使用油灯照明,而是改用电力;不再乘坐螺旋桨飞机,而是改乘喷气式飞机。道理就是这么简单。然而,真正不可思议的是,当你拥抱 AI 和加速计算之后,会涌现出哪些全新的应用?这才是我们谈论的 AI 的核心价值。这个机遇究竟是怎样的?一个简单的类比是:过去马达取代了体力劳动,现在我们有了 AI——这些我称之为 AI 工厂的 AI 超级计算机,它们将生成 Token 来增强人类的智能。人类智能代表着什么?世界 GDP 的 55% 到 65%?就算它是 50 万亿美元。这 50 万亿美元的经济产出,都将被 AI 增强。我们不妨具体到个人层面来看。假设我雇佣了一位年薪十万美元的员工,然后我用一个一万美元的 AI 工具来辅助他。如果这个 AI 能让这位员工的生产力翻倍,甚至三倍,我会不会投资?毫不犹豫。我们现在就在公司的每一个人身上实践着这一点。
我们公司里每一位软件工程师、每一位芯片设计师,都已经有 AI 协同工作,实现了 100% 的覆盖。结果是,我们设计的芯片质量更好、数量更多、研发速度也更快。因此,公司成长得更快,我们雇佣了更多的人,生产力、营收和利润率都在提升。这有什么不好呢?现在,将 NVIDIA 的实践放大到全球 GDP 的层面。很可能发生的是,我们假设一个数字,这 50 万亿美元的经济活动,将被10 万亿美元的 AI 服务所增强。而这 10 万亿美元的服务,需要有机器来运行。AI 与传统 IT 的根本不同在于,过去的软件是预先编写好、一次性完成的,然后由人在 CPU 上运行。而未来,AI 是在持续不断地生成 Token,机器本身就在“思考”。所以,这个软件是在持续运行、持续创作。为了让 AI 能够思考,它需要一个工厂。
因此,假设这 10 万亿美元的 Token 生成服务有 50% 的毛利率,那么就需要一个价值 5 万亿美元的工厂,即 AI 基础设施来支撑。所以,如果你告诉我,未来全球每年在 AI 基础设施上的资本支出大约是 5 万亿美元,我会说,这个数学模型是成立的。这,就是未来。从通用计算转向加速计算,用 AI 基础设施替换所有超大规模数据中心,进而增强人类智能,驱动全球 GDP 的增长。
04
NVIDIA 的收入几乎可以说就是与功耗挂钩
根据我们的估算,如今这个市场的年规模约为4000亿美元,所以潜在市场总额将是现有规模的四到五倍。昨晚阿里巴巴的吴泳铭提到,到本十年末,他们数据中心的总功耗将增加10倍,而NVIDIA的业务恰好与功耗息息相关。此外,全球GDP在历经工业革命和数字革命后都实现了加速增长,您是否认为我们正在为世界提供数十亿AI“同事”,从而引发新一轮的GDP加速?
黄仁勋:昨晚阿里巴巴的吴泳铭提到,从现在到这个十年结束,他们数据中心的总功耗将增加 10 倍。你刚才说的是多少?
4 倍。
黄仁勋:这就说得通了。他们计划将功耗增加 10 倍,而我们的业务恰好与功耗息息相关。NVIDIA 的收入几乎可以说就是与功耗挂钩的。
他还提到了另一件事。他说:“Token 的生成速度每几个月就翻一倍。” 这意味着什么?意味着每瓦性能必须持续呈指数级增长。这正是 NVIDIA 致力于提升每瓦性能的原因。而每瓦收入,可以说,在未来,功耗就等同于收入。
(关于AI对GDP的推动)这个假设背后蕴含着一个非常值得玩味的历史视角。在长达 2000 年的时间里,全球的 GDP 基本没有增长。然后,我们迎来了工业革命,GDP 开始加速。接着是数字革命,GDP 再次提速。而你现在的观点,其实和 Scott Bessent 所说的一致,他曾预测:“明年我们的 GDP 增长率将达到 4%。” 你们的看法本质上都是认为全球 GDP 增长将进一步加快,因为我们正在为世界提供数十亿能够协助我们工作的 AI “同事”。如果 GDP 是在劳动力和资本投入固定的情况下的产出总量,那么它的增长必然会加速。
必然如此。看看人工智能领域正在发生的变化。AI 技术,特别是大语言模型和 AI Agent 的出现,正在催生一个全新的 AI Agent 产业,这一点毋庸置疑。因此,OpenAI 成为了历史上收入增长最快的公司,并且仍在经历指数级增长。所以,AI 本身就是一个高速发展的行业。由于 AI 的运行需要庞大的工厂和基础设施作为支撑,这个行业随之增长,我所在的行业也因此增长。而我们行业的发展,又带动了下游产业链的增长,比如能源行业。这对能源行业而言,堪称一场复兴。无论是核能还是燃气轮机,看看我们下游基础设施生态系统中的那些公司,它们的表现都极为出色。整个产业链都在增长。
05
超大规模计算公司已经完成了转型,他们全部的收入基础现在都建立在AI之上
扎克伯格提到,即使可能超出预算一百亿美元,Meta也必须承担投资AI的风险,这听起来像不像囚徒困境?与已经存在的万亿级超大规模计算产业相比,这个新兴的千亿级AI产业规模如何?从下至上的角度分析,未来五年内AI驱动的收入能否实现从千亿到万亿的跨越?你们的增长速度真有那么快吗?
黄仁勋:他们可是非常快乐的囚徒。是万亿级别的。完全正确。而且,整个超大规模计算行业都在向 AI 转型。在讨论任何从零开始的新增量之前,必须先看到这个巨大的存量市场。(关于AI产业与超大规模计算产业的规模对比)我们再梳理一下。根据我们的估算,到 2026 年,AI 领域的收入将达到 1000 亿美元,这还不包括 Meta,也不包括用于运行推荐引擎的 GPU。
(关于AI收入能否实现从千亿到万亿的跨越)能。而且我甚至认为,我们已经实现了这个目标。因为超大规模计算公司已经完成了转型。他们的业务已经从基于 CPU 的传统计算,转型为由 AI 驱动。他们全部的收入基础现在都建立在 AI 之上。没有 AI,就不会有 TikTok;没有 AI,YouTube 短视频也无法实现。所有这些业务都离不开 AI。比如 Meta 在个性化和定制化内容方面所做的那些杰出工作,背后都是 AI 在驱动。过去的内容分发模式是,由人工预先创作好有限的几个选项,然后通过推荐引擎进行挑选。而现在,内容是由 AI 实时生成的,选项是无限的。
毕竟像推荐引擎从CPU到GPU的迁移不是已经发生了吗?所以您的论点是,到2030年AI收入达到万亿规模的可能性接近百分之百,因为我们现在几乎已经达到了这个水平?
(关于转型是否已经发生)这个过程其实是最近才发生的。Zuck 自己也会告诉你,我在 SIGGRAPH 大会上遇到他时他就说过,他们在采用 GPU 上起步很晚。Meta 使用 GPU 才多久?大概一两年?一年半?这都是很新的进展。用 GPU 来做搜索业务呢?那就更新了。是一个崭新出炉的概念,让搜索业务完全跑在 GPU 上。
(关于万亿规模的可能性)到 2030 年 AI 收入达到万亿规模的可能性接近百分之百,因为我们现在几乎已经达到了这个水平。
06
在所有通用计算完全转换为AI驱动的加速计算之前,出现产能过剩的可能性极低
既然存量市场转型已在发生,那么对于增量市场,未来三到五年内出现产能过剩的概率有多大?这个从通用计算到AI驱动的加速计算的转换过程需要多久?同时,这些万亿级别的投资都是超前投资,这种投资是刚性的,还是可以根据市场情况灵活调整?Satya Nadella等传统超大规模计算公司的态度似乎也变得更积极,是否所有人都达成了建设规模严重不足的共识?此外,您认为下一个等待被AI开拓的巨大市场是什么?
黄仁勋:在我们将所有通用目的计算完全转换为由 AI 驱动的加速计算之前,我认为出现产能过剩的可能性极低。而这个转换过程,需要数年时间才能完成。
(关于产能过剩的可能性)直到所有的推荐引擎都由 AI 驱动,直到所有的内容生成都由 AI 完成,因为面向消费者的内容生成,其核心很大程度上就是推荐系统,届时一切都将由 AI 生成。直到所有这些传统意义上的超大规模计算业务,从购物到电子商务等等,全部转型为由 AI 驱动。在这个彻底的转型完成之前,产能过剩的可能性都极低。
(关于投资的灵活性)实际情况恰恰相反。因为我们位于供应链的末端,我们的生产是由需求驱动的,而非相反。现在,所有的风险投资人都会告诉你,全球正面临算力短缺。这并不是因为 GPU 的供应不足。只要客户下订单,我们就能生产。在过去几年里,我们已经对整个供应链进行了深度整合和产能准备,从晶圆投片、CoWoS 封装到 HBM,所有相关技术环节我们都做好了准备。如果需求翻倍,我们的产能也能翻倍。所以,供应链已经就绪,我们等待的只是需求信号。当云服务提供商、超大规模计算公司和其他客户制定年度计划并向我们提供需求预测时,我们会根据这些预测来安排生产。但现在的问题是,他们提供给我们的每一次预测,最终都被证明是错的,因为他们严重低估了实际需求。这导致我们始终处于一种紧急追单、疲于应付的状态。这种情况已经持续了好几年。无论我们收到的预测比前一年增长了多少,最终都还是不够。
(关于超大规模计算公司的态度转变)这是因为第二条指数级增长曲线的出现。我们之前经历的第一条曲线,是 AI 的采用率和用户参与度的指数级增长。而最近出现的第二条曲线,则是 AI 的推理能力。这正是我们一年前讨论过的话题。当时我们谈到,AI 正从一个“单步”模式进化。所谓“单步”,本质上是基于预训练的记忆和泛化。比如你问“8 乘以 8 等于多少?”,它直接记住答案。这种记忆和泛化就是过去的 AI 模式。但大约一年前,情况发生了变化,推理能力出现了,随之而来的是研究能力和工具使用能力。现在,AI 成为了一个会思考的实体。
增加了十亿倍。
黄仁勋:这意味着算力消耗将大幅增加。正如您所说,某些超大规模计算客户本身就有内部工作负载需要从通用计算迁移到加速计算,因此无论市场周期如何,他们都在持续投资建设。而另一些超大规模公司的业务负载不同,所以他们最初可能不确定自己能多快消化这些新增的算力。但现在,所有人都达成了一个共识:他们此前的建设规模都严重不足。
(关于下一个巨大市场)我非常看好的一个应用领域,就是传统的数据处理,包括结构化数据和非结构化数据。如今,数据处理消耗了全球绝大多数的 CPU 算力,它仍然完全运行在 CPU 之上。无论是 Databricks、Snowflake,还是 Oracle 的 SQL 处理,核心都是 CPU。所有人都在使用 CPU 处理 SQL 和结构化数据。未来,这一切都将转向由 AI 驱动的数据处理新范式。这是一个等待我们去开拓的、无比巨大的市场。但要实现这一点,NVIDIA 所做的每一项工作都需要底层的加速层,以及针对特定领域的解决方案、数据处理库和一整套方法。这些基础设施正是我们接下来需要构建的,而且我们很快就会推出。
07
我们对客户的投资是纯粹的股权投资
目前市场上有一种反对声音,聚焦于“往返交易”和“循环收入”的问题,认为像你们投资于同时也是自己大客户的企业(如OpenAI),其收入增长并非来自真实需求,而是金融工程的结果。对于媒体上过度渲染此问题的分析师,您认为他们的观点错在哪里?此外,他们选择你们的产品并非强制,如果下一代芯片性能不够出色,他们完全可以选择其他供应商,对吗?
黄仁勋:建设 10 吉瓦的算力大概需要 4000 亿美元。这笔巨额资金主要通过三种渠道来解决:首先是他们自身的业务收入,这部分正在指数级增长;其次是股权融资;最后是他们能筹集到的任何债务。而他们能获得的股权和债务融资的规模,又取决于市场对他们未来持续创收能力的信心。聪明的投资者和贷款机构自然会综合考量所有这些因素。这本质上是他们公司自身的商业决策,与我们无关。当然,我们必须与他们紧密合作,以确保我们的产能建设能支持他们业务的持续增长。因此,我们从他们那里获得的销售收入,与我们对他们的投资,是两件完全独立的事情。我们的投资不附带任何条件,纯粹是看好他们,认为这是一个宝贵的投资机会。正如我们之前提到的,这家公司很可能成为下一个万亿美元级别的超大规模企业。谁又不想投资这样的公司呢?我唯一的遗憾是,当他们早期邀请我们投资时,我们投得还不够多。
我还记得当时的那些讨论。我们当时太“穷”了,所以投得不够多。现在想想,真应该把我所有的钱都押上去。
他们并没有任何义务必须使用你们的芯片,而且正如您所说,你们看待这项投资,纯粹是一次着眼于未来机会的股权投资。
我们确实做了一些非常成功的投资,不妨在这里提一下。比如我们投资了 xAI 和 CoreWeave。这是多么明智的决策!回到我们讨论的核心,在我看来,另一个根本性的事实是,你们的做法是完全公开透明的。而这背后有着坚实的经济逻辑支撑,对吗?这并非是在两家公司之间凭空转移收入。现实是,有海量用户每个月真金白银地为 ChatGPT 付费,它的月活用户高达 15 亿。您刚才也提到,对于全球所有企业而言,投身 AI 是生存问题,不做就将被淘汰。而每个主权国家,都将发展 AI 视作关乎国家和经济安全的头等大事,其重要性不亚于当年的核能。
有哪个人、哪家公司或哪个国家会认为,智能对他们而言是可有可无的呢?智能是他们的根本,而我们正在做的,是实现智能的自动化。
08
年度发布周期与极致协同设计
NVIDIA从2024年的Hopper架构开始,切换到了年度发布周期,后续将推出Blackwell, Vera Rubin, Ultra, Feynman等。这个年度发布周期的节奏目前执行得如何?其主要的战略目标是什么?NVIDIA内部使用的AI工具是否是实现这一高强度迭代的关键?另外,您能否为观众解释一下什么是“极致协同设计”?有竞争对手认为,你们此举不仅是为了降低Token成本,也是为了让竞争对手无法跟上,并借此锁定供应链,您怎么看?
黄仁勋:如果没有 AI,NVIDIA 如今的研发速度、迭代步伐和运营规模都将受到极大限制。可以说,我们现在所取得的成就,在没有 AI 的辅助下是根本不可能实现的。那么,我们为什么必须这样做?原因正如 Eddie Wu、Satya Nadella 和 Sam Altman 都曾指出的那样:Token 的生成速度正在呈指数级增长,同时,客户的使用量也在呈指数级增长。我记得当时 OpenAI 的周活跃用户数就已经达到了 8 亿左右。
由于用户在进行推理时运算,每个人生成的 Token 数量都呈爆炸式增长。所以,首先,Token 的生成率正在以令人难以置信的速度飙升,这是一种双重指数增长的叠加效应。我们必须以惊人的速度提升性能,否则 Token 的生成成本将持续攀升,因为摩尔定律已经失效。现在晶体管的成本和功耗基本年年如此,在这两大基本定律的制约下,除非我们能拿出新技术来降低成本,否则就算你在总价上给客户几个百分点的折扣,又如何能抵消双重指数增长带来的成本压力呢?因此,我们必须每年都提升性能,其速度要能跟上这种指数级增长的步伐。
举个例子,从 Kepler 架构一直发展到 Hopper 架构,性能可能提升了 10 万倍,这正是 NVIDIA AI 征程的开端,10 年 10 万倍。而从 Hopper 到 Blackwell,得益于 NVLink 72 技术,我们在短短一年内就将性能提升了 30 倍。接下来,Rubin 架构会再次带来又一个量级的飞跃,Feynman 架构也是如此。我们之所以能做到这一点,根本原因在于晶体管本身的帮助已经非常有限。摩尔定律带来的主要是晶体管密度的提升,而非性能的提升。既然如此,我们面临的挑战之一,就是必须在系统层面将整个问题彻底解构,同时对每一块芯片、整个软件栈以及所有系统进行同步革新。这就是极致的协同设计。以前从未有人达到过这样的协同设计水平。我们改变了 CPU,革新了 CPU、GPU、网络芯片、用于纵向扩展的 NVLink 和用于横向扩展的 Spectrum-X。我听有人说:“哦,那不就是以太网嘛。” 呵,Spectrum-X 以太网可不仅仅是以太网。人们正开始发现,它带来的性能倍数简直不可思议。NVIDIA 的以太网业务,单单就是以太网业务,是全球增长最快的。
所以,在横向扩展之后,我们当然还需要构建更庞大的系统,也就是将多个 AI 工厂互联,从而实现跨工厂的扩展。我们以年为单位来推进这一切。因此,我们自身的技术发展现在也呈现出指数之上的指数增长,这使得我们的客户能够不断降低 Token 的成本,并通过预训练、后训练和逻辑思考让这些 Token 变得越来越智能。最终,当 AI 越智能,人们就会越频繁地使用它们。而使用得越多,其应用又将呈指数级增长。
(关于极致协同设计的解释)极致协同设计,意味着你必须同时对模型、算法、系统和芯片进行优化。你必须打破常规去创新。过去在摩尔定律时代,你只需要不断地让 CPU 变得越来越快,所有东西就自然变快了。那时的创新是在一个“盒子”里进行的:只要让那块芯片更快就行。那么,如果芯片的速度无法再提升了,你该怎么办?答案就是打破常规去创新。
NVIDIA 之所以能改变游戏规则,是因为我们做了两件事:我们发明了 CUDA 和 GPU,并且开创了大规模协同设计的理念。这也是我们涉足众多行业、并为之创建大量软件库以实现协同设计的原因。这种协同设计,首先是全栈的。而“极致”则更进一步,它超越了软件和 GPU 的范畴,如今已扩展到整个数据中心的层面,涵盖了交换机、网络设备、以及运行在这些设备和网卡上的所有软件,还有纵向扩展和横向扩展,你需要对所有这些环节进行通盘优化。正因如此,从 Hopper 到 Blackwell 的性能提升能达到 30 倍,这是任何摩尔定律都无法企及的。
所以,这就是“极致”,它源于极致的协同设计。这也是我们决定进入网络与交换、纵向与横向扩展、并自主研发 CPU、GPU 和网卡领域的原因。NVIDIA 之所以在软件和人才方面如此雄厚,原因就在于此。我们向开源社区贡献的代码量,比世界上几乎任何公司都多,可能只有一家公司例外。所以,我们在软件方面有着极为深厚的积累,而这还仅仅是在 AI 领域。我们还在计算机图形学、数字生物学和自动驾驶汽车等领域深耕。我们公司产出的软件总量是惊人的。这一切,都让我们能够进行深度乃至极致的协同设计。
(关于年度周期锁定供应链的看法)在你提问之前,请先想一想这个。为了我们每年能完成数千亿美元规模的 AI 基础设施建设,想想看,我们在一年前就需要启动多大的产能布局。我们谈论的是价值数千亿美元的晶圆投产和 DRAM 采购,这已经达到了一个几乎没有公司能够跟上的体量。
09
现在的重点已经不是构建一块ASIC芯片,而是构建一个完整的AI工厂
目前业界最核心的争论之一是GPU与ASIC之争。您去年曾说,这类自研芯片项目绝大多数可能永远无法实现规模化量产,但鉴于Google TPU目前看起来相当成功,您如今如何看待这个不断演变的竞争格局?即便ASIC能用,客户是否仍需在计算集群中寻求一个最佳平衡配置?此外,您曾说即便竞争对手的芯片免费,客户仍会选择NVIDIA,能否为我们拆解一下背后的算法?考虑到你们的产品迭代、供应链协同、业务规模以及NV Fusion等开放举措,您是否认为公司今天的竞争护城河比三年前更深更宽了?
黄仁勋:Google 的优势在于其远见。他们在一切开始之前就启动了 TPU1 项目。这和做一家初创公司没什么两样。你本就应该在市场爆发前创立公司,而不是等到市场规模达到万亿美元时,才想着作为初创公司入场。有一种在风投圈人尽皆知的谬论,就是说在一个巨大的市场里,只要你能拿下百分之几的份额,就能成为一家大公司。这其实是根本错误的。正确的做法是,在一个微小的行业里占据 100% 的份额,然后把它做大。这正是 NVIDIA 所做的,也是 TPU 当时所做的。那时赛道上只有我们两家。
所以,这就是现在那些研发 ASIC 的人所面临的挑战。这个市场看起来很诱人,但别忘了,这个诱人的市场已经从一块叫做 GPU 的芯片,演变成了我刚才所描述的——一个 AI 工厂。你们也看到了,我刚刚发布了一款名为 CPX 的芯片,用于处理上下文和生成扩散视频,这是一个非常专业化但又在数据中心里至关重要的工作负载。我刚才也暗示了未来可能会有专门的 AI 数据处理处理器。因为什么呢?因为你需要长期记忆和短期记忆,而 KV 缓存的处理工作非常繁重。AI 的记忆能力至关重要。你总希望你的 AI 有一个好记性。单是处理系统中所有的 KV 缓存,就是一件极其复杂的事情。也许这项任务就需要一个专门的处理器。未来可能还会有其他类似的需求。所以你会发现,NVIDIA 的视角早已不是 GPU 本身了。我们的视角是审视整个 AI 基础设施,思考如何才能帮助那些卓越的公司处理他们所有多样化且不断变化的工作负载。看看 Transformer 就知道了。
Transformer 架构正在以惊人的速度演变。如果不是因为 CUDA 平台易于操作和快速迭代,那些公司要如何进行海量的实验,来决定该用哪个版本的 Transformer、该用哪种注意力算法?你如何进行解耦?CUDA 因为其高度的可编程性,可以帮助你完成所有这些。因此,看待我们业务的方式应该是这样:三、四、五年前,当所有这些 ASIC 公司或项目启动时,那时的行业格局非常小巧而简单,基本上就是围绕一块 GPU。但现在,它已经变得巨大而复杂。再过两年,它的体量将更加庞大。所以,我认为,作为一个新晋玩家,想要在一个已经如此巨大的市场中立足,这场仗真的非常难打。
(关于ASIC与GPU的平衡配置)一个视频转码器。完全正确。所以未来会有许多不同的芯片或组件,不断加入到 NVIDIA 的生态系统中来。
形成一个加速计算集群,对吧?随着新的工作负载不断涌现。
黄仁勋:没错。而且,现在那些试图流片新芯片的人,其实并没有真正预见到一年后市场会发生什么。他们当前的目标仅仅是让芯片能跑起来而已。
我换个角度说,Google 是 GPU 的大客户。我们必须承认,Google 是一个非常特殊的例子,值得我们致以应有的尊重。TPU 已经发展到第七代了,这对他们来说也是一个巨大的挑战,他们所做的工作极其艰难。所以,我想首先要明确的是,芯片可以分为三类。第一类是架构级芯片,比如 x86 CPU、ARM CPU 和 NVIDIA GPU。它们拥有自己的架构、丰富的知识产权 (IP) 和庞大的生态系统,技术非常复杂,是由我们这样的架构所有者来构建的。第二类是 ASIC。我曾在发明 ASIC 概念的 LSI Logic 公司工作过。如你所知,LSI Logic 这家公司已经消失了。原因是,当市场规模不大时,ASIC 确实是个绝佳的选择。你可以轻易找到一个承包商,帮你完成封装和制造,而他们会向你收取 50% 到 60% 的利润。但当 ASIC 面对的市场变得巨大时,就会出现一种新的模式,叫做 COT (Customer-owned tooling),也就是客户自有工具。谁会这么做呢?比如苹果的智能手机芯片,其出货量巨大,他们绝不可能为了做一颗 ASIC 芯片而付给别人 50% 到 60% 的毛利。他们采用的就是客户自有工具模式。那么,当 TPU 的业务规模变得足够大时,它会走向何方?毫无疑问,也是客户自有工具。当然,ASIC 仍有其一席之地。比如视频转码器、智能网卡的市场规模永远不会太大。
因此,当一家 ASIC 公司同时进行着 10 到 15 个项目时,我一点也不惊讶。因为其中可能就是五个智能网卡、四个转码器等等。它们都是 AI 芯片吗?当然不是。如果有人想为某个特定的推荐系统构建一个专用的嵌入式处理器,用 ASIC 来做,当然可以。但你会用 ASIC 来做 AI 的基础计算引擎吗?一个需求在不断变化的领域?你有低延迟工作负载,有高吞吐量工作负载,有聊天用的 Token 生成,有逻辑思考类工作负载,还有 AI 视频生成工作负载。现在你面对的是一个极其复杂的系统。
你们加速平台的“顶梁柱”和“发动机”。
黄仁勋:这正是 NVIDIA 的核心价值所在。看看我们做了什么。我们发布了一个叫做 Dynamo 的项目,全称是“解耦式 AI 工作负载编排 (Disaggregated AI workload orchestration)”,并且我们将它开源了。因为未来的 AI 工厂一定是解耦的。
而且您还推出了 NV Fusion,这相当于对包括您刚刚投资的 Intel 在内的竞争对手说:“这是你们参与我们所构建的这个‘工厂’的方式。”因为没有其他人疯狂到去尝试构建整个工厂,但如果你的产品足够好、足够有吸引力,以至于最终用户说“嘿,我们想用这个,而不是 Arm 的 GPU 或你们的推理加速器”,你们就可以接入进来。是这样理解吗?
黄仁勋:是的,我们非常乐意将你们连接进来。NVLink Fusion 是个绝佳的创意,我们很高兴能与 Intel 在这方面合作。它将 Intel 的生态系统,要知道,世界上绝大多数企业仍在 Intel 平台上运行,与 NVIDIA 的 AI 和加速计算生态系统融合在一起。我们和 Arm 也达成了类似的合作。未来我们还会和其他几家公司这样做。这为我们双方都创造了新的机遇,是真正的双赢。我将成为他们的大客户,而他们也将为我们打开一个远比现在更广阔的市场机会。
(关于“免费芯片”的算法)可以从两个角度思考,首先是收入。所有人都受限于电力,假设你设法获得了额外的 2 吉瓦电力,你当然希望这 2 吉瓦电力能转化为收入。如果你的性能,也就是每瓦 Token 产出量,是别人的两倍——这是因为我进行了深度和极致的协同设计,那么我的每单位能耗性能就会高得多。
这样一来,我的客户就能用同样的数据中心产出两倍的收入。谁不想要两倍的收入呢?如果有人给他们打个 15% 的折扣,你要知道,我们的毛利率 (比如 75%) 和别人的毛利率 (比如 50% 到 65%) 之间的差距,远不足以弥补 Blackwell 和 Hopper 之间 30 倍的性能差距。我们假设 Hopper 是一款非常出色的芯片和系统,再假设别人的 ASIC 性能和 Hopper 相当,但 Blackwell 的性能是其 30 倍。这意味着,在那 1 吉瓦的电力上,你将不得不放弃 30 倍的收入,这个代价太大了。所以,即使他们免费提供芯片,你手头也只有 2 吉瓦的电力可用,你的机会成本高得惊人。因此,客户总会选择每瓦性能最优的方案。
(关于竞争护城河)首先,如今的竞争确实比以往任何时候都激烈,但这场竞赛的难度也前所未有地高。我之所以这么说,是因为晶圆的成本越来越高。这意味着,除非你进行极致规模的协同设计,否则你根本无法实现我们所说的那种倍数级的性能增长。这是第一点。所以,除非你每年能同时研发六、七、八款不同的芯片,这听起来很惊人。现在的重点已经不是构建一块 ASIC 芯片,而是构建一个完整的 AI 工厂。这个系统里包含大量芯片,并且它们全都是协同设计的。它们共同作用,才能带来我们几乎每次迭代都能稳定实现的 10 倍性能飞跃。
所以,第一,我们的协同设计是极致的。第二,我们的规模是极致的。当你的客户要部署一个千兆瓦级别的数据中心时,那意味着要部署 40 万到 50 万个 GPU。让 50 万个 GPU 协同工作,这本身就是一个奇迹。因此,你的客户在采购这一切时,是冒着巨大风险的。你得扪心自问,有哪个客户会为一个未经证实的全新架构,下一个价值 500 亿美元的采购订单?你刚刚完成了一款全新芯片的流片,你自己对此兴奋不已,所有人也都在为你喝彩。然后你展示了首批工程样片。这时候,谁会给你一张 500 亿美元的订单?你又凭什么为一个刚刚流片的芯片,去启动价值 500 亿美元的晶圆生产呢?但 NVIDIA 可以这么做,因为我们的架构久经考验,有口皆碑。
所以,我们客户的部署规模是惊人的,而我们供应链的运作规模也是惊人的。如果不是确信 NVIDIA 能够兑现承诺,并将产品成功交付给全球客户,有谁愿意为一家公司预先启动所有生产环节,提前备好所有物料?他们相信我们能做到。他们愿意一次性启动价值数千亿美元的生产。这种规模,简直是不可思议。
10
主权AI竞赛
您是否同意各国都将AI视为事关存亡的头等大事?您在世界各地听到的关于“主权AI”的看法是怎样的?另外,您如何看待当前美国科技产业与政府之间独特的合作关系?最后,近年的政策限制为华为等中国公司创造了机会,您如何看待NVIDIA与中国的关系?
黄仁勋:没有人需要原子弹,但人人都需要 AI。这就是非常、非常大的区别。AI,如你所知,是现代的软件。我就是从这里开始阐述的:计算从通用走向加速,代码从由人逐行编写演变为由 AI 生成。这个根本性的转变不容忽视。我们重塑了计算,地球上并没有出现新物种,我们只是重塑了计算本身。而每个人都需要计算,计算需要被普及。这就是为什么所有国家都意识到必须投身 AI 浪潮,因为谁都离不开计算。世界上没有人会说:“我昨天还在用电脑,但从明天起我打算用木棍和火了。”所以,每个人都必须跟上计算现代化的步伐,仅此而已。
其次,想要参与到 AI 中,你必须将自己的历史、文化和价值观编码进 AI。当然,AI 正变得越来越智能,即使是核心 AI 也能很快地学习这些内容,你不必从零开始。所以我认为,每个国家都需要拥有一定的主权 AI 能力。我建议他们都去使用 OpenAI、Gemini、Grok 这些开放模型,也建议他们使用 Anthropic。但同时,他们也应该投入资源去学习如何构建自己的 AI。原因在于,他们不仅需要为语言模型构建 AI,还需要为工业、制造业、医疗健康和国家安全等领域构建模型。有大量的智能需要他们亲手去培育。因此,他们必须拥有主权 AI 能力,每个国家都应该发展这种能力。
(关于主权AI的普遍看法)所有国家都意识到了这一点。他们都将成为 OpenAI、Anthropic、Grok 和 Gemini 的客户,但他们也都清楚,必须建立自己的基础设施。而这正是 NVIDIA 所做事情的核心理念——我们构建的是基础设施。就像每个国家都需要能源、通信和互联网基础设施一样,现在,每一个国家都需要 AI 基础设施。
(关于NVIDIA与中国的关系)我们和中国是竞争关系。我们必须承认,中国希望自己的公司发展壮大,这是理所应当的。我对此毫无怨言。他们理应发展得好,也理应获得他们想要的任何支持,这完全是他们的权利。别忘了,中国有一些全球最优秀的企业家,因为他们毕业于全球顶尖的科学、技术、工程和数学学校。
H20 芯片其实仍然非常出色。当然,它比不上 Blackwell,这一点我承认。我很有耐心,我相信他们是明智的,正在通盘考虑他们的处境。在处理外部关系上,他们有更宏大的议程。目前有很多讨论正在进行中。但说到底,最根本的事实是:我相信,让 NVIDIA 服务中国市场、在中国市场竞争,最符合中国的利益。我坚信这一点。当然,这也极大地符合美国的利益。这两个事实可以同时存在。两者为真是有可能的,而且我相信就是如此。所以,尽管我告诉所有投资者,我们的业绩指引不包括中国市场,我也感谢所有投资者在评估我们时剔除中国市场的因素,我们在其他地区还有大量的增长机会,这些都对。但这并不意味着中国对我们不重要。它非常重要。任何认为中国市场不重要的人,都是在采取鸵鸟政策。这是世界上最重要、最智慧的市场之一,聪明的人在那里做着聪明的事,我们希望参与其中。我认为,我们在那里,对两国都有利。所以,当我退一步看,我相信智慧最终会胜出。
11
未来展望:登上指数级增长的火车
伟大的未来学家Ray Kurzweil曾说,21世纪我们将经历相当于20000年的进步。当我们畅想2030年甚至更远的未来,人工智能和机器人技术的融合将带来什么?对于所有正在聆听这场变革的人,您有什么建议?最后,作为这场变革的领袖之一,您如何看待自己肩负的责任,以确保这场胜利属于所有人?
黄仁勋:其实很多观点许多人都已经说过了,而且都非常有道理。我认为,在未来五年内,一个即将被攻克的非常酷的领域,是人工智能和机电一体化,也就是机器人技术的融合。所以,我们将拥有能在我们身边四处走动的 AI。这一点我们都知道,每个人都知道。我们都清楚,我们每个人都会伴随着自己的 R2-D2 长大。那个 R2-D2 会记住我们的一切,一路指导我们,成为我们的伙伴。这一点我们已经知道了。而且,每个人的云端都将关联着自己的 GPU,地球上有80亿人,就需要80亿个 GPU,这是一个完全可能实现的结果。每个人都拥有为自己量身微调的 Transformer 模型。云端的那个 AI 也会体现在各种设备中,它会内嵌在你的车里,在你自己的机器人里,无处不在地陪伴着你。所以,我认为那样的未来是合情合理的。我们将能够理解生物学无限的复杂性,理解生物系统,以及如何预测它,并为每个身体打造数字孪生。我们每个人都会有自己的医疗保健数字孪生,就像我们在 Amazon 购物时有数字孪生一样。我们为什么不能在医疗保健领域拥有自己的数字孪生呢?当然可以。所以,一个能够预测我们将如何衰老、可能患上何种疾病,以及任何即将发生的事情,甚至可能就在下周或明天下午,并能及早预警的数字系统,我们当然会拥有所有这些。我认为这一切都是必然会发生的。我现在经常被与我合作的 CEO 们问到这样一个问题:既然如此,接下来会发生什么?我们该怎么做?这其实是对快速发展事物的常识性判断。如果你面前有一列即将不断加速、呈指数级增长的火车,你唯一真正需要做的就是跳上去。一旦你上了车,沿途的一切你自然会搞清楚。想要预测火车将到达哪里,然后试图用子弹去击中它,或者预测火车将驶向何方,在它每秒都在指数级加速的情况下,去计算该在哪个十字路口等它,那是不可能的。你只需要在它还开得比较慢的时候上车,然后随它一起指数级增长就行了。
(关于领袖的责任)我们正在以加速的方式创造变革,我们知道,尽管这很可能对绝大多数人是好事,但过程中也必然会遇到挑战,我们会坦然面对并解决它们。我们要为所有人托底,确保这场变革的胜利不仅仅属于那些在硅谷的顶层精英。
| 文章来源:数字开物
【AI技术与应用交流群|仅限受邀加入】
AI算力领域TOP级从业者专属圈层
√ 与头部算力企业深度对话
√ 与AI上下游企业深度对话
√ 获取一手全球AI与算力产业信息
√ 获取AI热点及前沿产业独家信息
√ 随时了解全球AI领域高管最新观点及实录全文
√ 有机会参与AI主题产业交流活动
扫码验证身份(需备注姓名/公司/职务
不止有 DeepSeek,更有 AI产业的未来!
• END •
【专栏】精品再读
热门跟贴