文 | 超前实验室,作者|西西弗柿
就在刚刚,英伟达放大招,一石激起千层浪:
据华尔街日报报道,其计划在下个月的GTC开发者大会上发布一款整合了Groq“语言处理单元”(LPU)技术的全新推理芯片,这款被英伟达首席执行官黄仁勋称为“世界从未见过”的全新系统,专为加速AI模型的查询响应而设计。
就在这番豪言发布前夕,英伟达刚刚交出一份“无死角”的完美财报:
2026财年第四季度营收681亿美元,同比增长73%,创历史新高;GAAP净利润429.6亿美元,同比增长94%;毛利率75%,同比增长2个百分点。
但资本市场的反应却异常冷淡,成绩单公布后,英伟达股价在盘后短暂冲高后迅速回落,次日收跌。数千亿美元市值,在超预期的业绩中悄然蒸发。
一边是创纪录的财务数据,一边是反响平平的资本市场,裂痕背后,是华尔街对这家科技巨头的怀疑:
英伟达的财报是一袭华美的长袍,上面爬满了虱子。
面对重重压力,英伟达自己也心知肚明,不能坐以待毙,基于此,凭借通用图形处理器(GPU)统治了AI训练时代的英伟达,正在以一场斥资200亿美元、融合异质架构的豪赌,向AI战争的下一主战场,推理,发起总攻。
这是一场决定英伟达能否在成本、架构与生态的多重围剿中,延续市场份额神话的“诺曼底登陆”。
AI推理时代, 英伟达面临“三重围剿”
英伟达的焦虑,根植于AI产业竞争重心的转移。
此前,行业处于疯狂堆砌参数的“训练军备竞赛”阶段,而如今,已然集体转向模型落地、智能体普及的“应用绞杀赛”,游戏规则已然改变。客户关心的核心指标,从“能否训练出最强大模型”,急转为每个Token的推理成本是多少。
基于此,英伟达看似坚固的护城河,正面临来自市场、客户与技术的“三重围剿”。
第一重围剿,来自客户对“极致性价比”的追求。
推理是AI模型实际产生价值的环节,其成本直接决定商业模式的生死。OpenAI的动向极具标志性,在承诺成为英伟达新芯片最大客户之一的同时,其已与初创公司Cerebras达成数十亿美元计算合作,并大规模使用亚马逊自研的Trainium芯片。Cerebras CEO直言,其芯片在推理速度上已超越英伟达GPU。
无独有偶,Meta在向英伟达下单仅一周后,便宣布向竞争对手AMD采购高达6吉瓦的算力订单。
不难看到,当客户个个都变成了精算师,通用GPU的高溢价模式便岌岌可危。
第二重围剿,来自客户自身的“赢家通吃,垂直整合”野心,英伟达最大的客户群,如今正变成其最危险的对手。
谷歌的TPU已从内部工具成长为对外服务的核心算力,最新款Gemini模型完全基于TPU训练,亚马逊的Trainium芯片则深度绑定其AWS云服务,形成闭环生态……这些巨头自研芯片的逻辑,不仅是为了降本,更是为了将算力这一最大利润中心内部化,构建排他性优势。
英伟达CFO曾透露,超大规模企业贡献了其数据中心收入的50%以上,但如今,尴尬的是,这根“输血管”本身,正试图自成循环。
第三重围剿,是GPU架构在推理场景的“天然不适”。
GPU为大规模并行计算而生,是训练时代的绝对王者。但在大模型推理,尤其是耗时最长的“解码”(Decode)阶段,其架构并非最优,存在延迟高、能效比相对不足的问题。Groq设计的LPU,专为语言模型推理优化,采用不同的内存与计算架构,在特定场景下实现了数量级的延迟优势。这证明,在推理这片新大陆上,存在更高效的本土化工具。
英伟达的通用GPU,正背负着“全能”带来的沉重包袱。
此外,对英伟达来说,中国市场正神不知鬼不觉地消失。
英伟达CFO此前坦言,虽然获得对华出口H200的许可,但“迄今为止尚未产生任何收入”,且未来是否被允许进口仍是未知数。
与此同时,中国本土生态正加速“去英伟达化”,有消息称,DeepSeek将其最新模型V4代码优先向华为等国内芯片商开放,而非英伟达或AMD。
这意味封锁不仅在剥夺市场,更在催生一个可能并行、且最终会挑战CUDA生态的“新标准”。
因此,英伟达的完美财报其实岌岌可危,前方,是充满暗礁与鱼雷的推理海峡。
收购Groq、推出新芯片,是这艘巨舰转向、加速,并向潜在威胁发起的第一轮舰炮齐射。
三条战线并进,英伟达打响突围战
面对立体围剿,英伟达的应对并非单点突破,而是一场同时在三条战线上展开的、相互关联的全面战争。其核心战略是,在架构上革命,弥补短板;在产品上分化,满足需求;在生态上捆绑,构筑壁垒。
第一条战线,是关乎技术根基的“架构革命”,以“LPU+GPU”的软硬结合,正面迎战专用芯片。
去年底,英伟达以200亿美元现金,完成了对Groq核心技术授权及其核心团队的收购。这笔交易的战略价值,远超财务数字,其核心在于快速获取LPU这一“推理利器”,并将其作为“加速器”,深度整合进英伟达的CUDA+TensorRT-LLM全栈软件生态。
LPU的设计原理与GPU截然不同。它放弃了通用性,专为语言模型推理的确定性与低延迟优化,通过极简指令集、大规模片上SRAM集成,甚至可能采用3D堆叠等先进封装技术,来攻克内存带宽与延迟瓶颈。
GTC即将亮相的新品,或基于下一代Feynman架构,目标正是将LPU的高效与GPU的通用算力结合,打造单位Token成本与延迟均大幅降低的“推理怪兽”。
OpenAI承诺成为其最大客户,也是对这一技术路线的首次、关键押注。
第二条战线,是商业模式的“产品分化”,从“捆绑销售”到“灵活配餐”,防止客户流失。
英伟达历史上首次为Meta大规模提供不捆绑高端GPU的纯CPU服务器,用于其广告推荐等AI工作负载。这一举动看似微小,实则标志着其商业逻辑的转变,从强迫客户购买“标准套餐”,转向允许客户根据负载按需“自助点餐”。
这本质是一种“防御性降价”与生态锁定策略,通过提供更灵活、更具性价比的产品组合,英伟达承认了推理场景的多样性,并以此满足客户对成本的极致追求,避免其因“过度消费”,而彻底转向亚马逊Trainium或谷歌TPU等竞品。
毕竟,没有永恒的朋友,只有永恒的利益。在推理时代,留住客户,比单次交易利润最大化更重要。
第三条战线,是最为隐秘也最牢固的“生态铁幕”,用千亿资本编织排他性联盟。
英伟达正从一家芯片公司,演变为AI生态的中枢与“规则制定者”,其以数百亿美元巨资,深度投资OpenAI、Anthropic等顶尖模型公司,并接近达成战略协议,确保这些定义行业方向的模型,在其Grace Blackwell、Vera Rubin架构上进行训练与推理。
更复杂的资本网络正在展开,在OpenAI最新1100亿美元融资中,英伟达与亚马逊同为关键出资方。随之达成的协议是,OpenAI在亚马逊AWS上使用Trainium芯片,但其无状态API独家托管在微软Azure,而英伟达则提供专属推理算力。
这种“你中有我,我中有你”的交叉持股与业务绑定,构成了一个极高的竞争壁垒。对手面对的已不只是一款芯片,而是一个由资本、协议与共同利益编织的复杂网络。
至此,英伟达的战争蓝图完整浮现:
在技术层,以“LPU+GPU”的融合架构,对抗专用芯片的效率颠覆;在产品层,以灵活组合的性价比方案,抵御客户的价格倒逼;在生态层,以资本为纽带构筑联盟,防御标准的碎片化与分裂。这是一场攻防一体、旨在统治下一个时代的系统战役。
英伟达的推理豪赌将带来蝴蝶效应
大西洋上的一只蝴蝶煽动翅膀,就能引起太平洋上的一场飓风,如今,英伟达的推理豪赌,影响远不止其自身财报。这场战役将重构全球AI算力供应链的权力结构,并为中国算力产业,带来宝贵的的时间窗口。
首先,上游产业链将迎来新一轮技术博弈与订单争夺,若“LPU+GPU”的融合架构成为主流,将对上游核心元器件产生颠覆性需求。
传统的HBM需求可能被对更大规模、更快速度的SRAM需求部分替代或补充,这对三星、SK海力士等存储巨头意味着新的技术路线选择。
同时,为实现LPU与GPU的高效集成,3D堆叠、CoWoS-L等先进封装技术的复杂度与需求将激增,台积电的产能与技术领导地位将进一步巩固,但其面临的产能压力也将空前巨大。
此外,液冷散热、高压供电等基础设施的需求标准也将水涨船高,拉动整个数据中心硬件产业链升级。
其次,竞争格局将演变为“全栈能力”的终极比拼。
英伟达的“软硬结合”模式,将迫使谷歌、亚马逊等巨头加速其从芯片、系统到软件的全栈自研,竞争维度从单点性能扩展到整体解决方案的效率与易用性。
与此同时,这也为聚焦极致场景的创业公司留下生存缝隙,只要能在某个垂直领域将成本或性能优势做到极致,仍可在巨头战争的边缘地带建立“垂直王国”。
对于中国AI算力产业,英伟达的困境与转身,则带来了宝贵的“机遇期”,市场替代窗口已经打开。
英伟达高端芯片在中国市场的缺位,为华为昇腾、海光、沐曦、摩尔线程等国产算力企业提供了练兵场与试错空间,DeepSeek等领先模型公司与国产芯片的深度合作,是构建自主软硬协同生态的关键一步。
国产算力的机会,或将首先出现在对尖端制程依赖相对较低、更强调软件优化和行业理解的推理侧,以及政务、金融、工业等特定行业的模型落地中。
所以,无论英伟达“诺曼底登陆”成功与否,它都标志着一个新时代的开启:
AI算力的竞争,已从GPU晶体管的堆砌,升维为涵盖架构创新、商业模式、资本联盟与地缘角逐的复杂系统战争。
英伟达胜负未分,唯一可以确定的是,这场由巨头掀起的推理战争,必将以更低的成本、更高的效率,加速智能体的普及,催生出一个远超你我今日想象的AI原生世界。
热门跟贴