200亿美元重注LPU，英伟达上演AI推理界“诺曼底登陆”|amd|gpu|推理|英伟达|诺曼底登陆

文 | 超前实验室，作者｜西西弗柿

就在刚刚，英伟达放大招，一石激起千层浪：

据华尔街日报报道，其计划在下个月的GTC开发者大会上发布一款整合了Groq“语言处理单元”（LPU）技术的全新推理芯片，这款被英伟达首席执行官黄仁勋称为“世界从未见过”的全新系统，专为加速AI模型的查询响应而设计。

就在这番豪言发布前夕，英伟达刚刚交出一份“无死角”的完美财报：

2026财年第四季度营收681亿美元，同比增长73%，创历史新高；GAAP净利润429.6亿美元，同比增长94%；毛利率75%，同比增长2个百分点。

但资本市场的反应却异常冷淡，成绩单公布后，英伟达股价在盘后短暂冲高后迅速回落，次日收跌。数千亿美元市值，在超预期的业绩中悄然蒸发。

一边是创纪录的财务数据，一边是反响平平的资本市场，裂痕背后，是华尔街对这家科技巨头的怀疑：
英伟达的财报是一袭华美的长袍，上面爬满了虱子。

面对重重压力，英伟达自己也心知肚明，不能坐以待毙，基于此，凭借通用图形处理器（GPU）统治了AI训练时代的英伟达，正在以一场斥资200亿美元、融合异质架构的豪赌，向AI战争的下一主战场，推理，发起总攻。

这是一场决定英伟达能否在成本、架构与生态的多重围剿中，延续市场份额神话的“诺曼底登陆”。

AI推理时代， 英伟达面临“三重围剿”

英伟达的焦虑，根植于AI产业竞争重心的转移。

此前，行业处于疯狂堆砌参数的“训练军备竞赛”阶段，而如今，已然集体转向模型落地、智能体普及的“应用绞杀赛”，游戏规则已然改变。客户关心的核心指标，从“能否训练出最强大模型”，急转为每个Token的推理成本是多少。

基于此，英伟达看似坚固的护城河，正面临来自市场、客户与技术的“三重围剿”。

第一重围剿，来自客户对“极致性价比”的追求。

推理是AI模型实际产生价值的环节，其成本直接决定商业模式的生死。OpenAI的动向极具标志性，在承诺成为英伟达新芯片最大客户之一的同时，其已与初创公司Cerebras达成数十亿美元计算合作，并大规模使用亚马逊自研的Trainium芯片。Cerebras CEO直言，其芯片在推理速度上已超越英伟达GPU。

无独有偶，Meta在向英伟达下单仅一周后，便宣布向竞争对手AMD采购高达6吉瓦的算力订单。

不难看到，当客户个个都变成了精算师，通用GPU的高溢价模式便岌岌可危。

第二重围剿，来自客户自身的“赢家通吃，垂直整合”野心，英伟达最大的客户群，如今正变成其最危险的对手。

谷歌的TPU已从内部工具成长为对外服务的核心算力，最新款Gemini模型完全基于TPU训练，亚马逊的Trainium芯片则深度绑定其AWS云服务，形成闭环生态……这些巨头自研芯片的逻辑，不仅是为了降本，更是为了将算力这一最大利润中心内部化，构建排他性优势。

英伟达CFO曾透露，超大规模企业贡献了其数据中心收入的50%以上，但如今，尴尬的是，这根“输血管”本身，正试图自成循环。

第三重围剿，是GPU架构在推理场景的“天然不适”。

GPU为大规模并行计算而生，是训练时代的绝对王者。但在大模型推理，尤其是耗时最长的“解码”（Decode）阶段，其架构并非最优，存在延迟高、能效比相对不足的问题。Groq设计的LPU，专为语言模型推理优化，采用不同的内存与计算架构，在特定场景下实现了数量级的延迟优势。这证明，在推理这片新大陆上，存在更高效的本土化工具。

英伟达的通用GPU，正背负着“全能”带来的沉重包袱。

此外，对英伟达来说，中国市场正神不知鬼不觉地消失。

英伟达CFO此前坦言，虽然获得对华出口H200的许可，但“迄今为止尚未产生任何收入”，且未来是否被允许进口仍是未知数。

与此同时，中国本土生态正加速“去英伟达化”，有消息称，DeepSeek将其最新模型V4代码优先向华为等国内芯片商开放，而非英伟达或AMD。

这意味封锁不仅在剥夺市场，更在催生一个可能并行、且最终会挑战CUDA生态的“新标准”。

因此，英伟达的完美财报其实岌岌可危，前方，是充满暗礁与鱼雷的推理海峡。

收购Groq、推出新芯片，是这艘巨舰转向、加速，并向潜在威胁发起的第一轮舰炮齐射。

三条战线并进，英伟达打响突围战

面对立体围剿，英伟达的应对并非单点突破，而是一场同时在三条战线上展开的、相互关联的全面战争。其核心战略是，在架构上革命，弥补短板；在产品上分化，满足需求；在生态上捆绑，构筑壁垒。

第一条战线，是关乎技术根基的“架构革命”，以“LPU+GPU”的软硬结合，正面迎战专用芯片。

去年底，英伟达以200亿美元现金，完成了对Groq核心技术授权及其核心团队的收购。这笔交易的战略价值，远超财务数字，其核心在于快速获取LPU这一“推理利器”，并将其作为“加速器”，深度整合进英伟达的CUDA+TensorRT-LLM全栈软件生态。

LPU的设计原理与GPU截然不同。它放弃了通用性，专为语言模型推理的确定性与低延迟优化，通过极简指令集、大规模片上SRAM集成，甚至可能采用3D堆叠等先进封装技术，来攻克内存带宽与延迟瓶颈。

GTC即将亮相的新品，或基于下一代Feynman架构，目标正是将LPU的高效与GPU的通用算力结合，打造单位Token成本与延迟均大幅降低的“推理怪兽”。

OpenAI承诺成为其最大客户，也是对这一技术路线的首次、关键押注。

第二条战线，是商业模式的“产品分化”，从“捆绑销售”到“灵活配餐”，防止客户流失。

英伟达历史上首次为Meta大规模提供不捆绑高端GPU的纯CPU服务器，用于其广告推荐等AI工作负载。这一举动看似微小，实则标志着其商业逻辑的转变，从强迫客户购买“标准套餐”，转向允许客户根据负载按需“自助点餐”。

这本质是一种“防御性降价”与生态锁定策略，通过提供更灵活、更具性价比的产品组合，英伟达承认了推理场景的多样性，并以此满足客户对成本的极致追求，避免其因“过度消费”，而彻底转向亚马逊Trainium或谷歌TPU等竞品。

毕竟，没有永恒的朋友，只有永恒的利益。在推理时代，留住客户，比单次交易利润最大化更重要。

第三条战线，是最为隐秘也最牢固的“生态铁幕”，用千亿资本编织排他性联盟。

英伟达正从一家芯片公司，演变为AI生态的中枢与“规则制定者”，其以数百亿美元巨资，深度投资OpenAI、Anthropic等顶尖模型公司，并接近达成战略协议，确保这些定义行业方向的模型，在其Grace Blackwell、Vera Rubin架构上进行训练与推理。

更复杂的资本网络正在展开，在OpenAI最新1100亿美元融资中，英伟达与亚马逊同为关键出资方。随之达成的协议是，OpenAI在亚马逊AWS上使用Trainium芯片，但其无状态API独家托管在微软Azure，而英伟达则提供专属推理算力。

这种“你中有我，我中有你”的交叉持股与业务绑定，构成了一个极高的竞争壁垒。对手面对的已不只是一款芯片，而是一个由资本、协议与共同利益编织的复杂网络。

至此，英伟达的战争蓝图完整浮现：

在技术层，以“LPU+GPU”的融合架构，对抗专用芯片的效率颠覆；在产品层，以灵活组合的性价比方案，抵御客户的价格倒逼；在生态层，以资本为纽带构筑联盟，防御标准的碎片化与分裂。这是一场攻防一体、旨在统治下一个时代的系统战役。

英伟达的推理豪赌将带来蝴蝶效应

大西洋上的一只蝴蝶煽动翅膀，就能引起太平洋上的一场飓风，如今，英伟达的推理豪赌，影响远不止其自身财报。这场战役将重构全球AI算力供应链的权力结构，并为中国算力产业，带来宝贵的的时间窗口。

首先，上游产业链将迎来新一轮技术博弈与订单争夺，若“LPU+GPU”的融合架构成为主流，将对上游核心元器件产生颠覆性需求。

传统的HBM需求可能被对更大规模、更快速度的SRAM需求部分替代或补充，这对三星、SK海力士等存储巨头意味着新的技术路线选择。

同时，为实现LPU与GPU的高效集成，3D堆叠、CoWoS-L等先进封装技术的复杂度与需求将激增，台积电的产能与技术领导地位将进一步巩固，但其面临的产能压力也将空前巨大。

此外，液冷散热、高压供电等基础设施的需求标准也将水涨船高，拉动整个数据中心硬件产业链升级。

其次，竞争格局将演变为“全栈能力”的终极比拼。

英伟达的“软硬结合”模式，将迫使谷歌、亚马逊等巨头加速其从芯片、系统到软件的全栈自研，竞争维度从单点性能扩展到整体解决方案的效率与易用性。

与此同时，这也为聚焦极致场景的创业公司留下生存缝隙，只要能在某个垂直领域将成本或性能优势做到极致，仍可在巨头战争的边缘地带建立“垂直王国”。

对于中国AI算力产业，英伟达的困境与转身，则带来了宝贵的“机遇期”，市场替代窗口已经打开。

英伟达高端芯片在中国市场的缺位，为华为昇腾、海光、沐曦、摩尔线程等国产算力企业提供了练兵场与试错空间，DeepSeek等领先模型公司与国产芯片的深度合作，是构建自主软硬协同生态的关键一步。

国产算力的机会，或将首先出现在对尖端制程依赖相对较低、更强调软件优化和行业理解的推理侧，以及政务、金融、工业等特定行业的模型落地中。

所以，无论英伟达“诺曼底登陆”成功与否，它都标志着一个新时代的开启：

AI算力的竞争，已从GPU晶体管的堆砌，升维为涵盖架构创新、商业模式、资本联盟与地缘角逐的复杂系统战争。

英伟达胜负未分，唯一可以确定的是，这场由巨头掀起的推理战争，必将以更低的成本、更高的效率，加速智能体的普及，催生出一个远超你我今日想象的AI原生世界。

200亿美元重注LPU，英伟达上演AI推理界“诺曼底登陆”

热搜

热门跟贴

热搜

热门跟贴

相关推荐

算力告急！SemiAnalysis深度解读：从GPU到内存再到光纤，AI供应链全线紧绷价格齐头并进

奥特曼预言与现实相差几何？12个顶级模型“创业”一年，仅3个存活

营收高增七成、端侧AI布局成型，黑芝麻智能开启高质量发展新阶段

奥特曼亲自揭晓：为什么关停Sora、五角大楼封禁Claude幕后

ColaVLA：自动驾驶大模型，不一定非要把「思考过程」写成文字

杨立昆发布史上最“轻”世界模型，单GPU可训，规划速度提升48倍

天下苦CUDA久矣，又一国产方案上桌了

Meta-Harness让Haiku性能狂飙，甚至追平Opus！

Sakana AI造了个数字生命「培养皿」，AI学会打架、结盟、抢地盘

5小时众筹破百万美金，Tiiny AI为什么能卖爆

黄仁勋：AGI时代已经到来，“龙虾开公司”不是梦！

机器人版GPT-3来了：任务成功率99%，「涌现」过后能临场发挥

ApdativeNN：建模类人自适应感知机制，突破机器视觉不可能三角

满地“小板凳”

算力太紧俏！英伟达四年前发布的H100租赁费用近半年飙升近40%

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

在美国硅谷，华人斗不过印度人的历史，被终结了

不愧是刘罗锅，推理真仔细

Valve放话：Steam Deck 2等一颗不存在的芯片

英伟达把编译时间从3分钟压到0秒，玩家却不敢开