打开网易新闻 查看精彩图片

AI推理——运行训练好的模型来提供输出——已成为该行业的新盈利中心。主要芯片制造商正在争相优化延迟、功耗和成本,推动向通用GPU与专用硅芯片配对的转变,并收购构建这些技术所需的工程人才。

英伟达与Groq价值200亿美元的许可协议突显了这一转向。AMD已收购了Untether AI的工程团队,英特尔正在寻求收购SambaNova,据报道其估值约为16亿美元。分析师表示,行业整合不会关闭市场;需求扩大的程度足以让现有企业和初创公司在数据中心和边缘部署中竞争。

Moor Insights & Strategy数据中心副总裁兼首席分析师Matt Kimball表示:"大公司正在投资加强其推理产品组合,既通过产品也通过收购工程人才。但会有很多芯片初创公司出现,它们将发挥重要作用。"

为什么推理是盈利中心

Cambrian AI Research创始人兼首席分析师Karl Freund表示,推理与训练在经济性和性能要求方面根本不同。训练AI模型是成本中心,而推理是直接产生收入的"盈利中心"。

Freund和Kimball指出,虽然GPU提供出色的性能,但它们通常具有为训练优化的架构特性,这些特性在纯推理用例中并不总是能转化为更低的延迟或更高的效率。专用推理芯片——ASIC和其他加速器——可以提供更快的响应、改进的能效和更低的总拥有成本。

"作为盈利中心,如果你有良好的延迟,你将获得更多收入,因为人们希望尽可能快速的响应,而且你希望成本尽可能低,"Freund说。

2026年:从试点到企业生产

分析师表示,以英伟达为主导、AMD逐渐增强实力的GPU在大规模训练和推理中占主导地位,并将继续在最大工作负载中领先。然而,推理需求激增正在创造GPU之外的机会,特别是主流企业今年从试点扩展到生产时。

"你将开始看到规模不是100,000名员工,而是10,000名员工的小公司,开始在制造、后台、前台和边缘激活AI,"Kimball说。这些组织面临功耗限制、冷却约束和持续的GPU供应挑战,使得GPU密集型集群在许多环境中不实用。

"当你部署GB200或H100时,你部署的是千瓦级的设备,"Kimball指出。"零售环境功耗预算有限,没有良好的冷却系统,所以你无法运行GPU机架。你需要寻找其他部署方案。"

对于较小的公司,如拥有100家分支机构的银行,总拥有成本和功耗预算是优先考虑因素,为专注于推理的初创公司创造了满足其需求的机会。"这是芯片初创公司的重大机会,"Kimball说。"它满足了当前厂商无法满足的客户需求,要么是因为可用性问题,要么是因为特定的性能功耗要求。"

随着推理增长,市场呈现多样化

Freund表示,虽然GPU仍是目前推理的最佳通用解决方案,但市场正在向AWS、Google和初创公司的ASIC和替代架构转移。

根据Futurum Group 2025年11月的调查,2025年GPU占数据中心计算支出的58%;2026年,XPU——既不是GPU也不是CPU的处理器,如ASIC和定制加速器——预计将以22%的增长率领先,超过GPU(19%)和CPU(14%)。

Futurum Group半导体、供应链和新兴技术研究总监Brendan Burke表示:"随着推理工作负载在Token输出方面超过训练工作负载的总量,将更需要多样性,因为替代XPU架构可以在某些特定推理任务上实现更好的效率。"

超大规模厂商和硅供应商的策略

AWS展示了不断扩大的需求。这家超大规模厂商支持英伟达、AMD和英特尔芯片用于AI工作负载,同时也提供定制芯片给客户选择,AWS技术总监Shaown Nandi表示。许多客户青睐英伟达的CUDA优化模型,而其他客户越来越多地采用AWS的Trainium以获得性价比和效率,Nandi补充道。

"两者都有很大需求,"他解释说。"Bedrock(AWS推理服务)上近50%的Token运行在我们的Trainium芯片上。"

英伟达已认识到专用推理处理器的需求。2024年,高管表示其数据中心收入约40%来自推理。2025年9月,英伟达宣布推出Rubin CPX,这是为超大规模和大型企业部署中的大规模上下文推理设计的GPU,特别是在解码前处理提示的预填充阶段。英伟达与Groq的许可协议旨在将快速、低延迟、低成本的推理集成到其AI工厂架构中;CNBC报道计划整合Groq的低延迟处理器以支持更广泛的实时推理。

英特尔除了计划收购SambaNova外,还在追求多种推理选择。该公司通过AMX加速器增强了其Xeon CPU,并为推理工作负载提供专用的Gaudi AI加速器。"今天很多推理发生在CPU上。明天很多推理仍将发生在CPU上,"Kimball说。

AMD通过收购Untether AI工程团队,并在2025年11月收购推理初创公司MK1来增强实力。MK1开发优化AMD GPU在大规模企业部署中进行高速推理和推理的软件。

Freund在2025年12月的博客文章中表示,Google的最新TPU芯片将成为推理的有力竞争者,而高通即将推出的AI200和AI250芯片承诺大容量内存和更低成本,可能成为引人注目的数据中心选择。

值得关注的初创公司

推理机会涵盖数据中心和边缘,要求因工作负载和部署而大不相同。"你在自动驾驶汽车中进行的推理与在线客服机器人中的推理完全不同,"Kimball说。

Tirias Research首席分析师Jim McGregor指出,推理机会存在于任何有计算的地方,包括智能手机、PC和汽车。"没有两个工作负载是相同的,但我们将看到针对不同工作负载类型的多种不同AI加速器,"他说。"市场仍处于早期阶段,仍有很多厂商的空间。"

Freund预测2026年大部分推理仍将在数据中心而非边缘运行。

数据中心推理挑战者包括Cerebras和Tenstorrent。Cerebras成立于2015年,大约一年前开始在其晶圆级芯片上提供推理能力。其系统可以通过软件在训练和推理模式之间切换,目前约70%的工作负载专注于推理,Cerebras产品和战略高级副总裁Andy Hock表示。训练仍占该公司大部分收入。

Tenstorrent成立于2016年,由帮助设计AMD Zen架构的Jim Keller领导,正在构建基于RISC-V的AI推理处理器。

韩国NPU体现了边缘到数据中心的多样性。Kimball表示,FuriosaAI以节能NPU架构和LG等主要客户而闻名。据报道该公司在2025年拒绝了Meta的收购提议。另一家韩国初创公司Rebellions以其ARM技术和来自ARM和Samsung Ventures的重要资金而闻名。

初创公司还在解决推理性能的核心内存和网络瓶颈。开发RISC-V芯片设计的SiFive于2025年9月推出其Intelligence系列协处理器的第二代,旨在最小化其AI CPU中的内存延迟。NeuReality于2025年9月推出其NR2 AI-SuperNIC,这是支持Ultra Ethernet Consortium规范进行横向扩展计算的网络接口卡。据Freund称,d-Matrix开发的内存解决方案可以以更低成本运行速度比高带宽内存快四倍。

市场展望

分析师预期英伟达将在训练和推理中保持主导地位,但多样化的要求为专用解决方案创造了获得份额的空间。McGregor对初创公司在快速技术变革中的前景持谨慎态度,并预期会有更多整合。虽然Groq已取得成功,但其他早期初创公司却举步维艰。除了AMD收购Untether AI和软银收购Graphcore外,McGregor指出,考虑到SambaNova此前融资11亿美元,据报道16亿美元的出售代表了一次"甩卖"。

GPU仍占主导地位,因为它是通用且多功能的。"这就是GPU仍然称王的原因。它是可编程的,"McGregor说。"你可以改变它、分叉它,并同时运行多个模型。"

Kimball持不同观点,预期2026年主流企业采用将释放对推理为中心的初创公司的需求。"当推理市场实现时,这些初创公司会做得更好,"他说。他预期通用推理芯片和专业垂直解决方案都有机会。

总的来说,Kimball表示,专用推理芯片的优势——更低成本、减少功耗和强劲性能——创造了重大机会。当前的初创公司能否利用这些机会仍有待观察。"这是一个丰富而充满活力的初创公司场景,"他说。"有如此多的机会、如此多的创新正在进行,而且仍处于游戏的早期阶段。"

Q&A

Q1:AI推理和AI训练有什么区别?

A:AI推理是运行训练好的模型来提供输出,而训练是构建模型的过程。推理与训练在经济性和性能要求方面根本不同。训练AI模型是成本中心,而推理是直接产生收入的"盈利中心"。推理需要更低的延迟、更高的效率和更低的总拥有成本。

Q2:为什么专用推理芯片比GPU更有优势?

A:虽然GPU提供出色的性能,但它们通常具有为训练优化的架构特性,在纯推理用例中并不总是能转化为更低的延迟或更高的效率。专用推理芯片如ASIC和其他加速器可以提供更快的响应、改进的能效和更低的总拥有成本,特别适合对延迟要求严格的应用场景。

Q3:哪些公司在推理芯片市场值得关注?

A:数据中心推理挑战者包括Cerebras和Tenstorrent。韩国的FuriosaAI以节能NPU架构闻名,Rebellions以ARM技术著称。此外还有专门解决内存和网络瓶颈的初创公司,如SiFive、NeuReality和d-Matrix等,它们都在不同领域提供专业化的推理解决方案。