打开网易新闻 查看精彩图片

2024年全球AI推理芯片市场规模约摸190亿美元,Nvidia一家吃掉九成。剩下那10%里,AMD、Intel、各路初创公司打得头破血流。现在SambaNova和Intel突然宣布"组队",搞了个异构推理平台——三家芯片各干各的活,专挑Nvidia没空管的缝隙下手。

这事的诡异之处在于:SambaNova和Intel明明是竞争对手,都在卖AI芯片。但面对Nvidia的CUDA生态护城河,他俩选择暂时放下恩怨,先把蛋糕做大。

30千瓦机柜里的"分工协作"

30千瓦机柜里的"分工协作"

这套架构的核心逻辑是把AI推理拆成三段流水线。第一段"预填充"(prefill)扔给GPU或AI加速器,处理长文本输入、构建键值缓存;第二段"解码"(decode)交给SambaNova的SN50 RDU(可重构数据流单元),专门生成token;第三段"智能体执行"(agentic execution)则由Intel Xeon 6 CPU包揽,跑代码编译、结果验证、任务调度这些杂活。

SambaNova的SN50 RDU是个有意思的东西。它不像GPU那样追求通用计算,而是把芯片逻辑重构成数据流架构,解码吞吐量比传统方案高出一大截。Intel这边押注的是Xeon 6在特定场景的性能——LLVM编译速度比Arm服务器CPU快50%以上,向量数据库 workload 比AMD EPYC高70%。

两家公司的算盘很清楚:不是每家企业都需要买H100/H200去跑推理。大量企业的数据中心机柜功率上限卡在30千瓦,Nvidia的DGX系统动辄40千瓦起步,根本塞不进去。SambaNova SN50加Xeon的组合,号称能在30千瓦机柜里"即插即用"。

2026年下半年才交货,晚不晚?

2026年下半年才交货,晚不晚?

平台量产时间定在2026年下半年。这个节点很微妙——Nvidia的Rubin架构也在2026年亮相,同样采用预填充/解码分离的设计思路。区别在于Rubin的CPX(预填充专用芯片)是Nvidia自家闭环,而Intel-SambaNova是开放联盟。

开放联盟的麻烦在于协调成本。三颗芯片来自三家厂商,驱动、编译器、调度层都要打通。SambaNova CEO Rodrigo Liang的原话是:「数据中心软件生态建立在x86之上,而x86运行在Xeon上——这提供了成熟、经过验证的基础。」翻译一下:我们不想重写软件栈,所以抱紧Intel大腿。

Intel的动机更直白。独立AI加速器市场打不过Nvidia,那就把Xeon 6塞进"智能体执行"这个新兴场景。代码生成、工具调用、结果验证——这些任务CPU干起来比GPU顺手,还能顺便卖服务器芯片。

主权AI和私有部署的赌注

主权AI和私有部署的赌注

两家公司的目标客户画像是:不想把数据送出国门的主权AI项目、对延迟敏感的金融/医疗企业、以及想完全掌控基础设施的云运营商。这类客户的核心诉求不是峰值算力,而是"可控成本下的确定性"。

SambaNova的定价策略一向比Nvidia激进。SN30系列在部分推理场景的价格性能比号称达到H100的十分之一。这次联盟如果能把"三芯片协作"的复杂度藏到软件层背后,对价格敏感型企业确实有吸引力。

但风险同样明显。2026年下半年量产意味着客户要等一年半,届时Nvidia的Rubin可能已经铺货,AMD的MI350系列也会全面上市。异构架构的软件成熟度能否跟上硬件节奏,是最大未知数。

SambaNova产品副总裁Amy Love在采访中提到一个细节:早期测试客户里,有家大型银行把代码生成 agent 的端到端延迟从分钟级压到了秒级。他们没有透露具体数字,只说"开发周期缩短显著"。

这个案例或许解释了联盟的底气——不是所有AI workload 都要追求万亿参数大模型。大量企业场景需要的是"够用且便宜"的推理基础设施。Intel和SambaNova赌的是:当Nvidia向上攀爬性能巅峰时,中腰部的市场缝隙会自然裂开。

2026年的推理芯片市场,会出现多少愿意把三颗不同厂商的芯片塞进同一个机柜的客户?