打开网易新闻 查看精彩图片

4月1日,MLCommons发布了MLPerf Inference v6.0的测试结果。这个被业内视为AI芯片"高考"的基准测试,第一次加入了多模态和视频模型。三家巨头——Nvidia、AMD、Intel——都交了卷,但阅卷老师头疼了:他们用的考卷不一样。

Nvidia搬出了288块GPU的巨型集群,AMD单挑Nvidia的B200/B300,Intel则跑去和桌面显卡较劲。三家都在自己的赛道宣布胜利,真正的横向对比几乎不可能。更蹊跷的是,Google最新的Ironwood TPU和Cerebras这类专用推理芯片,这次集体缺席。

288块GPU:Nvidia的"饱和式攻击"

288块GPU:Nvidia的"饱和式攻击"

Nvidia的打法可以用一个老梗形容:火力不足恐惧症。他们提交了所有新增测试项的结果,包括DeepSeek-R1的交互式场景、多模态模型Qwen3-VL-235B、OpenAI的GPT-OSS-120B,以及文生视频模型WAN-2.2-T2V。

最夸张的配置是四台GB300-NVL72系统通过Quantum-X800 InfiniBand互联,总共288块Blackwell Ultra GPU。这套系统跑出了每秒约249万token的吞吐量,创下MLPerf Inference有史以来最大规模提交记录。

但Nvidia真正想秀的不是硬件堆料,而是软件优化。同样是DeepSeek-R1的服务器场景,六个月前的首次提交和这次相比,性能提升了2.7倍——硬件完全没变。合作方Nebius通过一系列软件层面的调整实现了这一跃升,Nvidia称token生产成本因此被砍掉60%以上。

具体手段包括:把基础计算操作加速并融合,减少GPU空转开销;开源框架Nvidia Dynamo将文本生成的两个阶段(处理输入和生成新token)解耦并分别优化;针对DeepSeek-R1这类"专家混合"模型,Wide Expert Parallel把专家权重分散到更多GPU上,避免单卡成为瓶颈;交互场景下batch size较小时,Multi-Token Prediction一次性生成多个token而非逐个生成。甚至连更老的Llama 3.1 405B,服务器性能也提升了1.5倍。

AMD的"田忌赛马":只打能赢的仗

AMD的"田忌赛马":只打能赢的仗

AMD的策略明显不同。他们选择了单节点8卡配置,对标Nvidia的B200和B300,但刻意避开了DeepSeek-R1和Qwen3-VL这两个新增测试项。

这种选择性提交在基准测试中并不罕见——厂商通常会避开自家架构不擅长的负载。AMD的MI300X和MI350系列在部分传统LLM推理任务上确实有竞争力,但面对需要大规模专家并行的MoE模型,或者多模态的视觉-语言任务,可能暂时还拿不出有说服力的数字。

Intel的路径更偏门。他们拿数据中心GPU Max系列去和Nvidia的RTX Pro工作站显卡对比,本质上是在找一个自己能赢的细分市场。这种错位竞争在MLPerf历史上多次出现,但读者需要清醒认识到:不同市场定位的产品,数字再漂亮也不具备直接可比性。

缺席者比参赛者更值得玩味

缺席者比参赛者更值得玩味

这次测试的沉默者名单,比提交者更有信息量。Google的Ironwood TPU——被官方称为"专为推理设计"的下一代芯片——完全没有露面。考虑到Ironwood在今年初才正式发布,Google可能还在调试软件栈,或者对当前性能不够自信。

Cerebras的缺席同样耐人寻味。这家以晶圆级芯片闻名的公司,一直在鼓吹其WSE-3在推理吞吐量上的优势。但MLPerf的测试规则要求提交可复现的标准化结果,Cerebras的自定义软件栈和稀疏计算模式,可能暂时还无法适配这套评价体系。

这种"叫好不叫座"的现象在AI芯片圈反复上演:专用架构在特定场景下理论效率极高,但面对真实世界的多样化负载,通用GPU的灵活性往往更占上风。

软件优化还能榨出多少油水?

软件优化还能榨出多少油水?

Nvidia的2.7倍纯软件提升,揭示了一个被低估的行业现实:AI推理的性能天花板,远不只是晶体管数量和内存带宽。同样的Blackwell硬件,六个月前后的表现天差地别,说明软件栈的成熟度正在成为新的竞争壁垒。

这对追赶者既是机会也是陷阱。机会在于,硬件差距可以通过软件优化部分弥补;陷阱在于,Nvidia的CUDA生态和配套工具链积累了近20年,短期难以复制。AMD的ROCm和Intel的oneAPI都在快速迭代,但每当他们追上一个版本,Nvidia又发布了新的优化路径。

DeepSeek-R1这类MoE模型的兴起,让软件优化的复杂度再上台阶。传统Dense模型所有参数同时激活,而MoE每次只调用部分"专家"子网络,这对并行策略、内存调度和负载均衡都提出了新要求。Nvidia的Wide Expert Parallel方案,本质上是在用更多的GPU来摊薄单个专家的内存压力——这又回到了那个老问题:算力换效率,堆料换性能。

MLPerf Inference v6.0的另一个信号是测试负载的多元化。从纯文本到视觉-语言,再到视频生成,AI模型的输入输出形态正在爆炸式增长。这对芯片架构的通用性提出了更高要求,也可能让专用推理芯片的设计更加困难——你今天优化的场景,明年可能就被新模型架构颠覆。

当Nvidia用288块GPU重新定义"规模"的边界时,AMD和Intel的选择或许暗示了另一种生存策略:不在正面战场硬碰硬,而是找到自己的生态位。但问题是,这个生态位会不会随着模型规模的持续膨胀而不断收窄?