Nvidia用288块GPU刷榜，AMD和Intel却各打各的|amd|gpu|nvidia|内存|显卡|英特尔

4月1日，MLCommons发布了MLPerf Inference v6.0的测试结果。这个被业内视为AI芯片"高考"的基准测试，第一次加入了多模态和视频模型。三家巨头——Nvidia、AMD、Intel——都交了卷，但阅卷老师头疼了：他们用的考卷不一样。

Nvidia搬出了288块GPU的巨型集群，AMD单挑Nvidia的B200/B300，Intel则跑去和桌面显卡较劲。三家都在自己的赛道宣布胜利，真正的横向对比几乎不可能。更蹊跷的是，Google最新的Ironwood TPU和Cerebras这类专用推理芯片，这次集体缺席。

288块GPU：Nvidia的"饱和式攻击"

Nvidia的打法可以用一个老梗形容：火力不足恐惧症。他们提交了所有新增测试项的结果，包括DeepSeek-R1的交互式场景、多模态模型Qwen3-VL-235B、OpenAI的GPT-OSS-120B，以及文生视频模型WAN-2.2-T2V。

最夸张的配置是四台GB300-NVL72系统通过Quantum-X800 InfiniBand互联，总共288块Blackwell Ultra GPU。这套系统跑出了每秒约249万token的吞吐量，创下MLPerf Inference有史以来最大规模提交记录。

但Nvidia真正想秀的不是硬件堆料，而是软件优化。同样是DeepSeek-R1的服务器场景，六个月前的首次提交和这次相比，性能提升了2.7倍——硬件完全没变。合作方Nebius通过一系列软件层面的调整实现了这一跃升，Nvidia称token生产成本因此被砍掉60%以上。

具体手段包括：把基础计算操作加速并融合，减少GPU空转开销；开源框架Nvidia Dynamo将文本生成的两个阶段（处理输入和生成新token）解耦并分别优化；针对DeepSeek-R1这类"专家混合"模型，Wide Expert Parallel把专家权重分散到更多GPU上，避免单卡成为瓶颈；交互场景下batch size较小时，Multi-Token Prediction一次性生成多个token而非逐个生成。甚至连更老的Llama 3.1 405B，服务器性能也提升了1.5倍。

AMD的"田忌赛马"：只打能赢的仗

AMD的策略明显不同。他们选择了单节点8卡配置，对标Nvidia的B200和B300，但刻意避开了DeepSeek-R1和Qwen3-VL这两个新增测试项。

这种选择性提交在基准测试中并不罕见——厂商通常会避开自家架构不擅长的负载。AMD的MI300X和MI350系列在部分传统LLM推理任务上确实有竞争力，但面对需要大规模专家并行的MoE模型，或者多模态的视觉-语言任务，可能暂时还拿不出有说服力的数字。

Intel的路径更偏门。他们拿数据中心GPU Max系列去和Nvidia的RTX Pro工作站显卡对比，本质上是在找一个自己能赢的细分市场。这种错位竞争在MLPerf历史上多次出现，但读者需要清醒认识到：不同市场定位的产品，数字再漂亮也不具备直接可比性。

缺席者比参赛者更值得玩味

这次测试的沉默者名单，比提交者更有信息量。Google的Ironwood TPU——被官方称为"专为推理设计"的下一代芯片——完全没有露面。考虑到Ironwood在今年初才正式发布，Google可能还在调试软件栈，或者对当前性能不够自信。

Cerebras的缺席同样耐人寻味。这家以晶圆级芯片闻名的公司，一直在鼓吹其WSE-3在推理吞吐量上的优势。但MLPerf的测试规则要求提交可复现的标准化结果，Cerebras的自定义软件栈和稀疏计算模式，可能暂时还无法适配这套评价体系。

这种"叫好不叫座"的现象在AI芯片圈反复上演：专用架构在特定场景下理论效率极高，但面对真实世界的多样化负载，通用GPU的灵活性往往更占上风。

软件优化还能榨出多少油水？

Nvidia的2.7倍纯软件提升，揭示了一个被低估的行业现实：AI推理的性能天花板，远不只是晶体管数量和内存带宽。同样的Blackwell硬件，六个月前后的表现天差地别，说明软件栈的成熟度正在成为新的竞争壁垒。

这对追赶者既是机会也是陷阱。机会在于，硬件差距可以通过软件优化部分弥补；陷阱在于，Nvidia的CUDA生态和配套工具链积累了近20年，短期难以复制。AMD的ROCm和Intel的oneAPI都在快速迭代，但每当他们追上一个版本，Nvidia又发布了新的优化路径。

DeepSeek-R1这类MoE模型的兴起，让软件优化的复杂度再上台阶。传统Dense模型所有参数同时激活，而MoE每次只调用部分"专家"子网络，这对并行策略、内存调度和负载均衡都提出了新要求。Nvidia的Wide Expert Parallel方案，本质上是在用更多的GPU来摊薄单个专家的内存压力——这又回到了那个老问题：算力换效率，堆料换性能。

MLPerf Inference v6.0的另一个信号是测试负载的多元化。从纯文本到视觉-语言，再到视频生成，AI模型的输入输出形态正在爆炸式增长。这对芯片架构的通用性提出了更高要求，也可能让专用推理芯片的设计更加困难——你今天优化的场景，明年可能就被新模型架构颠覆。

当Nvidia用288块GPU重新定义"规模"的边界时，AMD和Intel的选择或许暗示了另一种生存策略：不在正面战场硬碰硬，而是找到自己的生态位。但问题是，这个生态位会不会随着模型规模的持续膨胀而不断收窄？