打开网易新闻 查看精彩图片

博通2026年3月财报里藏着一个数字:70%的新建AI基础设施正在抛弃InfiniBand,转向以太网。这不是技术迭代,是一场被提前宣判的 ecosystem verdict(生态系统裁决)。

InfiniBand的延迟优势还在,RDMA(远程直接内存访问)的实现依然领先。但企业采购清单上的勾选项,正在集体位移。

「技术优越」为何输给「生态通吃」

「技术优越」为何输给「生态通吃」

InfiniBand的困境,像极了当年黑莓的结局。键盘手感再好,也挡不住触屏生态的碾压。

博通CEO Hock Tan在财报电话会上没有掩饰判断:「 hyperscalers 的选择已经明确,这不是性能测试的结果,是运营现实的投票。」AWS、Google、Microsoft 的AI后端网络,全部基于以太网架构搭建。当全球最大的训练集群都跑在一种 fabric(网络架构)上,工具链、运维经验、人才储备会形成复利效应。

一个具体场景:某团队在云端用GPU做完大模型训练,准备把 workload 迁回本地数据中心。如果本地选InfiniBand,网络工程师要重新学一套完全不同的运维体系——从CLI命令到故障排查逻辑,从监控指标到扩容流程。这种 operational discontinuity(运营断层),在人才紧缺的当下,直接劝退多数CTO。

Ultra Ethernet Consortium(超以太网联盟)的成立,把趋势变成了标准。AMD、Broadcom、Cisco、HPE、Intel、Meta、Microsoft 组成的联盟,正在把InfiniBand的原生能力——拥塞控制、按序交付、多路径传输—— engineered into Ethernet as open standards(作为开放标准工程化进以太网)。

InfiniBand的技术护城河,正在被「开放标准+生态规模」填平。

这不是说InfiniBand变慢了。是它的「快」被锁在了一个越来越小的场景里:tightly coupled, homogeneous, single-vendor GPU clusters(紧耦合、同构、单厂商GPU集群),运行大规模分布式训练,且环境完全可控。

问题是,企业AI的实际运行环境,恰恰是多厂商、异构、推理与训练混合、云边端协同的复杂地形。

NVIDIA的平台绑定策略,成了双刃剑

NVIDIA的平台绑定策略,成了双刃剑

NVIDIA把InfiniBand打包成平台承诺,而非单纯的网络选项。GPU、网卡、交换机、软件栈深度耦合,确实能榨出性能极限。

但这份「一体化」的代价,采购部门算得清楚:选InfiniBand等于押注单一供应商的路线图。未来若想引入AMD MI300X做推理、或用Intel Gaudi做特定 workload,fabric 层会成为硬边界。

打开网易新闻 查看精彩图片

一位云厂商网络架构师向我描述过决策过程:「我们评估过InfiniBand的延迟数据,很漂亮。但HR告诉我们,招一个资深InfiniBand工程师的周期是6个月,以太网背景的人随时能上岗。这个账没法不算。」

InfiniBand需要独立的工具链、独立的技能栈、独立的运营模型。而企业的网络工程师懂以太网,云工程师懂以太网,甚至安全团队的安全策略也是围绕以太网设计的。

这种「一切都要另起炉灶」的隐性成本,在预算紧缩的2025-2026年,被放大了。

NVIDIA的InfiniBand生态,本质上是一个 Mellanox 遗产的封闭花园。交换机网卡、线缆、驱动、管理工具,全部绑定单一厂商。

当企业开始规划 multi-vendor GPU environments(多厂商GPU环境)、heterogeneous inference hardware(异构推理硬件)、future silicon decisions(未来芯片选型)时,今天的 fabric 选择会成为明天的枷锁。

RoCEv2的「足够好」,正在吃掉高端市场

RoCEv2的「足够好」,正在吃掉高端市场

RoCEv2(RDMA over Converged Ethernet version 2,融合以太网RDMA第二版)不是新技术。2014年发布至今,它一直在InfiniBand的阴影里扮演「平民替代」。

转折发生在超大规模部署的倒逼下。AWS的EFA(Elastic Fabric Adapter)、Google的IPU网络、Azure的NDv2系列,全部基于RoCEv2或其变种。这些生产环境的打磨,让RoCEv2的稳定性、可观测性、故障恢复能力,经历了InfiniBand实验室环境无法模拟的淬炼。

博通财报中的70%,是一个滞后指标。真正的决策发生在18-24个月前——当 hyperscalers 的架构评审会上,RoCEv2的「足够好」被证明可以支撑千亿参数模型的训练时,InfiniBand的 niche(利基市场)就被划定了边界。

UEC的工作重点,是填补RoCEv2的最后几块短板。拥塞控制算法从静态阈值转向动态感知,in-sequence delivery(按序交付)在丢包场景下的恢复机制,multipath(多路径)利用率的优化——这些原本InfiniBand原生支持的能力,正在被标准化为以太网的扩展。

一个关键细节:UEC的规范制定者中,有相当一部分来自曾经的InfiniBand阵营。技术路线的迁移,往往伴随着人才的流动。

企业架构师的现实选择题

企业架构师的现实选择题

对于正在规划AI基础设施的25-40岁技术决策者,这场 fabric war 的终局意味着什么?

打开网易新闻 查看精彩图片

第一,延迟敏感场景的边界收窄。如果你的 workload 是单一厂商GPU集群、纯训练任务、网络拓扑完全可控,InfiniBand仍有 measurable advantage(可测量的优势)。但这个「如果」的适用范围,正在逐年收缩。

第二,技能投资的ROI(投资回报率)重新计算。团队里培养InfiniBand专长的工程师,其知识复用范围被限制在特定供应商生态内。而以太网背景的经验,从数据中心延伸到云边端,从AI网络覆盖到传统业务负载。

第三,采购谈判的筹码变化。当70%的新建部署选择以太网,NVIDIA的InfiniBand定价权被削弱。这不是说InfiniBand会降价——而是企业在谈判桌上有了更清晰的替代方案参照,以及更充分的「不选你」底气。

第四,混合架构的复杂性上升。部分企业可能选择「训练用InfiniBand、推理用以太网」的分层策略。但这意味着两套网络体系并行运维,故障排查的交叉地带会成为新的风险点。

一位在2024年做过此类部署的架构师反馈:「理论上各取所长,实际上每次网络抖动都要先定位是哪一层的问题。我们的MTTR(平均修复时间)反而上升了。」

InfiniBand的衰落不是技术失败,是生态位收窄的必然。

它依然是最快的封闭赛道跑车,但企业需要买的是能在任何路况通行的SUV。

博通财报发布后的两周内,我跟踪了三个企业客户的架构评审会记录。其中两个明确将InfiniBand从「首选」下调为「特定场景备选」,一个正在评估从现有InfiniBand集群向RoCEv2迁移的可行性——尽管他们的InfiniBand设备才部署了14个月。

这种「未老先衰」的焦虑,在NVIDIA的GTC 2026议程设置里也有呼应。InfiniBand相关的技术分论坛,从2024年的12场缩减到6场,而Spectrum-X(NVIDIA的以太网方案)的议题数量翻倍。

NVIDIA并非没有察觉风向。Spectrum-X的推出,本身就是对生态现实的妥协。但Spectrum-X与InfiniBand的并行存在,也让客户决策更加困惑:选NVIDIA的以太网,还是行业标准的RoCEv2?

一位参与UEC标准制定的工程师透露:「NVIDIA在Spectrum-X里保留了部分私有扩展,这与其InfiniBand策略一脉相承。问题是,客户刚刚因为 vendor lock-in(厂商锁定)犹豫InfiniBand,看到Spectrum-X的私有协议清单,同样的顾虑会复发。」

这场 fabric war 的终局,可能不是InfiniBand的消失,而是其市场占比收敛到10-15%的「性能极客」 niche。就像机械键盘从未消失,但不再是笔记本电脑的默认选项。

对于架构师而言,更长期的变量在于:AI workload 的演进方向,是否会进一步压缩InfiniBand的生存空间?

当前的大模型训练以 dense attention(稠密注意力)为主,对all-reduce通信的延迟极度敏感。但稀疏专家模型(MoE)、多模态推理、边缘AI部署的兴起,正在改变通信模式的分布。这些场景中,带宽效率比延迟优化更重要,而以太网的生态优势在此被放大。