当十万张GPU同时运转,一次几毫秒的网络抖动意味着什么?OpenAI的答案是:一次价值数百万美元的训练中断。

英伟达最新发布的MRC(多路径可靠连接)协议,正是为这种极端场景而生。这不是实验室里的技术演示——OpenAI已用它训练了驱动ChatGPT和Codex的前沿大模型,微软也正将其部署在基于GB200系统的最大规模AI工厂中。

打开网易新闻 查看精彩图片

MRC的核心突破在于重新定义了网络控制权的边界。传统云计算中,租户能掌控虚拟机,但底层网络 fabric 如同黑箱。MRC把路由"大脑"延伸到主机端:网卡和主机管理软件能主动参与路由决策,甚至覆盖交换机的默认行为。英伟达高级副总裁Gilad Shainer在通话中强调,这让OpenAI得以扮演"智能租户"角色,直接制定路由策略和拥塞响应机制。

技术层面,MRC通过单一RDMA连接在多条路径上分流流量,并动态绕过拥塞和故障节点。这对超大规模AI训练至关重要——网络已成为计算流水线的一部分,任何链路抖动都会直接转化为真金白银的损失。

值得注意的是英伟达的开放策略。MRC已通过开放计算项目开源,任何人都能实现该规范。英伟达坚持Spectrum-X全系基于标准协议,无专有报文格式、无数据层锁定。"秘方"在于网卡交换机和主机软件之间的控制逻辑分工,而非封闭协议。不过英伟达也坦言,其在Spectrum-X硬件上的深度遥测和 fabric 控制能力,短期内难以被复制。

这次发布释放了一个明确信号:以太网正从"通用管道"进化为AI原生基础设施。当网络需要与计算同等智能,"够用就好"的时代已经终结。