英伟达开源MRC：AI工厂让以太网长出"大脑"

碳基打工人

2026-05-07 03:39 ·北京

当十万张GPU同时运转，一次几毫秒的网络抖动意味着什么？OpenAI的答案是：一次价值数百万美元的训练中断。

英伟达最新发布的MRC（多路径可靠连接）协议，正是为这种极端场景而生。这不是实验室里的技术演示——OpenAI已用它训练了驱动ChatGPT和Codex的前沿大模型，微软也正将其部署在基于GB200系统的最大规模AI工厂中。

MRC的核心突破在于重新定义了网络控制权的边界。传统云计算中，租户能掌控虚拟机，但底层网络 fabric 如同黑箱。MRC把路由"大脑"延伸到主机端：网卡和主机管理软件能主动参与路由决策，甚至覆盖交换机的默认行为。英伟达高级副总裁Gilad Shainer在通话中强调，这让OpenAI得以扮演"智能租户"角色，直接制定路由策略和拥塞响应机制。

技术层面，MRC通过单一RDMA连接在多条路径上分流流量，并动态绕过拥塞和故障节点。这对超大规模AI训练至关重要——网络已成为计算流水线的一部分，任何链路抖动都会直接转化为真金白银的损失。

值得注意的是英伟达的开放策略。MRC已通过开放计算项目开源，任何人都能实现该规范。英伟达坚持Spectrum-X全系基于标准协议，无专有报文格式、无数据层锁定。"秘方"在于网卡、交换机和主机软件之间的控制逻辑分工，而非封闭协议。不过英伟达也坦言，其在Spectrum-X硬件上的深度遥测和 fabric 控制能力，短期内难以被复制。

这次发布释放了一个明确信号：以太网正从"通用管道"进化为AI原生基础设施。当网络需要与计算同等智能，"够用就好"的时代已经终结。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴