OpenAI联合五大芯片巨头推MRC协议，13万块GPU两层交换机直连

碳基打工人

2026-05-07 11:47 ·北京

大规模AI训练最头疼的不是算力不够，而是网络"堵车"。OpenAI昨天扔出一颗技术炸弹——联合AMD、博通、英特尔、微软、英伟达五大巨头，推出多路径可靠连接（MRC）协议，并通过开放计算项目（OCP）全行业开源。这或许是AI基础设施领域近年来最具野心的网络架构革新。

GPU集群越大，网络越脆弱，这是行业老痛点。单一数据包延迟就能让整个训练进程卡死，数万张显卡集体"摸鱼"。传统三层甚至四层网络架构，交换机堆叠如山，功耗高、故障点多、扩展性差。MRC的解法很激进：把800Gb/s接口拆成多条小链路，只用两层交换机就能串起约13.1万块GPU。路径多了，容错空间就大了。

更狠的是流量调度机制。传统网络像单车道高速公路，MRC搞的是"数据包喷淋"——同一份数据拆成数百条路径并行狂奔，哪怕乱序到达，接收端也能按内存地址拼回原貌。核心网拥塞？不存在的。

控制层面也做了减法。MRC砍掉BGP这类动态路由协议，改用SRv6源路由。发送端直接指定路径，交换机只查静态表转发，故障恢复从秒级压到微秒级。对训练任务来说，这意味着链路抖动或交换机重启时，系统能自动绕路，训练不中断。

目前MRC已落地NVIDIA GB200超级计算机和Oracle Cloud Infrastructure。从纸面参数看，这套协议同时解决了成本、功耗、可靠性三重约束。但真正的考验在于：当更多云厂商和超算中心接入，MRC能否成为事实标准，还是又一场巨头们的"技术秀"？开源协议的命运，从来不只取决于技术本身。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴