大规模AI训练最头疼的不是算力不够,而是网络"堵车"。OpenAI昨天扔出一颗技术炸弹——联合AMD、博通、英特尔、微软、英伟达五大巨头,推出多路径可靠连接(MRC)协议,并通过开放计算项目(OCP)全行业开源。这或许是AI基础设施领域近年来最具野心的网络架构革新。
GPU集群越大,网络越脆弱,这是行业老痛点。单一数据包延迟就能让整个训练进程卡死,数万张显卡集体"摸鱼"。传统三层甚至四层网络架构,交换机堆叠如山,功耗高、故障点多、扩展性差。MRC的解法很激进:把800Gb/s接口拆成多条小链路,只用两层交换机就能串起约13.1万块GPU。路径多了,容错空间就大了。
打开网易新闻 查看精彩图片
更狠的是流量调度机制。传统网络像单车道高速公路,MRC搞的是"数据包喷淋"——同一份数据拆成数百条路径并行狂奔,哪怕乱序到达,接收端也能按内存地址拼回原貌。核心网拥塞?不存在的。
控制层面也做了减法。MRC砍掉BGP这类动态路由协议,改用SRv6源路由。发送端直接指定路径,交换机只查静态表转发,故障恢复从秒级压到微秒级。对训练任务来说,这意味着链路抖动或交换机重启时,系统能自动绕路,训练不中断。
目前MRC已落地NVIDIA GB200超级计算机和Oracle Cloud Infrastructure。从纸面参数看,这套协议同时解决了成本、功耗、可靠性三重约束。但真正的考验在于:当更多云厂商和超算中心接入,MRC能否成为事实标准,还是又一场巨头们的"技术秀"?开源协议的命运,从来不只取决于技术本身。
热门跟贴