随着DeepSeek开源周将技术细节摊开,OpenClaw“小龙虾”智能体框架走红,AI应用的爆发已从预期变为现实。数百万智能体在全球终端昼夜运转,每一次任务执行,背后都是海量数据在成千上万张计算卡间的高速穿梭。然而,当行业都在比拼算力卡数量时,真正决定集群价值的,往往是让算力“跑起来”的网络效率。
研究数据显示,稠密模型的通信时间占比10%~20%,MoE模型更是高达40%~60%——这意味着,如果网络跟不上,堆再多的卡,也有一半算力在等待数据。
近期,国产自研无损RDMA网络的发布,为大规模AI训练集群面临的网络瓶颈提供了阶段性答案。
以此前部署的3万卡国产DCU算力超集群为例,基于自研ScaleFabric 400构建的网络层,实测单口带宽达到397Gbps,端到端延迟仅0.93微秒——这意味着在千亿参数模型的并行训练中,梯度同步的等待时间被压缩到极致。
更值得关注的是单网卡QP(队列对)支持量高达856K,是英伟达CX-7的6.7倍,这一指标直接决定了网络在超大规模并行通信场景下的并发处理能力,为集群扩展至11万卡级别埋下伏笔。
在解决大规模集群的拥塞问题上,方案采用了自研的iLossless智能流控机制,替代了传统易引发“PFC风暴”的优先级流控方案,从根源上避免了因微小的丢包率导致的训练吞吐震荡。同时,SuperTunnel通信优化模块能够在应用层感知训练拓扑,动态选择最优的AllReduce算法,让梯度聚合效率始终保持在较高水平。
在此基础上,最新推出的ScaleFabric 800将单端口带宽提升至800Gb/s,端到端延迟控制在1微秒以内,单子网集群可扩展至11.4万卡,网络成本较进口IB方案降低约30%。更重要的是,从112G SerDes IP、交换芯片到上层管理软件ScaleOS,历时三年实现了100%全栈自研——这意味着在供应链安全和长期技术迭代上,国产算力有了自己的底座。
当然,英伟达InfiniBand的护城河确实深厚:SHARP v3硬件级AllReduce加速将通信延迟砍半,800G/口的交换速率已进入量产阶段,再加上NVLink+CUDA从底层芯片到软件栈的深度协同,构筑了一套难以复制的端到端优势。
但国产方案正在从另一个方向发起冲锋。以ScaleFabric为例,国产方案已经在部分数据上实现了超越。正如现场负责人所言:“我们现在做的事,不是复制NVIDIA的路线,而是用不同的方法达到相似的终点。”
热门跟贴