月中旬,中科曙光对外发布scaleFabric:首个国产原生无损RDMA高速网络。智算领域国产化进步速度令人惊叹的同时,也让人们自然关注到另一个价值点,这套高速网络是如何被用起来的——在大模型训推的真实负载下,计算、存储与网络能否被拧成一股绳。

打开网易新闻 查看精彩图片

曙光信息产业(北京)有限公司总裁助理、分布式存储产品部总经理石静,在近期一次采访中表示:AI基础设施真正的挑战并不在于哪一块更强,而在于计算、存储和网络三方的协作能力——“最大的挑战就是怎么把这三块强耦合起来,能够让咱们用户的投资和建设的回报率是最高的。”

这也是“算存传一体化”在今天重新变得重要的原因:它不追求把三者物理合并,而是在落地项目里回答一个更实际的问题——如何让数据持续、稳定、低损耗地喂给算力,让昂贵的算力尽可能少地等待,以提升利用率。

GPU足够昂贵,这让更多的讨论天然聚焦在“堆卡”和“上更大模型”方面。但在工程实践中,训练效率的上限常常先撞上另一堵墙:数据通道是否足够通畅、可预测、可规模化。你可以买到更多的卡,却未必能买到同样确定性的“供数能力”。

scaleFabric更像一枚照明弹。它照亮的并不是网络本身,而是一个正在发生的全局变化:存储正在从过去的“容量工程”,走向与计算、网络强协同的“系统工程”。在大模型时代,基础设施竞争越来越像一场关于数据通道的竞赛——数据从哪里来、如何被组织、如何被传输、如何在拥塞与抖动中保持节奏——而它,最终也决定了昂贵的算力投入,是否真的“值回”投入。

打开网易新闻 查看精彩图片

存储成为智算中心的“关键变量”

训练与推理改变了数据的流动方式:数据不再是偶尔被读取,而是被持续吞吐;不再只是大文件的顺序读写,而是叠加了数据准备阶段的大量小文件、训练过程的高频访问、checkpoint的周期性大回传,以及推理侧对低时延与稳定性的长期要求。

当训练进入万卡乃至更大规模时,系统对“持续供数”的容忍度会急剧下降。一次短暂丢包、一次抖动带来的长尾时延,都会被放大成算力利用率的下降——瓶颈于是从“堆GPU”转移到“数据供给”:带宽能不能稳定兑现?拥塞发生时路径是否可控?资源争用能否隔离?在这些问题上,存储不再是通道里的一个节点,而更像通道的源头与秩序制定者。

一体化的本质:物理分离,逻辑强协同

“算存传一体化”很容易被误读成把计算、存储、网络“做成一台机器”。但在真正的工程里,三者在物理上依然分离,必须在逻辑上实现强协同。

在曙光的技术叙事里,协同的抓手被固定得很具体:一端是“超级隧道”,用数据域的方式把CPU、内存、网络、SSD等与数据相关的关键资源,纳入一个更可控的范围;另一端是自研RDMA无损网络,把存储到计算的路径变成更可预测的高速通道。

前者解决的是隔离与亲和性,后者解决的是时延与无损,合在一起,大模型训推所追求的“协同”,才能最终落地。

打开网易新闻 查看精彩图片

“超级隧道”的关键不在于概念,而在于它把系统里那些最容易互相争抢的资源提前“分域”。

在硬件层面,各数据域可以拥有独享的RDMA网络连接和PCIe通道,并在NUMA亲和性上做优化分配;在软件层面,线程、内存与存储资源的绑定调度,让不同负载之间的并发冲突更少发生。对于大规模训练而言,这类隔离机制的价值往往不体现在峰值跑分上,而体现在“更少的拥塞、更少的抖动、更少的长尾”。

在智算中心里,最理想的状态是:数据路径可预测、关键业务有保障、资源争用可隔离、扩展规模不引入不可控的因素。因此,单点性能只是起点,更难的是在稳定的基础上,让单点性能转向规模化。

存储底座的硬度:性能、稳定与规模化的连锁反应

存储的“硬”,首先来自性能层——带宽、IOPS、时延这些指标最终会左右GPU的数据供给。训练任务并不会因为买了更快的卡,就自动加速,它需要一条持续供数的通道。实践中,算力表现不是在GPU上消失的,而是在数据路径上被“堵车”卡住的。

因此,智算真正难在工程层。大量任务并发、数据模式复杂、访问特征多变,系统需要的不只是“峰值”,更是“可控”。

曙光在存储侧强调的“超级隧道”,更接近一种数据域的工程方法:围绕资源切片、隔离与亲和性优化去重塑数据路径,让不同任务、不同数据域之间的争用边界更清晰,让关键路径在拥塞发生时依然可预期——存储要承担的不只是“存得下”,更是数据“喂得稳”。

规模化是另一道门槛。大集群不是把设备堆大那么简单,随着集群变大,给计算侧“喂数据”的复杂度,会呈现非线性的增长。

完全静态占用内存,会为峰值付出长期成本;完全动态调整,又可能在抖动里牺牲稳定。更现实的解法往往是预分配少量资源、动态共享其余,在关键路径的确定性与整体资源利用率之间找到平衡。能否把这种平衡做成体系,决定了系统在规模扩张时还能否保持同样的传输规则。

把确定性交给数据通道

回到scaleFabric技术本身,它的价值在于能否把存储能力放大成可兑现的系统能力。

事实上,scaleFabric并不只是交换机与链路速率的升级,它从底层112G SerDes IP、硬件设备到上层管理软件实现了100%自主研发。更重要的是,这条自研RDMA无损网络与“超级隧道”形成了协同关系:数据域里被隔离、被优化的资源,只有在一条低时延、可预测的无损通道上,才能把稳定性兑现到存储和计算之间。

网络侧的可预测,常常来自两个细节:其一是无损与低时延,让数据通道更像一条稳定的工程管道,而不是忽快忽慢的“高速公路”;其二是围绕连接规模的工程设计。

石静在采访中举过一个很现实的例子:万卡乃至更大规模集群会把连接数推到一个很难用静态方式管理的量级,如果一开始就给每条连接分配同样的内存,“有可能导致什么业务也没跑,就已经把计算节点和存储资源CPU的内存资源给耗尽了。”

因此在连接建立与内存分配上,更需要“预分配少量+动态共享”的方式,既保证服务能用起来,也避免资源在空载时被占死。对超大规模智算集群而言,这类细节往往决定了部署与运行的稳定边界。

与此同时,“全栈国产化”被放在了与性能同等重要的位置。目前,曙光分布式存储已经在硬件层面基于国产芯片、国产IO控制器与国产全闪介质构建,并与高速互联网络形成完整架构;在软件层面拥有完整源代码,实现基础架构与软件栈的自主可控。

对智算中心而言,这不仅是安全与供应链层面的选择,也意味着软硬件协同优化可以做得更深:当存储、网络、计算需要强耦合时,系统级优化空间往往来自“能把底层细节握在自己手里”。

打开网易新闻 查看精彩图片

这样的落地实践,在位于郑州的国家超算互联网核心节点上能看到更清晰的形态。公开信息显示,该节点已部署试运行3套中科曙光scaleX万卡超集群,全面覆盖万亿参数模型训练、高通量推理、AI for Science等大规模AI计算场景。存储、计算与高速网络在其中协同运行,支撑大规模作业的持续、稳定运转。

曙光信息产业(北京)有限公司scaleFabric产品经理纵瑞博透露,郑州项目“从第一台交换机上电到最终的交付到上线,一共花了36小时左右”,上线后“一个半月了,非常稳定”。对智算中心而言,这种“交付速度+运行稳定性”本身就是系统工程能力的外在表现。

在智算中心里,算力看起来最昂贵,但存储决定昂贵是否值得。当行业从“拼算力”走向“拼效率”,决定胜负的往往不是某个单点参数,而是那条看不见的数据通道是否足够坚硬、足够稳定、也足够聪明。