以“算存传一体化”，构筑超大规模智算集群新基座|新模型|时延|智算集群

作者：王聪彬

当大模型成为新一轮技术竞赛的核心载体，AI工作负载正在迅速改写基础设施的底层逻辑。从训练到推理，算力、数据吞吐与系统协同被同时推向极限，也让传统IT架构迅速显露出“不适配”的一面。

计算侧，大模型热潮带动了算力的快速堆叠，无论是GPU，还是国产算力卡，行业普遍采取规模优先的路径。但实践很快表明，单纯堆叠硬件并不能自动转化为有效算力，如果缺乏对资源的高效调度与利用，反而会成为制约AI发展的关键瓶颈。

存储侧，AI计算本质上是对海量数据的持续调用与处理，存储也成为直接影响计算效率的重要一环。如何让存储能力与算力规模相匹配，在数据吞吐、访问延迟等维度实现协同优化，是当前基础设施演进中的另一关键命题。

网络侧，无论是计算节点内部互联，还是存储系统自身架构，最终都需要通过网络实现高效协同。所以网络不仅要在带宽、时延等技术指标上持续突破，更需要肩负起计算与存储的有效结合。

“AI基础设施的挑战，已经成为计算、存储与网络三者之间的深度耦合，只有实现‘存算传一体化’，才能最大化算力建设的投入回报。”曙光信息产业（北京）有限公司总裁助理、分布式存储产品部总经理石静说道。

近期，中科曙光发布首款全栈自研400G无损高速网络scaleFabric，该网络基于原生RDMA架构，从底层的112G SerDes IP、硬件设备到上层的管理软件实现100%自主研发。并结合存储系统的超级隧道技术，构建起“算存传一体化”的紧耦合架构，打破传统I/O瓶颈，让国产智算大集群不仅“算得快”，更“算得高效”。

算存传一体化，重塑AI时代的数据供给体系

随着大模型参数规模持续攀升，万卡级算力集群正逐步成为训练的主流形态，这也意味着上万块AI卡需要在高一致性与高同步性的要求下协同运行。

针对这一挑战，中科曙光通过将分布式存储超级隧道技术与自研RDMA网络结合，以算存传强协同进一步突破智算集群效能。具体来看，在硬件层面，为不同数据域配置独享的RDMA网络连接与PCIe通道，并结合NUMA亲和性优化资源分配，避免相互间的并发冲突；在软件层面，实现线程、内存与存储资源的绑定调度。通过软硬件协同优化设计，有效减少网络拥堵和资源竞争，让数据沿最优路径高速流动，为AI计算持续提供高效、稳定且安全的数据供给能力。

要实现“存算传一体化”的深度协同，存储底座必须具备足够的性能支撑。石静谈到，只有在带宽、吞吐、IOPS以及时延等关键指标上全面匹配计算需求，才能真正释放算力效率。

“超级隧道”技术还构建起专属数据通道，以CPU为核心，将计算、内存、网络与存储等关键资源划入独立的数据域，实现资源级隔离与路径优化。每一份数据都在专属的“超级隧道”中传输，高效传输到计算节点，实现计算、存储与网络的一体化协同。

为了让存储与网络更深度地融合，首先“超级隧道”技术利用RDMA高速网络的高性能和低延时的特点，通过独有的虚拟网卡技术，将高速网卡切分为多个虚拟网卡，并实现数据传输，从源头上保障链路利用率。其次是存储和存储、存储和计算之间的连接，结合scaleFabric对内存使用机制进行了优化，在连接建立初期仅分配最小必要内存保障基础通信，在实际运行过程中，再根据链路流量动态分配共享内存资源。

高速网络正加速向更高带宽演进。曙光信息产业（北京）有限公司scaleFabric产品经理纵瑞博指出，2023年无损高速网络还是以100G、200G为主，到近两年400G逐步成为主流。

在这一趋势之下，围绕高性能场景，曙光也逐步形成了清晰的三大优势：

第一大优势在于可以在高性能场景中提供业界最快的存储，像单节点可实现220GB/s带宽与千万级IOPS，这意味着一个存储节点即可支撑数十张GPU在高通量场景下稳定运行：一方面，高带宽能力显著缩短数据加载与切换时间，让GPU将更多资源用于计算本身；另一方面，高IOPS能力则在数据预处理及小文件密集读写阶段提升整体效率，从而优化训练全流程体验。

第二大优势在于存储与网络的一体化国产自研能力。当前主流RDMA网络仍依赖国外生态，在供应与深度优化上存在一定约束，业内能够同时实现存储与高速网络全栈自研的厂商并不多。

曙光通过将国产存储与自研高速网络整合于统一体系内，实现更深层次的协同优化，这也为大规模AI集群的稳定运行与持续演进提供了关键支撑。

万卡集群背后，一套系统跑通训练到推理

在当前内外部环境影响下，国产化已从“可选项”逐步转变为“必选项”，高速网络是算力基础设施的核心关键技术，其自主可控直接关系到国家算力基础设施的安全与发展质量。

曙光实现了全数据链路的国产化，硬件层面，基于国产全闪介质、自研CPU、IO控制器、infiniband网络，打造了从机“芯”、到内部IO链路、到外部高速互联网络的芯片级和固件级国产化；软件层面拥有全部源代码，实现了全面和深度的整系统国产化，全面保障数据安全。

过去，部分关键环节受限于技术成熟度或产业基础，用户即便有国产化诉求，也不得不在一些核心组件上做出妥协。在自研的环境中，存储系统能够实现更细粒度的资源切分与隔离，在保障稳定性的同时，将整体性能发挥到更高水平。

在网络侧，随着高速以太网的发展，行业通过RoCE方案推进国产化替代，在一定程度上满足了用户对自主可控的需求。但从技术特性来看，RoCE在时延等关键指标上与InfiniBand仍存在差距。

石静表示，scaleFabric实质上补齐了国产体系在InfiniBand技术上的空白，随着这一能力的完善，AI基础设施在计算、存储与高速网络等核心环节的国产化版图已经成型，也为后续大规模落地提供了更完整的技术基础。

目前已在国家超算互联网核心节点上线试运行的三套scaleX万卡，总规模达3万卡，全面应用scaleFabric高速网络，并且已经历超过10个月的稳定测试。纵瑞博强调，InfiniBand基本属于零部署、零配置，三套万卡级集群的网络部署上线仅用了36小时，目前累计服务1万个客户、支撑超10万项作业稳定运行。

国家超算互联网核心节点验证了大规模AI训练场景对存储与网络协同能力的需求。

石静介绍，在数据准备阶段，大量文件的解压与写入通常依赖本地存储，曙光通过BurstBuffer等技术，将计算节点侧存储纳入统一缓存体系，使共享存储在小文件处理性能上接近本地盘水平，从而避免数据分散带来的管理与调度复杂度。在训练阶段，TB级数据可在数分钟内完成回写，显著提升训练效率。在推理阶段，还结合了曙光超算互联网能力。最终做到一套系统即可覆盖多阶段业务需求，显著提升了大规模AI集群的运行效率与资源利用率。

“存算传一体化”不只是一次架构升级，更是一种面向AI时代的数据供给方式重构。这一变革，也将持续拉高AI基础设施的能力上限。