作者:王聪彬
当大模型成为新一轮技术竞赛的核心载体,AI工作负载正在迅速改写基础设施的底层逻辑。从训练到推理,算力、数据吞吐与系统协同被同时推向极限,也让传统IT架构迅速显露出“不适配”的一面。
计算侧,大模型热潮带动了算力的快速堆叠,无论是GPU,还是国产算力卡,行业普遍采取规模优先的路径。但实践很快表明,单纯堆叠硬件并不能自动转化为有效算力,如果缺乏对资源的高效调度与利用,反而会成为制约AI发展的关键瓶颈。
存储侧,AI计算本质上是对海量数据的持续调用与处理,存储也成为直接影响计算效率的重要一环。如何让存储能力与算力规模相匹配,在数据吞吐、访问延迟等维度实现协同优化,是当前基础设施演进中的另一关键命题。
网络侧,无论是计算节点内部互联,还是存储系统自身架构,最终都需要通过网络实现高效协同。所以网络不仅要在带宽、时延等技术指标上持续突破,更需要肩负起计算与存储的有效结合。
“AI基础设施的挑战,已经成为计算、存储与网络三者之间的深度耦合,只有实现‘存算传一体化’,才能最大化算力建设的投入回报。”曙光信息产业(北京)有限公司总裁助理、分布式存储产品部总经理石静说道。
近期,中科曙光发布首款全栈自研400G无损高速网络scaleFabric,该网络基于原生RDMA架构,从底层的112G SerDes IP、硬件设备到上层的管理软件实现100%自主研发。并结合存储系统的超级隧道技术,构建起“算存传一体化”的紧耦合架构,打破传统I/O瓶颈,让国产智算大集群不仅“算得快”,更“算得高效”。
算存传一体化,重塑AI时代的数据供给体系
随着大模型参数规模持续攀升,万卡级算力集群正逐步成为训练的主流形态,这也意味着上万块AI卡需要在高一致性与高同步性的要求下协同运行。
针对这一挑战,中科曙光通过将分布式存储超级隧道技术与自研RDMA网络结合,以算存传强协同进一步突破智算集群效能。具体来看,在硬件层面,为不同数据域配置独享的RDMA网络连接与PCIe通道,并结合NUMA亲和性优化资源分配,避免相互间的并发冲突;在软件层面,实现线程、内存与存储资源的绑定调度。通过软硬件协同优化设计,有效减少网络拥堵和资源竞争,让数据沿最优路径高速流动,为AI计算持续提供高效、稳定且安全的数据供给能力。
要实现“存算传一体化”的深度协同,存储底座必须具备足够的性能支撑。石静谈到,只有在带宽、吞吐、IOPS以及时延等关键指标上全面匹配计算需求,才能真正释放算力效率。
“超级隧道”技术还构建起专属数据通道,以CPU为核心,将计算、内存、网络与存储等关键资源划入独立的数据域,实现资源级隔离与路径优化。每一份数据都在专属的“超级隧道”中传输,高效传输到计算节点,实现计算、存储与网络的一体化协同。
为了让存储与网络更深度地融合,首先“超级隧道”技术利用RDMA高速网络的高性能和低延时的特点,通过独有的虚拟网卡技术,将高速网卡切分为多个虚拟网卡,并实现数据传输,从源头上保障链路利用率。其次是存储和存储、存储和计算之间的连接,结合scaleFabric对内存使用机制进行了优化,在连接建立初期仅分配最小必要内存保障基础通信,在实际运行过程中,再根据链路流量动态分配共享内存资源。
高速网络正加速向更高带宽演进。曙光信息产业(北京)有限公司scaleFabric产品经理纵瑞博指出,2023年无损高速网络还是以100G、200G为主,到近两年400G逐步成为主流。
在这一趋势之下,围绕高性能场景,曙光也逐步形成了清晰的三大优势:
第一大优势在于可以在高性能场景中提供业界最快的存储,像单节点可实现220GB/s带宽与千万级IOPS,这意味着一个存储节点即可支撑数十张GPU在高通量场景下稳定运行:一方面,高带宽能力显著缩短数据加载与切换时间,让GPU将更多资源用于计算本身;另一方面,高IOPS能力则在数据预处理及小文件密集读写阶段提升整体效率,从而优化训练全流程体验。
第二大优势在于存储与网络的一体化国产自研能力。当前主流RDMA网络仍依赖国外生态,在供应与深度优化上存在一定约束,业内能够同时实现存储与高速网络全栈自研的厂商并不多。
曙光通过将国产存储与自研高速网络整合于统一体系内,实现更深层次的协同优化,这也为大规模AI集群的稳定运行与持续演进提供了关键支撑。
万卡集群背后,一套系统跑通训练到推理
在当前内外部环境影响下,国产化已从“可选项”逐步转变为“必选项”,高速网络是算力基础设施的核心关键技术,其自主可控直接关系到国家算力基础设施的安全与发展质量。
曙光实现了全数据链路的国产化,硬件层面,基于国产全闪介质、自研CPU、IO控制器、infiniband网络,打造了从机“芯”、到内部IO链路、到外部高速互联网络的芯片级和固件级国产化;软件层面拥有全部源代码,实现了全面和深度的整系统国产化,全面保障数据安全。
过去,部分关键环节受限于技术成熟度或产业基础,用户即便有国产化诉求,也不得不在一些核心组件上做出妥协。在自研的环境中,存储系统能够实现更细粒度的资源切分与隔离,在保障稳定性的同时,将整体性能发挥到更高水平。
在网络侧,随着高速以太网的发展,行业通过RoCE方案推进国产化替代,在一定程度上满足了用户对自主可控的需求。但从技术特性来看,RoCE在时延等关键指标上与InfiniBand仍存在差距。
石静表示,scaleFabric实质上补齐了国产体系在InfiniBand技术上的空白,随着这一能力的完善,AI基础设施在计算、存储与高速网络等核心环节的国产化版图已经成型,也为后续大规模落地提供了更完整的技术基础。
目前已在国家超算互联网核心节点上线试运行的三套scaleX万卡,总规模达3万卡,全面应用scaleFabric高速网络,并且已经历超过10个月的稳定测试。纵瑞博强调,InfiniBand基本属于零部署、零配置,三套万卡级集群的网络部署上线仅用了36小时,目前累计服务1万个客户、支撑超10万项作业稳定运行。
国家超算互联网核心节点验证了大规模AI训练场景对存储与网络协同能力的需求。
石静介绍,在数据准备阶段,大量文件的解压与写入通常依赖本地存储,曙光通过BurstBuffer等技术,将计算节点侧存储纳入统一缓存体系,使共享存储在小文件处理性能上接近本地盘水平,从而避免数据分散带来的管理与调度复杂度。在训练阶段,TB级数据可在数分钟内完成回写,显著提升训练效率。在推理阶段,还结合了曙光超算互联网能力。最终做到一套系统即可覆盖多阶段业务需求,显著提升了大规模AI集群的运行效率与资源利用率。
“存算传一体化”不只是一次架构升级,更是一种面向AI时代的数据供给方式重构。这一变革,也将持续拉高AI基础设施的能力上限。
热门跟贴