近日,国产算力行业传出重磅消息,国家超算互联网核心节点在郑州上线试运行,成功实现三套曙光scaleX万卡超集群同步部署,该节点也一举成为全国最大算力调度枢纽。
太炸裂了!国产万卡超集群突破才几天,这就能落地部署了?而且还是三套一起上!据说能对外提供超3万卡的国产AI算力,直接面向万亿参数模型训练、高通量推理、AI for Science等,实现大规模AI计算场景的全覆盖。
要知道,大规模智算集群由算、存、网、电、冷、管等诸多子系统构成,组件数以十万、百万计,软硬件系统耦合要求极高,技术难点更是多不胜数。而且这套集群完全是基于开放架构设计,生态系统更加复杂,要做到能用能落地的程度,那根本不是一家厂商能搞成的。
首先,这种开放式集群本身就涉及厂商多、产品多、链条长,跨厂商技术对齐和产业协作难度大,之前国产算力产业还一直面临行业统一标准欠缺、自主软硬件生态不成熟等棘手问题。scaleX万卡超集群能够得到国家级枢纽认可,必然是要攻克这一系列协同关节。
另外,还有计算集群独有的技术复杂性难题,当集群规模越来越大,对于集群散热、功耗、通信等要求堪称苛刻,每一个细微的问题在集群运行中都会无限放大。这就要求集群能够真正突破系统性挑战,把这些关键技术环节优化到极致。
在功耗散热方面,scaleX万卡超集群采用了先进的浸没相变液冷等技术,PUE值低至1.04,这已经达到全球领先水平,光电费就能省不少。而且scaleX还采用了超高密度刀片,首创了高密度单机柜,在保障功耗效率的同时,将单机柜算力密度提升了20倍。
通信方面的突破同样惊人——曙光scaleX采用自主研发的原生RDMA高速网络,基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟,就算集群扩展到10万卡也不用担心,而且网络总体成本还能直降30%。
另外针对大模型训练时万卡并发读写的带宽极致需求,scaleX实现了从芯片级、系统级到应用级的三级数据传输协同优化,不仅大幅提升高通量AI推理时的响应速度与结果精准度,还将AI加速卡资源利用率提高了55%,这对于大参数AI模型来说更是福音。
事实证明,这一系列硬核技术支撑,正是国产万卡集群快速落地的底气。据说现在scaleX已经成为国家超算互联网核心节点的核心AI算力支撑,并且依托超算网实现了一体化算力调度,可以为全球用户提供通用易用、高效普惠的中国AI算力。
远的不说,就当前“全国一体化算力网”的落地节奏,国产万卡集群绝对赶上了一趟顺风车。
热门跟贴