如果你最近关注算力圈,郑州这件事绕不开。

2月5日,国家超算互联网核心节点在郑州上线试运行,而且一口气部署了3套中科曙光scaleX万卡超集群,成为全国首个实现3万卡部署、且实际投入运营的最大国产AI算力池

打开网易新闻 查看精彩图片

在大模型参数规模一路往万亿级狂奔的背景下,这种“集中式、一次到位”的部署方式,本身就是一种态度。

万卡集群为什么不再慢慢堆?

万卡集群为什么不再慢慢堆?

过去几年,算力建设的主旋律是补短板,能多一台是一台。但当模型规模真正跨过临界点后,问题开始变得现实且残酷。

算力不集中,模型就跑不稳;
通信不确定,规模一放大就掉效率;
调度跟不上,卡再多也白搭。

国家超算互联网核心节点显然不打算走试探路线,3套scaleX万卡超集群同步落地,直接把算力集中度拉满。

这不是为了好看,而是为了让大模型训练、推理这些任务,真的能长期跑下去。

背后是复杂的系统工程。中科曙光啃下了高速互联网络、存算传紧耦合设计、高密供电与散热、统一资源高效调度等技术“硬骨头”,使得单套集群可实现10240块AI加速卡部署。

三套协同运行,不仅仅是简单叠加,而是软硬一体的系统性升级。

国家超算互联网核心节点,上来走的就是“满配”路线

国家超算互联网核心节点,上来走的就是“满配”路线

国家超算互联网核心节点的定位,决定了它不能是一个普通算力池。

作为国家超算互联网的重要枢纽,它既要有效联动西部绿色算力资源,承接东部地区的算力需求外溢,也要面对跨区域调度、长期运行的国家级应用,助力形成全国一体化算力网。

这对算力底座有几个硬要求:

▌第一,算力必须够集中。

大模型训练越来越依赖同构资源,拼凑式算力很难支撑整机训练。

scaleX万卡超集群本身就是为规模化集中计算设计的,而且在架构上预留了向十万卡、百万卡扩展的空间。

▌第二,能耗和散热要扛得住。

基于全球首创的高密度单机柜,scaleX采用超高密度刀片、浸没相变液冷等技术,把单机柜算力密度拉高了约20倍,同时把PUE压到1.04。

对国家级节点来说,这是长期稳定运行的必备条件。

▌第三,生态不能太挑。

scaleX万卡超集群兼容CUDA等主流AI生态,同时支持多品牌国产AI加速卡的混合部署。

对用户来说,意味着国产算力首次实现“大团结”,迁移成本可控。

万卡的价值真只是算得快吗?

万卡的价值真只是算得快吗?

如果只是算力规模大,那并不稀奇,真正拉开差距的是“用起来怎么样”。

scaleX万卡超集群已完成400多个主流大模型、世界模型的适配优化,依托国家超算互联网,更可接入上千款应用,链接更多AI产业生态伙伴,实现“算力+应用”一体化交付。

在超大规模模型训练场景中,scaleX已经具备万亿参数模型的整机训练与容错恢复能力,这对动辄连续运行数月的任务尤为关键。

在高通量推理场景,scaleX已服务于多家头部互联网用户的核心智能化业务,并通过联合深度优化持续提升推理效能。

在AI for Science领域,scaleX支撑国内某材料研发大模型登顶国际权威榜单,助力国内顶级科研团队将蛋白质研究效率提升3-6个数量级等;同时搭配OneScience科学大模型一站式开发平台,大幅降低多学科交叉研究的创新门槛。

这些场景背后指向技术的本质:万卡集群从来都不是为了更大的数字,而是实实在在服务好AI产业的研发场景。

一个越来越清晰的趋势

一个越来越清晰的趋势

回头看,国家超算互联网核心节点真正释放的信号,其实很明确。

国产算力的竞争,正在从单点性能,走向体系能力。比的不只是峰值指标,更是谁能把万卡规模长期、稳定、低成本地跑起来,谁能支撑真实产业和国家级任务。

3套scaleX万卡超集群同步落地,本身就是一次现实回答。