如果你最近关注算力圈,郑州这件事绕不开。
2月5日,国家超算互联网核心节点在郑州上线试运行,而且一口气部署了3套中科曙光scaleX万卡超集群,成为全国首个实现3万卡部署、且实际投入运营的最大国产AI算力池。
在大模型参数规模一路往万亿级狂奔的背景下,这种“集中式、一次到位”的部署方式,本身就是一种态度。
万卡集群为什么不再慢慢堆?
过去几年,算力建设的主旋律是补短板,能多一台是一台。但当模型规模真正跨过临界点后,问题开始变得现实且残酷。
算力不集中,模型就跑不稳;
通信不确定,规模一放大就掉效率;
调度跟不上,卡再多也白搭。
国家超算互联网核心节点显然不打算走试探路线,3套scaleX万卡超集群同步落地,直接把算力集中度拉满。
这不是为了好看,而是为了让大模型训练、推理这些任务,真的能长期跑下去。
背后是复杂的系统工程。中科曙光啃下了高速互联网络、存算传紧耦合设计、高密供电与散热、统一资源高效调度等技术“硬骨头”,使得单套集群可实现10240块AI加速卡部署。
三套协同运行,不仅仅是简单叠加,而是软硬一体的系统性升级。
国家超算互联网核心节点,上来走的就是“满配”路线
国家超算互联网核心节点的定位,决定了它不能是一个普通算力池。
作为国家超算互联网的重要枢纽,它既要有效联动西部绿色算力资源,承接东部地区的算力需求外溢,也要面对跨区域调度、长期运行的国家级应用,助力形成全国一体化算力网。
这对算力底座有几个硬要求:
▌第一,算力必须够集中。
大模型训练越来越依赖同构资源,拼凑式算力很难支撑整机训练。
scaleX万卡超集群本身就是为规模化集中计算设计的,而且在架构上预留了向十万卡、百万卡扩展的空间。
▌第二,能耗和散热要扛得住。
基于全球首创的高密度单机柜,scaleX采用超高密度刀片、浸没相变液冷等技术,把单机柜算力密度拉高了约20倍,同时把PUE压到1.04。
对国家级节点来说,这是长期稳定运行的必备条件。
▌第三,生态不能太挑。
scaleX万卡超集群兼容CUDA等主流AI生态,同时支持多品牌国产AI加速卡的混合部署。
对用户来说,意味着国产算力首次实现“大团结”,迁移成本可控。
万卡的价值真只是算得快吗?
如果只是算力规模大,那并不稀奇,真正拉开差距的是“用起来怎么样”。
scaleX万卡超集群已完成400多个主流大模型、世界模型的适配优化,依托国家超算互联网,更可接入上千款应用,链接更多AI产业生态伙伴,实现“算力+应用”一体化交付。
在超大规模模型训练场景中,scaleX已经具备万亿参数模型的整机训练与容错恢复能力,这对动辄连续运行数月的任务尤为关键。
在高通量推理场景,scaleX已服务于多家头部互联网用户的核心智能化业务,并通过联合深度优化持续提升推理效能。
在AI for Science领域,scaleX支撑国内某材料研发大模型登顶国际权威榜单,助力国内顶级科研团队将蛋白质研究效率提升3-6个数量级等;同时搭配OneScience科学大模型一站式开发平台,大幅降低多学科交叉研究的创新门槛。
这些场景背后指向技术的本质:万卡集群从来都不是为了更大的数字,而是实实在在服务好AI产业的研发场景。
一个越来越清晰的趋势
回头看,国家超算互联网核心节点真正释放的信号,其实很明确。
国产算力的竞争,正在从单点性能,走向体系能力。比的不只是峰值指标,更是谁能把万卡规模长期、稳定、低成本地跑起来,谁能支撑真实产业和国家级任务。
3套scaleX万卡超集群同步落地,本身就是一次现实回答。
热门跟贴