曙光 scaleX 万卡超集群能被国家超算互联网核心节点选中,硬实力绝对是过关的。单看性能参数,这套集群就堪称国产算力的天花板:单体集成 10240 张 AI 加速卡,单机柜算力密度提升 20 倍,400Gb/s 带宽搭配低于 1 微秒的延迟,还有 99.99% 的长期可用性,这些数据放在全球算力领域都能打。 针对万亿参数大模型的需求,这套集群也做了针对性优化,三级数据传输协同让加速卡资源利用率提高 55%,还能支持万亿模型的整机训练与容错恢复,从技术层面来说,应对万亿大模型的算力需求完全没问题。而且浸没相变液冷技术带来的 1.04PUE 值,还能大幅降低运营成本,对算力运营方来说太友好了。 但硬件性能只是基础,算力的价值最终要在应用场景中体现。现在这套集群只是完成了部署,接下来还要在万亿模型训练、AI for Science、高通量推理等场景中接受实际考验。能不能在长时间运行中保持稳定,能不能适配不同类型的大模型需求,能不能真正让开发者实现 “开箱即用”,这些才是检验这套算力集群的最终标准。
曙光 scaleX 万卡超集群能被国家超算互联网核心节点选中,硬实力绝对是过关的。单看性能参数,这套集群就堪称国产算力的天花板:单体集成 10240 张 AI 加速卡,单机柜算力密度提升 20 倍,400Gb/s 带宽搭配低于 1 微秒的延迟,还有 99.99% 的长期可用性,这些数据放在全球算力领域都能打。 针对万亿参数大模型的需求,这套集群也做了针对性优化,三级数据传输协同让加速卡资源利用率提高 55%,还能支持万亿模型的整机训练与容错恢复,从技术层面来说,应对万亿大模型的算力需求完全没问题。而且浸没相变液冷技术带来的 1.04PUE 值,还能大幅降低运营成本,对算力运营方来说太友好了。 但硬件性能只是基础,算力的价值最终要在应用场景中体现。现在这套集群只是完成了部署,接下来还要在万亿模型训练、AI for Science、高通量推理等场景中接受实际考验。能不能在长时间运行中保持稳定,能不能适配不同类型的大模型需求,能不能真正让开发者实现 “开箱即用”,这些才是检验这套算力集群的最终标准。
