2026年,AI计算终于大跨步迈进万卡时代。
近日,国家超算互联网核心节点在郑州上线试运行,该节点成功实现三套曙光scaleX万卡超集群的同时部署,也成为全国首个实现3万卡部署、且实际投入运营的最大国产AI算力池。
据《人民网》报道,scaleX万卡超集群基于AI计算开放架构,可全面兼容CUDA等主流软件生态,支持多品牌国产加速卡混合部署,大幅降低开发者迁移适配门槛,更具备向十万卡、百万卡规模的灵活扩展,可以更好地契合产业规模化发展需求。
此外,该集群也将成为国家超算互联网核心节点的核心AI算力支撑,并依托国家超算互联网实现一体化算力调度,从而可为全球用户提供通用、易用、高效、普惠的中国AI算力。
- 针对超大规模模型训练,scaleX万卡超集群可支持万亿参数模型的整机训练与容错恢复;
- 面向高通量推理场景,集群已服务于多家头部互联网用户的核心智能化业务,并通过联合深度优化持续提升推理效能;
- 在AI for Science领域,支撑国内某材料研发大模型登顶国际权威榜单,助力国内顶级科研团队将蛋白质研究效率提升3-6个数量级等;
- 搭配OneScience科学大模型一站式开发平台,可大幅降低多学科交叉研究的创新门槛。
尽管随着大模型参数爆发,“大算力”已经成为AI计算的主流发展方向,但在算力实际应用层面,当前市场上仍鲜有如此规模、且广泛触达需求侧场景的国产万卡集群。
有专业人士指出,万卡级计算系统本身技术门槛较高,涉及众多产业链环节,尤其以开放架构发展大规模智算集群,更要面临技术复杂性和生态复杂性双重挑战。
去年年底,中科曙光以系统性创新,攻克高速互联网络、存算传紧耦合设计、高密供电与散热、统一资源高效调度等关键技术难题,成功打造出全球首个基于AI计算开放架构的万卡超集群。而在短短两个月后,国产万卡集群在规模化部署和场景实践上再度取得了重大突破。
上述人士认为,万亿参数模型训练、高通量推理、AI for Science等大规模AI计算场景,正是集群算力最好的“试金石”。scaleX万卡超集群成功落地到国家超算互联网核心节点,并实现广泛的场景化需求覆盖,这预示着AI计算的“大集群标配”时代正加速到来。
“随着中国AI产业走深向实,与现实生产力完成更深度的对接,万卡计算集群将成为AI算力下一阶段的‘必争之地’。”业内对此充满期待。
热门跟贴