打开网易新闻 查看精彩图片

2026年2月5日,农历腊月十八,在郑州,国家超算互联网核心节点正式上线试运行,在这个节点上,部署了3套由中科曙光提供的scaleX万卡超集群,最大可对外提供超过3万张AI加速卡的算力。

通过该核心节点的上线试运行,验证了国产算力基础设施的工程化能力,行业已从早期的单点突破转向了集群创新,并实现大规模的落地部署。

过去几年,人工智能产业的发展对算力提出了极其苛刻的要求,大模型的参数量从亿级向万亿级跃升,带来的直接后果是计算量的指数级增长。

然而,在很长一段时间里,国内算力产业面临着结构性的矛盾,需求侧急需大规模、稳定的算力,供给侧却呈现出严重的碎片化特征。

各家厂商在硬件设计、软件栈和互连协议上自成体系。

这种封闭的技术路线导致了算力资源难以跨平台调度,用户的迁移成本居高不下。这不符合算力作为新型公共基础设施的属性,就像电力系统,如果不同电厂发出的电无法并入同一张网,电力就无法成为驱动工业化的通用能源。

市场需要的是高效、安全、稳定的智能计算基础设施。

中科曙光在2025年明确提出了“AI计算开放架构”的战略方向,这一战略的核心逻辑在于分工与协作。

我们主张建立一个开放的产业格局,让国产芯片、整机、软件和大模型等产业链上下游的企业能够解耦协作。

在郑州上线的scaleX万卡超集群,正是这一战略落地的产物。而这套系统的工程化落地需要攻克一系列技术难关,包括软硬件协同优化、高密度集成、高效供电与散热、高速互连扩展、智能运维管理等。

例如,scaleX万卡超集群采用了超高密度刀片、浸没相变液冷等技术,将单机柜的算力密度提升了20倍,同时将PUE值(电源使用效率)降低到了1.04,在同样的空间内,我们能够部署更多的计算资源,同时大幅降低运行成本。

为实现集群系统的综合性能,进行了存、算、传一体化协同设计优化,通过“超级隧道”、AI数据加速等设计,实现从芯片级、系统级到应用级的三级数据传输协同优化,以高效应对大模型训练时万卡并发读写对带宽的极致需求,提升高通量AI推理时的响应速度与结果精准度,并可将AI加速卡资源利用率提高55%。

更为关键的是,这套系统基于开放架构设计。

它能够支持不同品牌的国产加速卡进行异构部署,并在软件层面兼容CUDA等主流计算生态。目前,该系统已经实现了超过400个主流大模型和世界模型的适配优化。

这种兼容性降低了开发者的使用门槛,让用户拥有了更多的选择权,而不必被单一的技术路线所绑定。

算力设施建设的最终目的,是服务于实体产业,算力的价值,取决于它能否融入产业的作业流程,解决实际问题。

针对超大规模模型训练,万卡超集群可以支持万亿参数模型的整机训练与容错恢复。

面向高通量推理场景,超集群已服务于多家头部互联网用户的核心智能化业务,并通过联合深度优化持续提升推理效能。

在AI for Science领域,我们支撑国内某材料研发大模型登顶国际权威榜单,并助力国内顶级科研团队将蛋白质研究效率提升3—6个数量级。

同时搭配OneScience科学大模型一站式开发平台,超集群还能够大幅降低多学科交叉研究的创新门槛。

这些表明,当算力、数据和应用场景真正结合时,技术才能转化为推动经济发展的动能。

展望2026年,智能化的浪潮将推动计算产业进入一个新的发展周期。

中科曙光将继续坚持“开放”的技术路线。我们认为,在当前的产业环境下,只有基于开放的架构、统一的标准,才能有效联动起产业链上下游的企业、高校及科研院所,开展协同技术攻关,构建起具有国际竞争力的产业生态。

为此,我们将重点关注核心部件、整机系统、软件生态及应用服务的全链条创新,致力于解决异构算力的适配难题,提升算力资源的利用效率。无论是面对万亿参数的大模型训练,还是科学计算的复杂场景,我们都将提供成熟、可靠的解决方案。

积力之所举,则无不胜。

2026年,中科曙光将继续以务实的态度,推动国产智能计算基础设施向着开放、高效、安全的方向演进。

(经济观察报记者 郑晨烨)

(作者 郑晨烨)

免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。

打开网易新闻 查看精彩图片

郑晨烨

资深记者。关注新能源、半导体、智能汽车等新产业领域,有线索欢迎联系:zhengchenye@eeo.com.cn,微信:zcy096x。