今天在第九届数字中国建设峰会上,中科曙光超智融合算力集群正式被纳入全国一体化算力网。
据了解,集群接入将为“东数西算”纵深推进和“人工智能 +”战略实施注入关键动能,也是落实“十五五”规划纲要的具体举措。
有行业专家指出,规模堆到 6 万卡,会面临大量瓶颈:传统 InfiniBand 组网容易卡脖子,多数智算中心建成后只能跑低精度 AI 场景,高精度科学计算又很难实现普惠应用...
中科曙光这套集群亮出六张底牌,基本都打在痛点上:
1、全精度计算,支持 8/16/32/64 位宽。传统超算玩双精度,AI 训练用低精度,科学智能(AI4S)偏偏要混合精度。这个集群能在一个平台上同时搞定高精度数值模拟和大模型训练,直接填了“智算中心做不了高精度”的坑。
2、400G 无损网络,自研 scaleFabric,国内首款类 InfiniBand RDMA 方案。不用进口IB交换机,供应链更安全,端口成本也低。端侧通信延迟低于 1 微秒。
3、存算协同,“超级隧道”加 AI 数据加速,专门缓解万卡集群最常见的存储 IO 瓶颈。
4、智能调度,并发作业调度效率超每秒万次。
5、浸没相变液冷,PUE 压到 1.04 以下,“东数西算”的绿色指标轻松过。
6、数字孪生运维,可用性 99.99%,故障预测、自动调优。
过去科研机构和中小企业为什么喊“算力贵、算力难”?因为跑 AI4S,既需要超算的高精度,又需要智算的大规模并行。但市面上大量智算中心只支持低精度训练,传统超算对AI负载又不友好。两边不靠,干活的人最难受。
这套超智融合算力集群接入全国一体化算力网后,意味着它不再是某个大厂的私有资源,而是可调度、可计价的基础设施。一个中小实验室,只要申请就能调用。
值得一提的是,集群搭载国内首个科学大模型一站式开发平台 OneScience,海量科学数据集、行业知识库与大模型在线,“超级科学计算智能体”可以自动拆任务、调模型、调度算力。科学大模型开发从几个月缩到几小时,科研任务从天级压到小时级。
同时,全国一体化算力网会沉淀大量调度数据、用户反馈、运营效率指标。这些数据反哺回来,直接推动国产算力技术迭代 —— 哪里卡顿、哪里浪费、哪里调度不灵,用户说了算。
久而久之形成正循环:用得越多,迭代越快。
中科曙光这次给出了一个可观测的样本,超智融合集群通过国家级平台向全社会开放时,科研算力的玩法将全面改写。透过这一窗口,国产算力用系统能力弥补单点差距的打法,将展现出真正的含金量。
热门跟贴