算力基础设施建设,国产替代进入深水区

当前,大模型scaling law仍在持续生效,万卡乃至十万卡集群已成为训练下一代模型的入场券。马斯克麾下的xAI在短短数月内建成Colossus 2 GW级集群,折合约30~50万张H100,理论算力超过2500EFLOPS,不仅刷新了工程速度,更划定了全球AI军备竞赛的新门槛。

然而,对于中国AI产业而言,这扇门正面临被焊死的风险。受限于地缘政治与供应链博弈,英伟达H200等尖端芯片生产受限,且进入中国市场后还将面临美国的审核与追踪,国内头部互联网厂商与大模型企业的算力焦虑日益加剧。

算力,正成为关乎国家数字主权与新质生产力发展的战略基石。

面对外部封锁,政策端正加大力度支撑。工信部近期明确提出加快突破训练芯片关键技术,大基金三期注资、信创采购倾斜等“组合拳”接连落地。信创纵横认为,2026-2027年将成为国产GPU替代的关键窗口期。在这一阶段,市场需求已经不止是单个大算力节点,还需要能够支撑万卡互联、长时间稳定训练、精度对标国际主流的算力集群。

多项指标达国际先进水平,摩尔线程提供高效万卡集群方案

在很长一段时间里,国产GPU面临着“单节点性能尚可,集群效率打折”的质疑。打破这一刻板印象,需要用真实的工程数据说话。作为国产全功能GPU的领军企业,摩尔线程凭借旗舰产品MTT S5000及其配套的万卡集群,正在重塑行业信心。

“夸娥”万卡集群的出现,体现了国产算力从单点突破到万卡集群的实力。资料显示,基于S5000构建的夸娥万卡集群,浮点运算能力达到10Exa-FLOPS,在大规模集群训练效率上,从64卡扩展至1024卡,系统实现了90%以上的线性扩展效率,扩展曲线呈线性增长趋势,算力损失高度可控。

对于大模型训练而言,稳定性就是金钱。摩尔线程S5000夸娥万卡集群在Dense模型上的MFU(算力利用率)达60%,在MOE模型上达40%,有效训练时间超过90%。意味着在大规模并行计算和通信调度上,国产算力集群具备了支持万卡级训练的能力,也为算力基础设施建设提供了安全、高效的替代选项。

打开网易新闻 查看精彩图片

兼顾大规模训练与推理,摩尔线程从可用走向好用

国产替代,不是为替代而替代。摩尔线程在近期开发者大会上公布的两个案例,用证明了国产算力在真实业务场景中,不仅可用,还正走向好用。

在训练端,国产GPU首次教会机器人思考。摩尔线程联合智源研究院,基于S5000千卡集群成功完成了具身大脑模型RoboBrain2.5的全流程训练。实测数据显示,S5000集群上的Loss走势与国际主流GPU训练结果高度重合,相对误差小于0.62%。在2D/3D空间感知推理等权威评测中,部分任务效果甚至优于H100。这是行业内首次验证国产算力集群在具身智能大模型训练中的可用性,实现了代码不改、精度不降的平滑适配。

在推理端,单卡性能逼近国际水平。在DeepSeek-V3 671B满血版大模型的推理中,摩尔线程携手硅基流动,基于S5000单卡跑出了惊人的成绩:Prefill吞吐量突破4000 tokens/s,达H100同场景的61%以上;Decode超过1000 tokens/s。这一性能突破得益于S5000对FP8精度的原生支持,以及MUSA架构中ACE引擎对通信任务的卸载。对于算力基础设施建设商而言,这意味着无需依赖海外芯片,利用国产芯片,即可实现高性能、低成本的大模型部署。

打开网易新闻 查看精彩图片

不止是S5000,下一代芯片加速建设国产算力底座

从马斯克的GW级集群到工信部的政策指导,可以看到,算力即未来的基础设施。

摩尔线程S5000的万卡集群,证明了国产GPU已经跨过了从0到1的生存阶段,正在向从1到10的生态繁荣阶段迈进。S5000凭借全功能架构,单芯片集成AI计算、图形渲染、视频编解码等能力,不仅能训能推,还能兼顾科学计算与物理仿真,极大地提升了算力资产的复用性。

展望未来,摩尔线程已宣布下一代全功能GPU架构“花港”及AI计算芯片“华山”。新架构将支持FP4到FP64全精度,算力密度提升50%,效能提升10倍,并支持10万卡规模以上的超大规模集群能力。

在AI与物理世界深度融合的浪潮下,国产算力正迎来最好的时代

对于正在寻求算力安全与供应链稳定的中国算力基础设施而言,以摩尔线程S5000为代表的国产万卡集群方案,不再是备选,而是在实践中检验后的重要选项。