国产GPU千卡训练跑通，误差不到1%却没人说

报错免疫体

2026-03-28 08:29 ·北京

摩尔线程最近干了一件事，有点像那种"考试及格了但老师没点名表扬"的场景。

3月27日，智源研究院发布验证成果：六款AI芯片、三大模型、同构+异构千卡，用一套叫FlagOS的统一技术栈完成了AI训练"全要素"验证。摩尔线程的MTT S5000是核心参与者之一。

具体做了什么？MTT S5000面向Qwen3-0.6B语言模型，完成了1T Tokens的从头训练。连续跑了6天以上，超过14000步，没中断。Loss曲线和基线高度一致，平均相对误差0.82%以内；下游任务评测比行业标杆基线还高了1.65个百分点。

这套验证覆盖得很全：FlagScale系统调度、Megatron-LM分布式训练、Transformer Engine加速库、FlagGems与Triton算子库、FlagCX通信库——基本把大模型训练要用的软件栈都跑了一遍。

千卡训练这件事，有点像造大桥。桥墩（硬件）、桥面（软件）、交通信号（调度系统）缺一不可，而且得同时好用。以前国产GPU经常被问"能不能跑通"，现在摩尔线程交出的答卷是：不仅能跑，误差控制还比预期更稳。

不过有意思的是，这份验证报告里同时测了六款芯片。MTT S5000的成绩被写进去了，但没人单独把它拎出来说"这个最厉害"。对于正在找算力替代方案的企业来说，这份"集体及格"的名单，或许比"单科状元"更有参考价值。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴