当AI大模型的参数量以"亿"为单位向"万亿"跃迁,全球人工智能产业正经历一场由算力密度定义的军备竞赛。

数据显示,我国AI芯片市场规模预计2028年将超一万亿元,约占全球市场的30%。面对庞大的市场需求,自主可控的高质量AI算力供给已成为我国抢占人工智能产业应用制高点、全方位赋能千行百业的前提条件。

打开网易新闻 查看精彩图片

那么算力缺口如何弥补?国产算力厂商又当如何破局?今天我们就来具体聊聊。

01 多重绞杀下,国产算力替代已到临界点

目前,国内头部厂商的智算集群正处于从"万卡向十万卡演进"的关键期,然而H200供应的反复波动使得大规模集群建设充满变数。更严峻的是,美国《远程访问安全法案》对远程算力调用的严格管控更是彻底封死了通过海外云服务商迂回获取高端算力的过渡方案。

当前,中国智算产业正面临结构性拐点:支撑下一代大模型所需的集群扩张路径受阻,万卡级集群的平滑演进充满不确定性。

在此背景下,工信部联合七部门发布的《"人工智能+制造"专项行动实施意见》明确提出"加快突破训练芯片、异构算力等关键技术",这不仅是一份产业政策,更是在地缘政治与技术封锁双重挤压下的战略宣言。

打开网易新闻 查看精彩图片

在这种"外部压力"和“内部推力”的双重叠加情况下,国产算力替代已到临界点。国产GPU规模化替代不再是市场选择问题,而是已经成为产业安全红线——AI算力连续性直接关乎模型迭代速度,模型迭代速度决定技术代际差距。那么谁能够在这场国产GPU突围战中成功胜出呢?

02 摩尔线程的三张技术王牌:全功能、训推双优、真训练万卡集群

GPU行业具有"高壁垒、重研发、长周期"特征,需跨越芯片设计、软件适配、场景落地等多重考验。摩尔线程选择从底层架构到软件生态全流程自主设计,依托自研MUSA架构构建"AI+图形"双轮驱动的全功能GPU体系,以三张技术王牌打破国产算力困局。

打开网易新闻 查看精彩图片

第一张王牌:全功能GPU的架构级通用性

要理解摩尔线程的技术路线,必须先厘清AI芯片的技术谱系。当前市场上主流的AI计算芯片可分为四类:

●第一类是专用AI芯片(如TPU、NPU),专为特定AI运算设计,能效比高但灵活性差,难以适应快速演进的模型架构;

●第二类是GPGPU(通用计算GPU),去除了图形渲染单元,专注于并行计算,虽提升了AI计算密度,但牺牲了图形处理与科学计算的通用性;

●第三类是传统图形GPU,专注于图形渲染与视频处理,AI计算能力薄弱;

●第四类则是全功能GPU(Universal GPU),也就是“功能完备+精度完整”的GPU。功能完备性在于“图算结合”,一个公式可以近似表达它的能力:全功能GPU= AI专用芯片+GPGPU(通用GPU)+图形GPU。精度完整性则是指单一芯片支持从FP64到FP4的完整精度谱系。

摩尔线程是目前国内唯一坚持全功能GPU路线的厂商,其自研的MUSA(Meta-computing Unified System Architecture)架构实现了单芯片同时支持AI智算、图形加速、科学计算与物理仿真、超高清视频编解码的技术突破。这种设计的战略价值在于它是“统一架构”。与英伟达路径类似,用同一套架构设计,既能造出AI计算芯片,也能造出图形芯片。相比之下,AMD虽为巨头,但其AI芯片和图形芯片分属两套不同的架构。

打开网易新闻 查看精彩图片

相比采用GPGPU或ASIC路线的单一AI加速卡产品,全功能GPU能够更好地应对AI产业的多模态演进趋势:例如具身智能需要同时处理视觉感知、空间推理与动作规划,AIGC需要图形渲染与AI生成的深度融合,科学计算(AI4S)需要FP64高精度与AI加速的协同,而只有全功能GPU能跨域支持所有这些计算范式。放眼全球,目前仅英伟达等极少数企业具备真正意义上的全功能GPU量产能力。摩尔线程的切入,填补了国内这类型产品的空白。

第二张王牌:训推双优的原生技术红利

训练与推理对算力的要求存在本质差异:

●推理任务更像是"开飞机"——虽然要求低延迟和高并发,但其计算复杂度和精度要求(INT8/FP8)远低于训练,而且推理任务不需要反复计算,只要在最短时间内给出结果。其对应的“推理芯片”主打能效与低成本。

●训练的"造飞机"属性决定了其技术门槛:它像打造火箭一样工序复杂、燃料充足、精度不能错,一旦出错就要返工重来。训练过程要喂进海量数据、反复计算参数,追求的是极致算力、显存带宽和分布式通信。其对应的“训练芯片”专攻极限性能。

传统方案往往采用异构芯片分别应对训推场景,这导致了数据格式转换的开销与优化损耗。摩尔线程基于MUSA架构实现"训推一体",同一芯片兼顾训练与推理场景。其旗舰产品MTT S5000采用第四代MUSA架构“平湖”,支持FP8到FP64的全精度计算,单卡AI算力最高可达1 PFLOPS,配备80GB显存(带宽1.8TB/s)与784GB/s卡间互联带宽。业内人士表示,MTT S5000性能直接对标英伟达H100。

打开网易新闻 查看精彩图片

实战验证更有说服力:

●在训练上,基于MTT S5000千卡智算集群与FlagOS-Robo框架,完成智源自研具身大脑模型RoboBrain 2.5的全流程训练,训练损失值(loss)差异仅为0.62%,首次验证了国产算力具备具身大脑模型训练实力;

●在推理上,携手硅基流动实现DeepSeek-V3大模型高性能推理,实测单卡Prefill(预填充)吞吐超4000 tokens/s,Decode(解码)吞吐超1000 tokens/s,刷新了国产GPU的推理纪录。

作为国内最早原生支持FP8精度的训练GPU,MTT S5000配置了硬件级FP8 Tensor Core加速单元,可以为DeepSeek、Qwen等前沿架构带来超过30%的训练性能提升。这不仅显著降低了训练成本与周期,也为AI研发实现更快速的迭代与优化提供了关键支持。

第三张王牌:能够率先实现万卡集群高效训练的工程成熟度

单卡算力远不足以训练大模型,万卡集群的稳定性才是核心壁垒。当集群规模从千卡扩展至万卡,节点故障、性能抖动、通信与存储瓶颈都会成为常态化挑战。许多在千卡规模下可以容忍的风险,在万卡场景中会被指数级放大。真正的技术护城河不在于单卡峰值算力,而在于集群的线性扩展效率与长期稳定性。

摩尔线程的夸娥万卡集群展现了工程级的可靠性。基于摩尔线程MTT S5000构建的夸娥万卡集群,浮点运算能力达到10Exa-Flops,支持万亿参数模型训练。关键指标显示:从64卡扩展至1024卡,线性扩展效率超90%,这意味着随着算力资源的增加,训练速度几乎同步倍增;Dense模型MFU达60%,MOE模型MFU达40%,有效训练时间超90%。

打开网易新闻 查看精彩图片

更关键的是对"静默错误"的治理能力。在万卡训练中,最危险的往往是"不报错"的故障——如静默数据错误、计算Hang住或Inf/NaN等数值异常。摩尔线程通过软硬件协同的RAS(可靠性、可用性、可维护性)体系,实现了异步Checkpoint、慢节点治理与全链路可观测性,将万卡训练从"能跑"推进到"可持续稳定地跑"。

打开网易新闻 查看精彩图片

这一系列突破直击行业痛点:当前国内多数算力集群仅能支撑推理,而摩尔线程已成为少数实现万卡集群高效训练的企业,多项指标达国际主流水平。

03 不止简单替代,重构自主生态的长期主义

在2025年,摩尔线程顺利完成IPO,并成为“国产GPU第一股”。资本化带来的不仅是研发投入增量,更是战略透明度与长期路线图的可信度。其披露的"花港"下一代架构与"华山""庐山"产品矩阵,更被业界称为国产算力的下一代“基石”。

"花港"架构是下一代MUSA架构,支持FP4至FP64全精度计算,算力密度提升50%,效能提升10倍。这并非简单的工艺迭代,而是瞄准了AI计算的发展趋势:训练端向FP4/FP8极低精度演进以提升吞吐量,推理端需FP16/FP32维持精度,科学计算依赖FP64。全精度覆盖能力意味着单架构可支撑从具身智能训练到AIGC推理再到工业仿真的全场景。

打开网易新闻 查看精彩图片

MUSA不仅是芯片架构,运行在芯片上的所有软件,同样属于MUSA。在软件栈层面,MUSA提供了从驱动、Runtime到开发者套件的全栈支持,不仅兼容CUDA生态,还支持TensorFlow、PyTorch等主流AI框架以及国产操作系统,通过软硬协同实现“一次开发,全场景(云、边、端)部署”,能够极大降低开发者迁移门槛与开发成本。

MUSA的最上层,是生态,这也是架构生命力的终极呈现。为了系统化培育GPU开发生态,摩尔线程打造了摩尔学院平台,构建了线上学院与线下培训协同的服务体系,并与广大开发者、合作伙伴携手合作,共同构建一个自主可控、开放共赢的国产GPU计算新生态。

结语:国产算力的"全功能"答卷

当国产GPU替代进入临界点,摩尔线程以全功能架构、训推双优能力与万卡集群工程成熟度,给出了差异化答案,并以长期主义构建国产GPU自主生态。其价值不仅在于技术突破,更在于说明:自主可控的算力基础设施,需要"全功能"的通用底座。

选择国产全功能GPU,是构建多元算力底座、降低供应链风险的理性决策。在复杂多变的国际环境下,建立自主可控的算力基础设施,需要产业界以开放心态拥抱包括摩尔线程在内的多种国产解决方案,共同筑牢AI产业发展的根基。

声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。