720亿参数,不靠堆料也能赢?这次,华为开源大模型玩明白了

6月30日,华为出招了。一口气放出两款自研大模型720亿参数的稀疏模型盘古Pro MoE,以及70亿参数的“快思慢想”结构模型盘古Embedded 7B。

不仅模型开源,连基于昇腾NPU的推理优化代码都一并公开,整得非常彻底。

不少人第一反应是:这是不是又一波“国产替代”的声音?但认真看完这些技术细节后,恐怕你会意识到,这次的重点,不是简单追量,而是华为在架构设计和算力调度上的“破局”。

盘古Pro MoE这个名字你可能还不熟,但它的底层技术真的不简单。

这不是单纯的“多专家模型”(MoE)那一套,而是华为自研的分组混合专家架构MoGE。

说人话就是:训练时智能分配任务、推理时均衡调用专家模块,不浪费算力还跑得快,特别适合像昇腾这种并行能力强但要求精细调度的NPU平台。

你没看错,盘古Pro MoE的训练用了4000颗昇腾芯片,在13万亿tokens级别的高质量语料上跑通,还分成通用、推理、退火三个阶段“按部就班”训练。

这种精细打磨后,推理速度达到单卡1528 tokens/s,不但超了自己上一代,还直接压过了GLM-Z1-32B、Qwen3-32B这些当下最热门的模型。

这意味着什么?

在大模型圈,性能不是光堆参数就行的,背后的调度逻辑、优化算法、硬件适配才是决定能否落地的关键。华为这次明确释放了一个信号:盘古Pro MoE不光能跑,还能快、省电、适配广。

而另一个主角——盘古Embedded 7B,则走的是“轻巧实用”路线。

70亿参数的体积在大模型里不算大,但它采用了一个很有意思的“快慢思考”架构,轻量时走快速响应通道,遇到复杂问题再触发深度推理,这种类似人脑思维的机制,理论上能在兼顾效率的同时,保住准确率。

而华为搞这个“快慢双脑”也不是靠玄学。它背后用了强化学习、模型合并、奖励机制三段式训练流程,还真不是简简单单蒸馏就完事。这种方式,在多个权威测评中,实际跑赢了Qwen3-8B和GLM4-9B这类更大模型,足以证明它的设计不是噱头。

你可能会问:这些东西离普通人有啥用?我的看法是,这种级别的技术开源,不只是交个“作业”,而是在传递一个生态信号。华为要把昇腾NPU打造成真正意义上的国产AI底座,而不是依赖海外框架和芯片的“拼装生态”。

换句话说,过去大家说“开源”有点像姿态,但华为这次是连底层推理系统都开了,是真的要“请进来,用起来”。你想基于盘古二次开发模型、部署本地方案、打造自有大脑?现在它给你开门了。

当然,这一切仍然不能代表华为就此领先了整个AI生态。盘古Pro MoE再强,它面对的依旧是多语言、多任务、多平台的复杂环境,昇腾NPU再猛,软件生态也还在完善。

但你不得不承认,像这样真正从硬件到模型端“打通一条链”的国产方案,确实越来越稀有了。

这次盘古大模型的开源不只是一次技术展示,更像一次深水区的试探。参数不是最惊人的,但在模型架构和推理效率上,华为走了一条值得长期观察的路径。

未来几年,大模型一定会越来越重视“算力效率”而不是“参数恐惧症”。在这场博弈中,华为交出的答卷,不一定是最抢眼的,但绝对是最有力的。

如果你对这波盘古大模型怎么看?你觉得未来模型的参数数量还重要吗?欢迎在评论区聊聊,我们一块拆解这场国产大模型的博弈。

参考文章:720亿参数!华为首个开源大模型发布,用4000颗昇腾训练的-智东西