华为720亿参数大模型正式开源，4000颗昇腾训练，双架构设计太狠

小8说科技

2025-07-01 12:23 ·重庆 ·优质数码领域创作者

720亿参数，不靠堆料也能赢？这次，华为开源大模型玩明白了

6月30日，华为出招了。一口气放出两款自研大模型：720亿参数的稀疏模型盘古Pro MoE，以及70亿参数的“快思慢想”结构模型盘古Embedded 7B。

不仅模型开源，连基于昇腾NPU的推理优化代码都一并公开，整得非常彻底。

不少人第一反应是：这是不是又一波“国产替代”的声音？但认真看完这些技术细节后，恐怕你会意识到，这次的重点，不是简单追量，而是华为在架构设计和算力调度上的“破局”。

盘古Pro MoE这个名字你可能还不熟，但它的底层技术真的不简单。

这不是单纯的“多专家模型”（MoE）那一套，而是华为自研的分组混合专家架构MoGE。

说人话就是：训练时智能分配任务、推理时均衡调用专家模块，不浪费算力还跑得快，特别适合像昇腾这种并行能力强但要求精细调度的NPU平台。

你没看错，盘古Pro MoE的训练用了4000颗昇腾芯片，在13万亿tokens级别的高质量语料上跑通，还分成通用、推理、退火三个阶段“按部就班”训练。

这种精细打磨后，推理速度达到单卡1528 tokens/s，不但超了自己上一代，还直接压过了GLM-Z1-32B、Qwen3-32B这些当下最热门的模型。

这意味着什么？

在大模型圈，性能不是光堆参数就行的，背后的调度逻辑、优化算法、硬件适配才是决定能否落地的关键。华为这次明确释放了一个信号：盘古Pro MoE不光能跑，还能快、省电、适配广。

而另一个主角——盘古Embedded 7B，则走的是“轻巧实用”路线。

70亿参数的体积在大模型里不算大，但它采用了一个很有意思的“快慢思考”架构，轻量时走快速响应通道，遇到复杂问题再触发深度推理，这种类似人脑思维的机制，理论上能在兼顾效率的同时，保住准确率。

而华为搞这个“快慢双脑”也不是靠玄学。它背后用了强化学习、模型合并、奖励机制三段式训练流程，还真不是简简单单蒸馏就完事。这种方式，在多个权威测评中，实际跑赢了Qwen3-8B和GLM4-9B这类更大模型，足以证明它的设计不是噱头。

你可能会问：这些东西离普通人有啥用？我的看法是，这种级别的技术开源，不只是交个“作业”，而是在传递一个生态信号。华为要把昇腾NPU打造成真正意义上的国产AI底座，而不是依赖海外框架和芯片的“拼装生态”。

换句话说，过去大家说“开源”有点像姿态，但华为这次是连底层推理系统都开了，是真的要“请进来，用起来”。你想基于盘古二次开发模型、部署本地方案、打造自有大脑？现在它给你开门了。

当然，这一切仍然不能代表华为就此领先了整个AI生态。盘古Pro MoE再强，它面对的依旧是多语言、多任务、多平台的复杂环境，昇腾NPU再猛，软件生态也还在完善。

但你不得不承认，像这样真正从硬件到模型端“打通一条链”的国产方案，确实越来越稀有了。

这次盘古大模型的开源不只是一次技术展示，更像一次深水区的试探。参数不是最惊人的，但在模型架构和推理效率上，华为走了一条值得长期观察的路径。

未来几年，大模型一定会越来越重视“算力效率”而不是“参数恐惧症”。在这场博弈中，华为交出的答卷，不一定是最抢眼的，但绝对是最有力的。

如果你对这波盘古大模型怎么看？你觉得未来模型的参数数量还重要吗？欢迎在评论区聊聊，我们一块拆解这场国产大模型的博弈。

参考文章：720亿参数！华为首个开源大模型发布，用4000颗昇腾训练的-智东西

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴