百度开源训练框架，国产芯片也能跑千亿模型了

报错免疫体

2026-05-09 17:17 ·北京

4月24日，DeepSeek V4 虽迟但到。

1.6T 参数，MIT 协议全量开源，百万级上下文直接拉满。

鼓掌的除了整个科技圈，还有那些在前一天卖空 Minimax 和智谱股票的股民们。

但内行人更关注的是，DeepSeek V4 创新性地用了两套全新的底层设计：Engram 条件记忆模块和 mHC（流形约束超连接）。

核心目的只有一个：在保持模型效果的前提下，把训练和推理的成本打下来。

这说明了一件事：模型层面的创新，正在和基础设施层面的创新深度绑定。

一个月前，OpenAI 核心基础设施团队的大牛翁家翌说了一段话，在技术圈疯传："现在的大模型竞争，拼的不是 Idea 多精妙，而是 AI Infra 的正确性与单位时间内的迭代次数。Idea 是廉价的，能被快速验证的 Idea 才值钱。"

这句话，百度智能云的百舸团队显然听进去了。

最近，他们开源了一个 AI 训练框架，直接把这场"速度战"的烈度往上抬了一个量级。

一个几百亿参数的模型，一张 GPU 卡装不下，得"切"成很多块，放到几十张甚至几千张卡上同时训练。

怎么切？模型有几百层，每层都要切，切错了就跑不起来。

怎么通信？几千张卡在训练，每张卡算完自己的部分，要和其他卡交换数据。交换慢了，整个训练就慢了。

怎么管理显存？模型参数、梯度、优化器状态，都要占显存。显存不够，训练就崩了。

怎么保证稳定？几千张卡跑几天几夜，中间某张卡出问题了，整个训练要重来吗？

这些问题，如果让每个工程师自己解决，那得累死。于是就有了"训练框架"。

它像一个智能管家——自动切分模型、优化通信、管理显存、保证容错。

有了这个"老师傅"，工程师才能专注于模型创新，而不是被工程细节拖死。

把时间拉回两年前，那时大模型基本都是"纯文字"，训练框架早就很成熟了，而且绑在 NVIDIA 一棵树上。

但到了现在，情况变了：文生图、图生文、视频理解、机器人控制……所有最性感的 AI 方向，都是多模态。

训练多模态模型，和训练纯文字大模型，完全不是一个概念。

多模态模型——视觉编码器（ViT）+ 语言模型（LLM）+ 投影层，三个模块参数量差了上百倍。传统框架只能给它们强制套用同一套并行策略——小的模块闲死，大的模块累死。

多模态数据差异巨大：单张图片约 256 token，20 分钟视频超 10 万 token。

Attention 的计算复杂度是序列长度的平方级，分到视频的那块 GPU，计算量是分到图片的上万倍。

国产芯片越来越多地进入大模型训练场景，但训练框架是深度绑定英伟达 GPU。换芯片？重写一遍，维护两套代码，成本极高。好不容易迁移完了，还发现性能对不上。

老框架们面对多模态，就像中年人面对 996，力不从心。

百度智能云百舸团队给出的答案，是一个全模态训练框架——覆盖纯文字（LLM）、视觉语言（VLM）、机器人控制（VLA），甚至文生图（Diffusion）场景。

但说人话就是：他们把上面那三个坑，一个一个填了。

传统框架"一刀切"的并行策略，对视觉编码器和语言模型都不友好。

新框架的做法是：把这两者解耦，各自独立配置最优的并行方案。

这相当于什么？以前是三个人挤一张桌子吃饭，小个子够不着，大个子伸不开腿。现在是各坐各的桌椅，各用各的餐具，谁也不耽误谁。

传统框架的"大锅饭"思路，不只耽误效率，还浪费成本。

新框架引入了一套自动负载均衡机制：计算量大的样本（比如长视频），少分配一些；计算量小的样本（比如单张图片），多分配一些。目标是让每块 GPU 拿到的计算量尽量相当。

这就像一个聪明的项目经理，给能力强的人多分配任务，让团队整体效率最高。

解释一下这个 90%+ 是什么概念——千卡规模下，很多框架的扩展效率掉到 60-70% 就已经算不错了。90%+ 意味着几乎线性扩展，每一分算力都花在了刀刃上。

针对芯片绑定的问题，新框架做了一个叫 XPU_Plugin 的硬件接入层——底层硬件差异被这层插件吃掉。同一份训练代码，只改一个环境变量，就能在 GPU 和昆仑芯之间无缝切换。想"两条腿走路"的公司，不需要维护两套代码库了。

这甚至意味着，NVIDIA 的生态壁垒，被拆掉了一层。

新框架还解决了一个更刁钻的问题：MoE 模型的通信瓶颈。

MoE 有大量"专家"分散在不同 GPU 上，训练要频繁跨 GPU 通信，长序列时通信成百上千次，速度被拖死。业界常规做法是让计算和通信"重叠"——GPU 算当前数据时，同时传输下一批，通信时间"藏"在计算里。但提前存下一批数据，显存会爆炸，长序列时这块显存可能比模型本身还大。

所以 MoE 训练要么显存爆炸，要么通信慢。

新框架的解法是一套组合拳。DeepSeek v3.2 用了稀疏注意力技术，只计算重要关系，忽略不重要的，大幅降低计算量。新框架对此做了深度优化：算子融合、索引优化、KV 布局优化、序列拼接。

另一个痛点是新模型接入。传统框架的模型定义和分布式策略深度耦合，每来一个新模型，得深入底层改代码，周期以周计。新框架把两者解耦，模型定义完全独立，接入周期缩短到小时级。

翁家翌那句话的含金量还在上升：能被快速验证的 Idea 才值钱。框架把工程门槛打下来，验证速度才能上去。

从更宏观的视角看，这件事的意义不止于技术层面。

训练框架是 AI 基础设施的核心组件，之前基本是海外巨头的天下。百度这次开源，意味着国产 AI 基础设施又多了一块关键拼图。

对于想做大模型的公司来说，多了一个不绑定单一芯片的选择。对于国产芯片来说，多了一个能被真正用起来的软件生态。

模型创新 + 基础设施创新，两条腿走路的范式，正在变成现实。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴