一个做AI基础设施的团队,把模型训练的成本结构拆成了三行配置。不是优化算法,不是换芯片,是给开发者发了一张"调参权限卡"。
从黑箱到白盒:训练成本终于能手动拧了
Solon AI 这周放出的 Harness,核心就一件事:把分布式训练里那些原本锁死在框架内部的决策,扔给用户自己选。用他们的话说,这叫"可编程训练系统"——听着像行话,翻译成产品经理的语言就是:以前你只能选"省内存"还是"快一点",现在你能精确到每个GPU的通信策略、梯度同步频率、甚至失败时的回退方案。
具体拆成三块。第一块叫编排(Orchestration),管的是任务怎么切分、怎么调度到集群里。第二块是并行策略(Parallelism),数据并行、模型并行、流水线并行,选哪种、混多少比例,自己填。第三块是容错(Fault Tolerance),训练断了从哪恢复、丢多少进度,也由配置决定。
这三块以前都埋在 PyTorch 或 Megatron 的默认逻辑里,改一行要 fork 整个框架。 Solon 的做法是把这些策略抽成独立的"Harness",像换电池一样插拔。一个 YAML 文件,十几行配置,就能让同一个模型在 64 卡 A100 和 512 卡 H100 上跑出完全不同的成本曲线。
他们给了一组内部数据:用 Harness 重新调度的 GPT-3 规模训练,通信开销从 35% 压到 12%,端到端时间少了 23%。没换硬件,没改模型,纯调参。
为什么是现在:大模型训练正在变成"调度博弈"
2024 年的 AI infra 有个尴尬的现实:算力越买越多,利用率越挖越低。微软去年自曝,部分集群的 GPU 有效利用率不到 40%。不是卡不够,是任务排不满、通信拖后腿、故障恢复慢。
Solon 的团队背景很有意思。创始人之前在做区块链基础设施,搞过分布式系统的故障恢复。按他们 CEO 的说法,「大模型训练和区块链共识有个共同点:都要在不可靠的网络上追求确定性结果。」这个类比未必精确,但解释了 Harness 的设计直觉——把"容错"当成一等公民,而不是事后补丁。
具体实现上,Harness 用了两个 trick。一是把并行策略的表达从"选模式"变成"写公式",用户可以用类似 SQL 的语法描述张量怎么切、怎么聚合。二是引入了" speculative checkpointing",根据训练稳定性动态调整存盘频率,省下的存储带宽能再喂给计算。
一个细节:Harness 的容错模块支持"部分回滚",意思是八卡任务断了一卡,不用全重启,剩下的七卡接着跑,丢的那块用备份梯度补上。 这在超大规模训练里是真金白银——一次完整重启可能烧掉几十万美元。
生态位之争:框架层还是平台层?
Solon 给自己划的地盘很微妙。他们不做模型,不做芯片,也不直接卖算力。Harness 的定位是"训练系统的操作系统"——向下对接各种集群调度器(Slurm、Kubernetes、甚至云厂商的专有系统),向上暴露统一的配置接口。
这个位置的竞争对手不少。DeepSpeed 和 Megatron-DeepSpeed 组合已经占了主流,NVIDIA 的 NeMo 也在推类似的策略配置。Solon 的差异化在于"可编程性"的粒度更细:DeepSpeed 的 ZeRO 优化是一组预设档位,Harness 允许你自定义每一层的梯度聚合方式。
代价是门槛。Solon 的文档里有一整章讲"如何为你的网络拓扑选择 all-reduce 算法",涉及带宽延迟积、拓扑感知路由、甚至 NCCL 的底层调参。这显然不是给"调包侠"准备的工具。
他们的目标用户画像很清晰:有 1000 卡以上集群、养得起专门做训练优化的工程团队、模型参数量在 70B 以上的公司。目前公开的客户名单里,有两家做多模态大模型的初创,一家云厂商的 AI 实验室,还有一家没透露名字的"头部短视频平台"。
开源策略与未解的问题
Harness 的核心代码以 Apache 2.0 开源,但企业版加了两个模块:一个是自动调参的搜索器(用贝叶斯优化找最优配置),另一个是多云混布的能力(把 AWS 和 GCP 的实例拼成一个虚拟集群)。
这个分层很聪明。开源版足够让社区验证技术,企业版切中的是"没人想自己写自动调参"的痛点。Solon 的商业模式是订阅制,按集群规模收费,年费在 15 万到 50 万美元区间。
但有几个问题 Harness 还没回答。一是和云厂商的关系——AWS 的 Trainium、Google 的 TPU,这些专有硬件的优化策略能否同样表达?Solon 说"技术上是可行的",但代码还没放出来。二是编译层面的深度优化,比如 XLA 或 Triton 的算子融合,Harness 目前还是依赖外部工具链,没有自己做。
最实际的疑问来自用户侧。一个在某头部大模型厂做训练优化的工程师告诉我,「我们内部 fork 的 Megatron 改了 8000 多行,迁移成本不是换配置文件能解决的。」Harness 的兼容性承诺能做到什么程度,得等更多真实案例。
Solon 在发布文档的最后埋了一个数字:用 Harness 重新跑一遍 LLaMA-2 70B 的训练,在相同收敛精度下,总成本可以压到官方报告的 62%。他们没放复现细节,但把这个数字开源成了社区挑战——任何人用 Harness 跑出更好的结果,可以领一笔奖金。
这笔奖金的金额,恰好等于一次典型故障重启的云计算账单。
热门跟贴