打开网易新闻 查看精彩图片

训练一个大模型,电费够买几辆特斯拉——这不是段子,是硅谷公开的秘密。谷歌DeepMind的研究员们最近盯上了这个痛点,想了个办法:把算力拆碎,撒到全球各地的闲置机器上跑。

他们管这叫"去中心化训练"。原理有点像拼单:与其租一整块昂贵的GPU集群,不如把任务切成小份,谁有空闲算力谁来接活。论文数据显示,这种分布式跑法能把能耗成本压到传统集中式训练的50%以下。换句话说,电费直接腰斩。

「我们证明,地理位置分散的算力池可以匹配甚至超越数据中心的效率。」论文作者之一、DeepMind研究科学家Dougal J. Sutherland的原话。

这套方案的核心是"异步训练"——不再等所有机器同步,谁算完谁交卷,系统自己协调。听起来简单,但过去没人敢在大模型上这么玩,怕精度崩掉。DeepMind的 trick 是加了一层动态调度算法,自动给慢节点降权,快节点多派活。

目前这套系统已在内部实验性部署,用于训练下一代多模态模型。一位参与项目的工程师在Bluesky上吐槽:「终于不用看着电费账单失眠了。」