6 月 24 日,前 OpenAI 安全研究副总裁、Thinking Machines Lab 联合创始人翁荔(Lilian Weng)在她的个人技术博客 Lil'Log 上发表了最新长文《Scaling Laws, Carefully》。这篇大概两万多字的文章,对深度学习中最重要的经验发现之一:缩放定律(Scaling Laws),进行了一次从起源到前沿的系统性梳理。
同时,翁荔也以少见的审慎态度指出:这套被 AI 行业奉为圭臬的理论工具,在实际拟合和外推过程中充满了容易被忽视的陷阱。
“AI 圈最好的技术博客”再次更新
对于关注 AI 研究的从业者来说,Lil'Log 是一个不需要介绍的名字。
自 2017 年起,翁荔就开始在这个博客上记录学习笔记,从强化学习入门综述写到扩散模型、LLM 自主智能体、对抗攻击、推理时计算(test-time compute)等前沿话题,每篇文章都以数万字的篇幅,将某一研究领域从理论基础到最新进展系统串联,配上清晰的数学推导和精心绘制的图表。因为兼具深度与可读性, Lil'Log 成为机器学习领域被引用和推荐最多的个人技术博客之一。
这背后也有翁荔本人履历的支撑。她本科毕业于北京大学信息管理与信息系统专业,本科期间曾赴香港大学交流,后前往美国印第安纳大学伯明顿分校攻读博士学位,研究方向为复杂网络与系统。
2018 年,她加入 OpenAI,先后参与机器人和应用研究工作,后升任研究与安全副总裁,负责 OpenAI 的安全系统建设等工作。2024 年 11 月,她从工作了近七年的 OpenAI 离职。2025 年 2 月,翁荔与前 OpenAI 首席技术官 Mira Murati、OpenAI 联合创始人 John Schulman 等人共同创立了 Thinking Machines Lab。这是一家以公益公司形式注册的 AI 研究与产品公司,首轮融资即达 20 亿美元,估值 120 亿美元,是硅谷历史上规模最大的种子轮融资之一。
尽管已经跻身创业公司联合创始人之列,翁荔始终没有停止在 Lil'Log 上写作,她持续以长篇综述机器学习的重要研究方向的形式梳理。2023 年,她发表的《LLM Powered Autonomous Agents》成为 AI Agent 浪潮中最具影响力的技术综述之一;2025 年,她又推出关于推理时计算(Test-Time Compute)的长文《Why We Think》。而这篇最新的《Scaling Laws, Carefully》,则是她加入 Thinking Machines Lab 后发布的第二篇博文。
从经验到公式:缩放定律的来龙去脉
这篇文章开篇便点明了缩放定律(Scaling Laws)的核心发现:随着模型规模(参数量 N)、数据集规模(Token 数 D)和计算量(FLOPs,C)的增加,训练损失会按照幂律(power law)持续下降,在 log-log 坐标系中近似表现为一条直线。正是这种高度可预测的规律,使研究者能够先在一系列小规模实验上拟合缩放曲线,再据此外推更大模型所需的参数规模、训练数据和计算资源,从而成为大模型预训练阶段最重要的规划工具之一。
翁荔将缩放定律的发展历程梳理为几个关键阶段。
首先是早期的学术奠基。她将这一研究脉络追溯到 1992 年 Amari 等人的理论工作。研究者利用贝叶斯框架推导出四类学习曲线,发现无论是确定性还是随机学习算法、有噪声还是无噪声数据,其泛化误差都呈现幂律下降。随后,Hestness 等人在 2017 年开展的大规模经验研究进一步验证了这一现象:在机器翻译、图像分类、语言建模和语音识别等多个任务中,泛化误差与训练数据规模之间都表现出稳定的幂律关系。更重要的是,幂律指数更多由任务本身决定,而非模型架构;不同架构主要改变的是整条曲线的位置,而不是下降趋势。
其次是 Kaplan 缩放定律的确立。2020 年,Kaplan 等人首次系统建立了现代意义上的语言模型缩放定律。基于参数规模从约 77M 到 1.5B 的 Transformer 模型实验,他们发现模型损失分别与参数规模 N、数据规模 D 和计算量 C 均满足稳定的幂律关系。其中影响最深远的一条结论是:在固定计算预算下,与其把一个较小模型训练到充分收敛,不如优先扩大模型规模。论文给出的最优缩放关系显示,当计算预算增加 10 倍时,模型参数约增加 5.5 倍,而训练 Token 只需增加约 1.8 倍。
最后是 Chinchilla 论文的修正。两年后,Hoffmann 等人在 2022 年发表的 Chinchilla 论文重新审视了这一结论。通过固定模型变数据、IsoFLOP 分析和参数化拟合三种方法,他们发现,在固定计算预算下,模型规模与训练数据应近似同比例增长,而不是像 Kaplan 所建议的那样优先扩大模型参数。
为验证这一观点,他们在与 Gopher(280B 参数、约 300B Token)相同的计算预算下,训练了 Chinchilla(70B 参数、约 1.4T Token)。尽管模型参数缩小了约四倍,但由于训练数据增加到四倍以上,最终性能全面超过 Gopher。这一结果也促使行业重新认识到,当时的大语言模型普遍存在“训练不足”(undertrained)的问题。
两篇里程碑论文,得出相反结论?
由于 Kaplan 与 Chinchilla 之间的分歧十分重要,翁荔在文中专门用一节讨论。她指出,两篇论文看似相互矛盾,但真正的问题并非谁对谁错,而是实验规模、参数定义和外推方式的不同,共同放大了两者之间的差异。
第一个原因是实验规模的不同。Kaplan 等人的实验主要集中在相对较小的模型区间,而 Chinchilla 的实验规模则扩大了一个数量级以上。在缩放定律中,研究者通常需要在有限规模的数据上拟合幂律曲线,再将结果外推到远大于实验范围的模型。当拟合曲线的指数存在细微差异时,这种差异在 log-log 空间经过长距离外推后,会演变成截然不同的资源配置建议。
第二个原因较为隐蔽,主要在于两位学者采用的模型参数的统计口径并不一致。Kaplan 论文在统计模型规模时排除了 Token embedding 参数,而 Chinchilla 则采用了模型全部参数。在早期较小规模的 Transformer 中,嵌入层参数占总参数的比例并不低,因此两篇论文虽然分析的是“模型规模”,实际上使用的却不是同一个变量。
翁荔也进一步引用 Pearce 和 Song 于 2024 年的研究指出,只要将嵌入层参数重新纳入计算,并建立总参数与非嵌入参数之间的映射关系,Kaplan 与 Chinchilla 的缩放曲线便能够在相当程度上统一起来。
换句话说,Kaplan 的结论不是错误,而是在其所覆盖的小模型区间内,对更一般缩放规律的一种局部近似;随着模型规模继续扩大,最优计算分配才逐渐过渡到 Chinchilla 所描述的“模型规模与数据规模近似同比增长”的规律。
当缩放定律回到现实
除了回顾缩放定律的发展历史,翁荔还专门讨论了一个越来越现实的问题:当高质量训练数据不再无限时,经典缩放定律还能成立吗?
早期的缩放定律几乎都建立在一个隐含假设之上。训练数据充足且不会重复。然而,随着大语言模型不断扩张,可用于训练的高质量文本正在逐渐逼近上限,业界近年来频繁提及的“数据墙”(Data Wall)正是由此而来。在这样的背景下,如何刻画重复数据的价值,开始成为缩放定律研究的新方向。
翁荔重点介绍了两项代表性工作。Muennighoff 等人于 2023 年提出,将训练 Token 拆分为唯一 Token 数和重复次数两个维度,并发现重复数据带来的收益会呈指数衰减:每增加一次重复,每个 Token 所能贡献的信息量都会按固定比例递减,而不是像经典缩放定律假设的那样始终等价。
更进一步,Lovelace 等人在 2026 年提出了新的经验模型,在缩放公式中显式加入过拟合惩罚项。研究发现,模型规模越大,对重复数据越敏感;而增强权重衰减等正则化方法,则能够在一定程度上缓解重复训练导致的过拟合。
不过,翁荔也特别提醒,这两类模型目前都仍然属于经验拟合,其背后的理论机制尚未建立。为什么重复数据会呈现这样的收益曲线?不同模型为何会表现出不同的敏感性?这些问题至今仍缺乏统一解释,也是未来缩放定律研究的重要方向。
细节决定成败
最后,如果只用一句话概括整篇文章的核心观点,那就是:缩放定律或许是深度学习最成功的经验规律之一,但它远不是一条可以机械套用的自然定律。
为了说明这一点,翁荔详细分析了 Besiroglu 等人于 2024 年对 Chinchilla 方法三(Method 3)的复现工作。这项研究发现,一些看似无关紧要的实现细节,足以改变最终得到的缩放规律。例如,原论文采用 L-BFGS-B 优化器进行参数拟合,但由于目标函数使用的是平均损失而非损失总和,数值尺度过小,优化过程会提前停止;此外,论文中公开的数据仅保留两位有效数字,进一步增加了拟合误差,使最终推导出的最优模型规模与数据配比产生明显偏移。
这些问题并不会推翻缩放定律本身,却说明它对拟合过程异常敏感:数据精度、优化器设置、拟合区间、参数定义等每一个细节,都可能影响最终得到的幂律指数,进而改变对未来更大模型的资源规划。
为了让这种敏感性更加直观,翁荔还在文章最后加入了一个交互式模拟工具。读者可以自行调整损失精度、噪声水平、拟合区间等参数,实时观察这些看似微小的变化,如何一步步放大为完全不同的缩放曲线和资源预测结果。
Careful,Scalling Laws
过去几年,缩放定律已经从一条经验规律,逐渐演变成整个大模型行业最重要的规划工具之一。对于 OpenAI、Anthropic、Google DeepMind 等前沿实验室来说,它的意义早已不仅仅是解释模型为什么会变强,更重要的是回答一个更现实的问题:下一代模型究竟值不值得训练,以及应该如何训练。
今天,一个 Frontier Model 的训练成本往往高达数十亿美元。模型应该做多大?需要准备多少训练数据和 GPU?不同的资源如何分配才能获得最大的性能提升?这些问题不可能依靠一次次完整训练来试错,而必须先借助缩放定律,在小规模实验上拟合曲线,再据此外推未来模型的表现。缩放定律开始承担着整个行业资源规划和资本投入的预测功能。
也正因为如此,翁荔讨论的并不是一个纯粹的学术问题,这关乎整个 AI 产业的决策。
她没有否定缩放定律,而是重新审视了这套工具本身的可信边界。从 Kaplan 与 Chinchilla 的分歧,到数据受限条件下的新模型,再到 Besiroglu 对拟合过程的重新复现,她不断强调一个事实:缩放定律的预测能力,很大程度上依赖于模型参数如何定义、损失函数如何拟合、实验覆盖了哪些规模区间,以及训练数据是否满足其隐含假设。
对于一个正在依据缩放定律决定未来数十亿美元乃至上百亿美元算力投资方向的行业而言,这些是决定资源配置是否正确、模型路线是否合理的关键前提。
或许,这也是她将文章命名为《Scaling Laws, Carefully》的真正含义:真正需要谨慎的,不是缩放定律本身,而是人们对缩放定律的使用方式。它仍然是深度学习最有价值的经验工具之一,但只有在充分理解其假设、适用范围和局限性的前提下,它才能成为可靠的指南针。
https://lilianweng.github.io/posts/2026-06-24-scaling-laws/
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
热门跟贴