作者丨论文团队
编辑丨ScienceAI
如果 AI 能够比人类更精准、更高效地发现统治 AI 系统的「牛顿定律」,那么 AI 自我进化的奇点是否已经临近?
Scaling Laws(扩展定律)被誉为现代 AI 领域最接近「科学」的工具。从 Chinchilla 到 GPT-4,它指导研究者利用「小规模实验」精准预测「大模型的性能」,决定了算力分配、数据配比等关键决策。
然而,随着 AI 技术的演进,Scaling Law 的发现过程正变得愈发艰难。从经典的预训练拓展到强化学习、混合专家模型(MoE),每一个新场景都需要研究人员手动进行大量的假设、拟合与试错。
既然 AI 如此强大,为什么不让 AI 自己去发现 Scaling Law 呢?
近日,来自北京大学、斯坦福大学、宽德投资和清华大学的研究团队提出了一项开创性工作:Scaling Law Discovery (SLD)。这项工作不仅构建了包含 5000 多个真实实验的基准测试 SLDBench,还提出了一种基于进化的智能体框架 SLDAgent。令人惊讶的是,这个 AI 智能体发现的 Scaling Law,在预测精度和外推能力上已经超越了人类专家。
目前,该论文已被 ICLR 2026 接收。
论文地址:https://arxiv.org/abs/2507.21184
项目主页:https://linhaowei1.github.io/scaling_law_discovery/
HuggingFace:https://huggingface.co/collections/pkuHaowei/scaling-law-discovery
痛点:被「手动档」卡住的 AI 科研
Scaling Law 本质上是一个经验公式,预测模型性能(Loss、准确率等)与规模变量(模型参数量 N、数据量 D、计算量 C 等)之间的关系。
最经典的莫过于 Chinchilla 定律:
虽然公式看似简洁,但在实际科研中,发现正确的公式往往伴随着巨大的试错成本。
作者团队分享了一个真实的「血泪史」:在 2023 年进行大模型微调研究时,他们试图用预训练中经典的幂律(Power Law)去拟合微调性能,结果彻底失败。他们发现微调过程存在一个明显的「预幂律阶段(pre-power phase)」,现有 Scaling Law 公式根本无法准确描述。
微调过程中观察到的两阶段行为:预幂律阶段和幂律阶段。
最终,团队不得不专门写了一篇论文(https://arxiv.org/abs/2402.02314,发表于 ICML2024)来提出「修正后的 Scaling Law」。虽然结果很好(误差 RMSD 从 0.036 降到了 0.007),但过程极其耗时。
这揭示了一个残酷的现实: 每一项新的 AI 技术的大规模拓展(SFT、MoE、词表大小、并行策略等)都在呼唤新的 Scaling Law,而目前发现 Scaling Law 的这种「假设 → 拟合 → 失败 → 重来」的人工试错循环,已经成为制约 AI 发展的瓶颈。
SLDBench:首个 Scaling Law 发现基准
为了解决这个问题,研究团队首先需要定义:什么叫做「做好了 Scaling Law 研究」?
为此,他们构建了 SLDBench。这不是一个普通的合成数据集,而是基于从现有文献中收集的超过 5000 个真实的大模型训练实验构建的实验数据。
SLDBench 涵盖了从预训练、微调到 MoE 等多种场景的任务。
SLDBench 的独特之处在于:
1. 真实数据:智能体拿到的是真实的实验结果,不需要自己跑昂贵的训练。
2. 客观评估:不仅看拟合得好不好,更看外推(Extrapolation)得准不准。即用小规模数据发现规律,预测大规模模型的效果。
3. 未知探索:即便对人类专家来说,许多任务也没有已知的「完美公式」。SLDBench 完全模拟了真实世界中的「开放式科研」探索。
4. 高效轻量:相比于其他智能体评测任务(例如 SWEBench,MLEBench),SLDBench 不需要复杂的环境就能运行,科学发现的难度却不亚于这些任务。
这使得 SLDBench 成为衡量 AI 是否具备「科学发现能力」的绝佳标尺。
SLDAgent:公式和优化算法的共进化
发现 Scaling Law 绝不仅仅是找出一个数学公式 f(x) 那么简单。作者团队指出:「发现一个公式」和「找到让公式生效的拟合过程」同等重要。
许多漂亮的数学公式因为数值不稳定、难以拟合,在实际工程中毫无价值。
因此,该研究提出了 SLDAgent。这是一个基于进化算法(Evolutionary Algorithm)的智能体,它不是在单点优化,而是同时协同进化两个部分:
1. 符号表达式(Expression):即 Scaling Law 的数学形式。
2. 优化器(Optimizer):即如何稳健地拟合该公式参数的算法代码。
SLDAgent 的进化管线,同时搜索公式形式和拟合策略。
SLDAgent 从一个基线(如 Power Law + BFGS)出发,通过变异、交叉等操作不断生成新的变体,并利用类似 MAP-Elites 的机制保持种群的多样性。这种「协同优化」完美模拟了人类研究员「提出假设 → 调整拟合方法 → 验证」的科研闭环。
实验结果:AI 战胜了人类
在 SLDBench 上,SLDAgent 展现出了惊人的能力。在多个任务中,AI 发现的定律在准确性和外推能力上均超越了人类此前发表的成果。
SLDAgent 在各项任务中均优于人类发现的定律。
更有趣的是 AI 赢的方式。它并不是靠堆砌复杂的公式来「过拟合」,而是经常能发现更具物理意义的简洁形式。
案例 1:SFT 定律的物理意义
在 SFT 任务上,SLDAgent 发现的定律比人类提出的定律在量纲上更可解释。
案例 2:自动寻找最佳超参(学习率 & Batch Size)
对于预训练来说,如何根据模型规模选择最佳的学习率(lr)和 Batch Size(bsz)是老大难问题。
传统方法(来自阶跃星辰:https://step-law.github.io/)可能需要跑 3000 个实验,然后只选出 17 个「最优作为点」来拟合规律。而 SLDAgent 选择了一条更硬核的路:直接对整个 Loss 曲面 L (N, D, lr, bsz) 建模。
一旦得到了 Loss 曲面的公式,通过求偏导并令其为零,SLDAgent 就能直接推导出最优超参数的闭式解。这不仅利用了所有实验数据,还极大地提升了预测的鲁棒性。
SLDAgent 提出的 Scaling Law 求导后得到的最优超参非常接近最优超参。
迈向 AI 科学家
这篇 ICLR 2026 的接收论文给社区带来了一个重要的启示:
目前的 AI Agent 评估大多集中在写代码或做数学题上,而 SLD(Scaling Law Discovery) 提供了一个全新的视角 —— 评估 AI 进行科学研究的能力。
它要求 AI 具备符号推理能力、多场景泛化能力、长程规划能力,以及面对真实世界嘈杂数据时的鲁棒性。
正如作者在文中所言:「SLDBench 是我们将『AI 用于 AI 研究』这一概念进行程序化、基准化乃至最终自动化的初步尝试。」
也许在不久的将来,当我们面对新的 AI 架构时,不再需要人类苦苦试错,而是直接交给 AI 科学家,静待它给出那个支配系统的「牛顿定律」。
热门跟贴