伯克利、哈佛、宾夕法尼亚、斯坦福重磅综述：“学习力学”将成为深度学习的科学理论

新浪财经

2026-04-28 00:31 ·河北 ·优质财经领域创作者

来源：市场资讯

（来源：图灵人工智能）

您想知道的人工智能干货，第一时间送达

来自Berkeley，Pennsylvania，Harvard，New York，Stanford大学等多位顶尖学者联合发表综述【文献1】，为深度学习的科学理论做奠基。

观点

论文开篇提出，一个能刻画神经网络训练过程、隐藏表征、最终权重和性能的科学理论正在形成。

作者整合了五个主要研究方向作为证据：

1）可求解的理想化模型；2）提供洞见的极限分析；3）描述宏观量的简单定律；4）对超参数的理论解耦；5）跨系统的普遍行为。

这些工作的共同点是，关注训练动态过程、描述粗粒化统计量、强调可证伪的定量预测。

论文将这一新兴理论命名为“学习力学”，并主张它应该是一门数学化、基于第一性原理、能精确预测与实证的学科，最终像物理学那样对整个机器学习领域产生广泛影响。

1. 引言

深度学习是当前最强大也最令人费解的黑箱方法，理论落后于实践，模型仍靠大量试错训练。论文主张：

一个深度学习的科学理论，正以学习力学的形态浮现。

1.1 什么是学习力学？

1.2 学习力学为什么重要

2. 证据

深度学习的运动方程是显式且高度可测量的，核心挑战是高维非线性带来的复杂性。

2.1 存在可解析的理想化模型

通过研究简化但不失代表性的模型来构建直觉，是物理学的成功范式，深度学习亦然。

2.2 富有洞察的极限揭示基本行为

复杂系统在无限大的极限下常会简化，就像理想气体定律在粒子数无限的热力学极限下导出，却能够描述现实气体。这一思路是深度学习理论的核心工具。

无限宽度与惰性核/富特征二分：

其他极限：

无限深度、上下文长度等极限同样存在。不同变量的联合缩放极限尤其重要，如将参数和数据量同时推向无穷，是理论解释计算最优缩放定律的关键。

离散化假说：

一个普遍信念是，真实网络可被理解为无限大理想模型的有噪、有限离散化版本。这暗示着，有限宽度、深度等效应通常只是对理想性能的扰动和成本妥协，而不是带来根本性的优势。

2.3 简单的经验定律捕捉有意义的宏观统计量

科学史上许多重要定律（例如牛顿三定律、欧姆定律）都是先作为经验规律被发现。深度学习同样具备这一条件。

粗粒化与潜表征权重：

包括神经坍缩，网络末层特征会形成规则的几何结构；神经特征假设，首层权重的结构与输入梯度的外积相关；以及守恒定律，源自参数化中的对称性。

2.4 超参数可以被解耦和理解

架构超参数：

最大更新参数化（µP）是这个方向的典范。它在宽度放大时，通过理论设定每一层的初始化方差和学习率缩放，保证了超参数在不同模型尺寸间的可迁移性，使得用小模型搜索最优超参数并直接用于大模型成为可能，极大降低了调参成本。

2.5 普遍现象

许多非平凡的行为不止出现一次，而是在不同架构、数据集和任务中反复涌现，或许是理论存在最根本的证据。有三类普遍现象：

3. 视角

3.1 统计和信息论

3.2 机制可解释性

机制可解释性可以比作深度学习的生物学，目的是通过解剖神经网络，在神经元和回路层面理解具体的内部机制，例如特定的安全或不安全的计算环路。

学习力学则可以比作深度学习的物理学，目的是寻找支配网络学习、特征形成和动态演化的普遍第一性原理，就像物理学为所有物质提供底层规律一样。

3.3 共生关系

这两种视角应是共生、互相支持的。

4. 异见

作者坦承，构建这样的理论很困难，且学界对理论能走到多远存在合理质质疑。论文逐一回应四种核心反对意见。

4.1 网络有数十亿参数，动态高度非线性和耦合，不可能有简洁理论。

4.2 当前理论多基于无限宽度、梯度流、高斯数据等假设，与现实脱节。

4.3 真实世界的数据分布无比复杂且无法刻画，理论注定无法处理。

4.4 深度学习进步靠的是算力、工程和直觉，理论并无实际用处。

5. 方向

综述列举十个方向展示学习力学当前面临的挑战的深度和广度，吸引不同背景的研究者参与。

为离散化假说建立严格基础：

2.2节真实网络是有噪离散近似，需要将这个概念数学化，并定量计算出有限宽度、深度、学习率等引入的修正项，证明它们在有利情况下确实很小。

理解分布式训练和同步的作用：

大规模训练多采用数据并行等分布式策略，这会改变噪声结构和有效批量大小。理论需要告诉我们分布式训练何时会改变学习的结果，以及如何最优地设置并行度。

与人脑和生物学习建立联系：

作为长远愿景，学习力学揭示的约束和最优策略，可能会对理解生物大脑的学习规则和计算原则提供深刻的规范性洞见。

6. 组织

大家可以找到组织了：learningmechanics.pub 。

对照

与笔者的大模型数理框架对照分析：

与“学习力学”意图一致，笔者通过数理框架刻画训练动力学、表征结构与泛化行为之间的关系，本质上是高维统计系统的演化规律。

这是笔者心目中的整体图景：

大模型是一个在高维概率空间中，通过重整化流演化、借助Attention进行粗粒化，并通过对称性破缺形成范畴结构的统计物理系统。

这个框架不仅良好匹配前沿的大模型行为，也在神经生物学新发现中不断得到验证。读者可以参考《清熙》的相应文章。

文献1，There Will Be a Scientific Theory of Deep Learning，https://arxiv.org/pdf/2604.21691

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴