14位顶尖学者联手！深度学习终有理论，终结炼金术时代|炼金术|神经网络|量子化学

大型语言模型正在以前所未有的速度改变世界，但有一个事实，AI圈子里很少有人愿意大声说出来：没有人真正理解它为什么管用。

深度学习诞生至今已有数十年，神经网络的参数量从百万膨胀到万亿，但支撑这一切的基础理论框架，几乎不存在。LeCun曾直言"深度学习的理论基础仍是一片荒原"，Hinton也公开表达过类似的忧虑，把深度学习的成功类比为炼金术，我们知道配方有效，但不知道为什么。

就在最近，这片荒原上出现了一道裂缝。

ResNet的出现，是何恺明对梯度消失问题的工程性修补；Transformer的注意力机制，最初是为了解决序列建模中长距离依赖的痛点；GPT系列的扩展，更多依赖的是算力和数据规模的暴力堆叠。每一次突破，几乎都来自工程直觉和大规模实验，而非理论推导。

这种"先做出来再说"的模式代价惨重。一个训练失败的模型摆在面前，研究者往往只能靠经验和运气调参，因为没有理论告诉你问题出在哪里，也没有公式预测改变哪个变量会带来什么后果。

其中最引人注目的是两类发现。第一类是神经网络版的"氢原子"，也就是那些可以被精确求解的简化模型。深度线性网络是其中最典型的例子，当激活函数被替换为恒等映射，研究者证明了随机梯度下降在这类网络上总能找到全局最优解，并能精确描述每一步更新的轨迹。另一个是NTK（神经切线核）理论，当网络宽度趋于无穷时，训练动态可以用一个固定的核函数完整描述，就像量子力学里可以解析求解的谐振子。这些玩具模型看起来远离现实，但它们提供了理解复杂系统的概念基础，正如氢原子模型奠定了整个量子化学的根基。

第二类发现更具颠覆性：不同架构的神经网络，在完全不同的数据集上训练之后，竟然会学到高度相似的内部表征。一个ResNet和一个Vision Transformer，在ImageNet上各自训练到收敛，比较它们中间层的激活模式，会发现结构出奇地一致。更神奇的是，这种一致性甚至跨越了视觉和语言的模态边界。