打开网易新闻 查看精彩图片

大型语言模型正在以前所未有的速度改变世界,但有一个事实,AI圈子里很少有人愿意大声说出来:没有人真正理解它为什么管用。

深度学习诞生至今已有数十年,神经网络的参数量从百万膨胀到万亿,但支撑这一切的基础理论框架,几乎不存在。LeCun曾直言"深度学习的理论基础仍是一片荒原",Hinton也公开表达过类似的忧虑,把深度学习的成功类比为炼金术,我们知道配方有效,但不知道为什么。

就在最近,这片荒原上出现了一道裂缝。

打开网易新闻 查看精彩图片

ResNet的出现,是何恺明对梯度消失问题的工程性修补;Transformer的注意力机制,最初是为了解决序列建模中长距离依赖的痛点;GPT系列的扩展,更多依赖的是算力和数据规模的暴力堆叠。每一次突破,几乎都来自工程直觉和大规模实验,而非理论推导。

这种"先做出来再说"的模式代价惨重。一个训练失败的模型摆在面前,研究者往往只能靠经验和运气调参,因为没有理论告诉你问题出在哪里,也没有公式预测改变哪个变量会带来什么后果。

打开网易新闻 查看精彩图片

其中最引人注目的是两类发现。第一类是神经网络版的"氢原子",也就是那些可以被精确求解的简化模型。深度线性网络是其中最典型的例子,当激活函数被替换为恒等映射,研究者证明了随机梯度下降在这类网络上总能找到全局最优解,并能精确描述每一步更新的轨迹。另一个是NTK(神经切线核)理论,当网络宽度趋于无穷时,训练动态可以用一个固定的核函数完整描述,就像量子力学里可以解析求解的谐振子。这些玩具模型看起来远离现实,但它们提供了理解复杂系统的概念基础,正如氢原子模型奠定了整个量子化学的根基。

第二类发现更具颠覆性:不同架构的神经网络,在完全不同的数据集上训练之后,竟然会学到高度相似的内部表征。一个ResNet和一个Vision Transformer,在ImageNet上各自训练到收敛,比较它们中间层的激活模式,会发现结构出奇地一致。更神奇的是,这种一致性甚至跨越了视觉和语言的模态边界。

打开网易新闻 查看精彩图片

拉瓦锡之前的化学,是配方的积累,直到原子论和元素周期表出现,它才成为一门精密科学。深度学习此刻站在同样的转折点上,所有碎片已经散落在那里,等待有人把它们捡起来,拼在一起。