来源:机器之心
大家新年快乐!今天和大家分享 KAN 作者刘子鸣最新发布的一篇博客。
过去的一年,我们见证了 Scaling Laws 持续发力,模型能力不断刷新天花板。虽然 AI 社区从未停止对可解释性的探索,但在工程进展如此迅猛的当下,我们对模型内部机制的理解,似乎总是慢了半拍。
刘子鸣在博客中,借用科学史提出了一个发人深省的观点:如果参照物理学的发展史,今天的 AI 可能还远未在这个时代的「牛顿力学」时刻,而是仍处于「第谷(Tycho)时代」,一个拥有大量观测和实验,却尚未来得及系统性总结规律的早期阶段。
我们拥有海量的实验数据和强大的模型,却缺乏对底层现象的系统性梳理。他指出,为了追求短期性能指标,AI 领域跳过了「理解」这一关键步骤,这实际上是在背负高昂的「认知债务」。
更为矛盾的是,当前的学术发表机制往往偏爱「完美的故事」或「巨大的性能提升」,导致大量像「第谷的观测记录」那样碎片化但极具价值的「AI 现象学」工作被忽视。
为此,刘子鸣呼吁建立一种「平易近人的现象学」:不以即时应用为导向,回归到用 Toy Model(玩具模型)进行可控的、多视角的假设驱动探索。他宣布将身体力行,通过博客分享「半成品」的实验笔记,并计划在清华大学开设相关课程,邀请社区共同偿还这笔认知债务,推动 AI 从「炼丹」走向真正的物理学。
明星数据科学家 Jeremy Howard 也在评论区表示赞同,长期以来「实验性观察」几乎无法在 AI/ML 期刊和会议上发表,这种现象无疑阻碍了该领域的发展。
AI 物理学需要思维模式的转变
大家都知道,物理学领域主要沿着「第谷 — 开普勒 — 牛顿」这一科研范式发展,而如果借用这一类比来理解 AI 的发展阶段,那么今天的 AI 研究很大程度上仍然停留在「第谷阶段」,即以「实验与观察」为主的阶段。
但即便是在「观察」这一层面,业界目前所做的事情也极其原始:大多数人关注的仍然只是少数几个基于性能的指标调优。这背后,源于物理学与 AI 在目标上的根本差异。
物理学的目标是通过「理解世界来改变世界」,其中「理解」本身占据着核心地位。因此,这个领域对那些能够提供洞见即便(暂时)没有实际用途的工作,也具有极高的容忍度。
相比之下,AI 的目标则是「直接改变世界」,近些年 Scaling Laws 的盛行使得整个领域得以跳过「理解」这一阶段,直接进入对 AI 本身进行改造和强化。但这似乎构成了一种认知债务(cognitive debt)—— 这种债务迟早是要偿还的,如果不是现在,那也会是在未来。
因此,现在就谈论 AI 的「牛顿力学」阶段还为时过早,即使是在基础现象学层面,仍处于非常早期的阶段。AI 的现象学可以是相对宏观的 —— 连接不同的模型,例如涌现与 Scaling laws,也可以更微观 —— 聚焦于训练动态,例如 Grokking、双下降(double descent)或稳定性边缘(edge of stability)……
我们首先需要发现更多现象,只有这样,我们才会有动力去建立模型,并发展理论来研究它们。
为什么 AI 现象学如此难以发展?
为什么 AI 现象学的发展如此困难?一个原因是论文发表文化在其中扮演了重要角色。
总结来看,当前可发表的工作往往只有两类:在性能上有显著提升的工作(在这种情况下,现象学似乎「没有必要」),或者拥有一个足够吸引人的「故事」。
而所谓「好故事」,通常有两种形式:
普适性(Universality):该现象必须在大量不同设定中都能被验证,稳定性边缘(edge of stability)就是一个例子。但这类工作对投稿的要求极高。
惊奇性(Surprise):现象必须足够反直觉、足够出人意料。这种情况非常罕见,也高度不可预测,grokking 就是代表性案例。
这也解释了为什么 AI 领域中被反复引用的现象学例子如此之少。在「AI 物理学」仍处于如此早期阶段的情况下,却对现象学提出了过高的期望,反而抑制了它的发展。
朱泽园所写的《大语言模型的物理学》是一项非常出色的工作,但从我与朋友们的交流来看,大家普遍的感受是:这很有意思,但不知道如果自己想进入这个领域,该从哪里开始。
同样的情况也出现在我们自己的工作《叠加导致稳健的神经缩放》《 Superposition Leads to Robust Neural Scaling》中。很多人好奇这样的「故事」是如何被构思出来的。
我无法代表整个 AI 物理学领域的整个研究群体,但从个人经验来看,我花费了大量时间去「包装」一个故事 —— 这既「浪费」自己的时间,也在无形中拉大了与读者之间的距离。
更重要的是,能够被包装成故事的现象极其稀少。许多我个人觉得非常有趣的现象,因为无法整理成一篇论文,最终只能被随意丢弃。
迈向更易理解的现象学
因此,我倡导一种更易于接近、更具包容性的现象学研究方式。这种方法将比当前的 AI 现象学更宽容,也更接近物理学中现象学的精神。它应当:
不以即时可用性为导向;
不被要求包装成一个完整的「故事」;
不限制分析工具,只要它们在描述、预测上是有效的。
同时,它将强调:
可控性:使用玩具模型来简化和抽象现实场景,使得结果能够用最少的资源复现(理想情况下,一台笔记本加一个 CPU 就足够了)。
多视角刻画:从尽可能多的角度和指标来描述研究对象 —— 就像「盲人摸象」。
好奇心或假设驱动的探索:现象应当能够带来新的洞见,定性结果已经足够,定量结果当然更好。
这种「可接近的现象学」也许不容易发表在主流 AI 会议上,但它对于社区建设具有极高价值。
比如,研究者 A 发现了一个现象(关键在于把它公开出来),B 将其与自己此前观察到的现象联系起来,C 将二者统一,D 进行理论分析,E 再将这些洞见转化为算法改进。最终,这五个人可以一起写一篇论文。
但在传统模式下,A 可能只会在一个很小的圈子里合作。就我对 AI 物理学社区的理解,目前这个领域仍然高度碎片化,往往按应用领域分割。例如,做视觉的研究者通常只与其他视觉研究者合作,他们的直觉也主要由视觉任务塑造。
那我们能够做什么
就我个人的经验来看,我是先从写博客开始的,开始以博客文章的形式,分享我们自己的「AI 现象学」研究。读者应当抱有这样的预期:这是同事在分享阶段性结果 —— 工作可能并不完整,但原始数据和思考过程会被透明地呈现出来。
目标有三点:
一是迫使自己记录观察结果:正如前面所说,无法写成论文的现象往往会被丢弃。这个尝试部分受到苏剑林博客的启发 —— 他的博客更偏向数学原理,而我的将更强调实验观察(现象学)、「物理直觉」,以及在必要时提供一些(半)定量分析,为未来的数学研究提供问题和直觉。
二是吸引志同道合的研究者与学生:如果你对这些问题感兴趣,欢迎联系我,一起探索。
课程准备:我计划在清华大学开设一门《Physics of AI》课程。这些博客文章(及配套代码)未来可能会成为课程材料。
那么对于你来说,该如何开始:
一是找到你真正关心的问题:例如,研究扩散模型损失函数的参数化方式,或复现已有现象(如 Grokking)。
定义一个简单的玩具模型:例如,李天宏与何恺明的 JIT 论文使用一个二维螺旋数据集来研究损失参数化。而理解 grokking 的最好方式就是自己亲手训练一个模加任务。
致力于彻底理解这个玩具模型:这是最困难的一步。由于发表文化的影响,我们往往急于从玩具模型跳到更真实的模型。一旦玩具模型给出了「正向结果」,我们就会立刻离开。这是一种监督式使用玩具模型。而我认为,玩具模型在无监督使用时,才能真正展现其力量。既然是玩具,就应当以孩童般的好奇心去对待它,反复把玩,从所有可能的角度理解它(就像盲人摸象)。
当然,我无法保证这些洞见会立刻转化为性能提升,但我相信:如果整个领域持续积累这样的理解,最终一定会发生一次类似渗流(percolation)的相变。
https://x.com/ZimingLiu11/status/2006810684546494522
https://kindxiaoming.github.io/blog/2025/physics-of-ai/
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
热门跟贴