打开网易新闻 查看精彩图片

GPT-4能解复杂数学题,大语言模型还会写代码、做逻辑推理,不少人都惊呼AI出现了“涌现智能”。

但学界对这事吵得厉害,核心就两个问题:这些能力算不算真“涌现”?模型变强了就等于变聪明了吗?

打开网易新闻 查看精彩图片

本来想把涌现说得简单点,但后来发现不先讲清楚科学定义容易跑偏。

其实涌现在复杂科学领域不是新鲜词,物理学家安德森有句名言“多者异也”,意思是系统规模变大后,会冒出全新的宏观属性。

最典型的就是水分子,单个看就是氢氧原子的组合,没什么特别的。

可无数水分子聚在一起,就涌现出了流体力学的各种特性。

打开网易新闻 查看精彩图片

而且真正的涌现,不只是突然变强那么简单。

复杂系统科学家说,核心是“粗粒化”和“有效理论”的形成,说白了就是系统能用更简洁的方式描述自己的行为,不用盯着每个微观细节。

就像研究水的流动,没人会去追踪每个水分子的位置和速度,只要知道压力、流速这些宏观变量就行。

打开网易新闻 查看精彩图片

除了水,晶体形成也能说明这一点,单个原子杂乱无章,大量原子有序排列后,就会涌现出固定形状、硬度这些宏观属性。

学界对涌现还有几个判断标准,比如规模化效应、临界相变、信息压缩等等。

搞懂这些,再回头看大语言模型的所谓“涌现”,才能更清楚争议在哪。

打开网易新闻 查看精彩图片

最经典的就是三位数加法测试,60亿参数的模型准确率才1%,130亿参数的勉强到8%,1750亿参数的突然就飙到80%。

这一下,很多人都觉得涌现真的来了。但很快就有反对声音。

斯坦福大学的研究者发现,要是换一种更连续的评估指标,这些“突变”就没了,性能提升其实是平滑的。

他们觉得所谓的涌现,可能只是评估方法造成的假象。

打开网易新闻 查看精彩图片

后来谷歌DeepMind团队研究PaLM2模型时,也发现了类似的“相变”现象,可换了评估指标后,这一现象同样消失了,这也让质疑的声音更响了。

还有个叫OthelloGPT的模型很有意思,它学下棋时,内部自己形成了对棋盘状态的压缩表征,有点像“涌现世界模型”。

它没被明确教过棋盘概念,却自己“发现”了这种结构。

这看起来好像符合涌现的定义,毕竟出现了新的、压缩的内部表征。可质疑声还是没断。

打开网易新闻 查看精彩图片

有人说这个“世界模型”可能就是一堆启发式规则的集合,算不上什么真正的涌现。

而且这种内部结构和模型性能之间的因果关系还没搞清楚,说不定只是巧合。

更关键的是,最新研究发现,有些曾被叫“涌现能力”的现象,其实缺乏稳健的泛化性。

打开网易新闻 查看精彩图片

现在学界分成了两派,一派觉得模型只是靠海量数据和参数的暴力拟合,把能力“编程”进去了,这是工程堆砌不是涌现,另一派则认为只要内部形成了压缩表征结构,就符合涌现定义。

目前还没谁能说服谁。

搞不清涌现能力和涌现智能的区别,很容易对AI产生误判。

简单说,涌现能力是具体的功能性表现,就像计算器能做加减乘除、开方积分,功能很强,但没人会说计算器有智能。

打开网易新闻 查看精彩图片

因为它只是按预设算法工作,没法在不同概念间建立类比,也不会创造新的解决方法。

涌现智能就不一样了,它是更一般、更精炼的能力,核心是“少者丰也”。

用最少的概念和能量消耗,解决最多的问题,人类智能就是典型的涌现智能。

我们能通过抽象和类比,把不同领域的规律统一起来,比如用“平方反比律”概括牛顿力学和电磁学的部分规律。

打开网易新闻 查看精彩图片

而且我们靠寥寥数语的指令,就能让别人在几分钟内理解复杂任务,不用漫长的试错学习。

对比之下,当前的大语言模型更像无数个高度特化“计算器”的集合。

它们靠海量参数和数据暴力拟合,实现了很多令人眼花缭乱的功能,但在概念压缩、类比创造这些方面,还差得很远。

认知科学里有个苛勒的黑猩猩顿悟实验,黑猩猩没经过大量训练,就能通过抽象思维把箱子叠起来拿到高处的香蕉,这就是“以简驭繁”的雏形。

打开网易新闻 查看精彩图片

可大模型要掌握类似的迁移能力,得在训练数据里见过成千上万个类似例子。

麻省理工的认知科学家JoshTenenbaum也说,人类智能的核心是“直觉理论”,靠原则性知识理解世界,而大模型更多是“模式识别机器”,靠统计规律工作,不是真正的理解。

2024年MIT的最新研究还指出,大模型的语言训练可能存在三种上限,目前大多停留在“语言是无监督的编程语言”阶段,并没真正理解语言背后的世界规律。

其实现在学界有个共识,大语言模型确实有一些“涌现能力”的初步证据,尤其是内部形成压缩表征的案例。

打开网易新闻 查看精彩图片

但大多数只靠外部性能提升就宣称涌现的说法,还站不住脚。

未来的研究不该再迷恋基准测试分数的提升,而要深入模型“黑箱”内部,去探寻那些支持压缩、泛化和类比的结构与机制。

比如模型内部是不是真的形成了类似“概念”的东西,这些“概念”之间能不能建立像人类那样的关联网络。

对于我们普通人来说,不用神化AI,也不用贬低它。

打开网易新闻 查看精彩图片

它确实是强大的工具,但还不是真正的智能。

而对于科研人员来说,要清楚真正的智能从来不是靠“暴力堆砌”实现的,而是靠优雅的压缩和抽象。

我们到底是在创造更强大的工具,还是孕育真正的新型智能?答案,或许就藏在“更多”与“更少”的辩证法里。

打开网易新闻 查看精彩图片