GPT-4能解复杂数学题,大语言模型还会写代码、做逻辑推理,不少人都惊呼AI出现了“涌现智能”。
但学界对这事吵得厉害,核心就两个问题:这些能力算不算真“涌现”?模型变强了就等于变聪明了吗?
本来想把涌现说得简单点,但后来发现不先讲清楚科学定义容易跑偏。
其实涌现在复杂科学领域不是新鲜词,物理学家安德森有句名言“多者异也”,意思是系统规模变大后,会冒出全新的宏观属性。
最典型的就是水分子,单个看就是氢氧原子的组合,没什么特别的。
可无数水分子聚在一起,就涌现出了流体力学的各种特性。
而且真正的涌现,不只是突然变强那么简单。
复杂系统科学家说,核心是“粗粒化”和“有效理论”的形成,说白了就是系统能用更简洁的方式描述自己的行为,不用盯着每个微观细节。
就像研究水的流动,没人会去追踪每个水分子的位置和速度,只要知道压力、流速这些宏观变量就行。
除了水,晶体形成也能说明这一点,单个原子杂乱无章,大量原子有序排列后,就会涌现出固定形状、硬度这些宏观属性。
学界对涌现还有几个判断标准,比如规模化效应、临界相变、信息压缩等等。
搞懂这些,再回头看大语言模型的所谓“涌现”,才能更清楚争议在哪。
最经典的就是三位数加法测试,60亿参数的模型准确率才1%,130亿参数的勉强到8%,1750亿参数的突然就飙到80%。
这一下,很多人都觉得涌现真的来了。但很快就有反对声音。
斯坦福大学的研究者发现,要是换一种更连续的评估指标,这些“突变”就没了,性能提升其实是平滑的。
他们觉得所谓的涌现,可能只是评估方法造成的假象。
后来谷歌DeepMind团队研究PaLM2模型时,也发现了类似的“相变”现象,可换了评估指标后,这一现象同样消失了,这也让质疑的声音更响了。
还有个叫OthelloGPT的模型很有意思,它学下棋时,内部自己形成了对棋盘状态的压缩表征,有点像“涌现世界模型”。
它没被明确教过棋盘概念,却自己“发现”了这种结构。
这看起来好像符合涌现的定义,毕竟出现了新的、压缩的内部表征。可质疑声还是没断。
有人说这个“世界模型”可能就是一堆启发式规则的集合,算不上什么真正的涌现。
而且这种内部结构和模型性能之间的因果关系还没搞清楚,说不定只是巧合。
更关键的是,最新研究发现,有些曾被叫做“涌现能力”的现象,其实缺乏稳健的泛化性。
现在学界分成了两派,一派觉得模型只是靠海量数据和参数的暴力拟合,把能力“编程”进去了,这是工程堆砌不是涌现,另一派则认为只要内部形成了压缩表征结构,就符合涌现定义。
目前还没谁能说服谁。
搞不清涌现能力和涌现智能的区别,很容易对AI产生误判。
简单说,涌现能力是具体的功能性表现,就像计算器能做加减乘除、开方积分,功能很强,但没人会说计算器有智能。
因为它只是按预设算法工作,没法在不同概念间建立类比,也不会创造新的解决方法。
涌现智能就不一样了,它是更一般、更精炼的能力,核心是“少者丰也”。
用最少的概念和能量消耗,解决最多的问题,人类智能就是典型的涌现智能。
我们能通过抽象和类比,把不同领域的规律统一起来,比如用“平方反比律”概括牛顿力学和电磁学的部分规律。
而且我们靠寥寥数语的指令,就能让别人在几分钟内理解复杂任务,不用漫长的试错学习。
对比之下,当前的大语言模型更像无数个高度特化“计算器”的集合。
它们靠海量参数和数据暴力拟合,实现了很多令人眼花缭乱的功能,但在概念压缩、类比创造这些方面,还差得很远。
认知科学里有个苛勒的黑猩猩顿悟实验,黑猩猩没经过大量训练,就能通过抽象思维把箱子叠起来拿到高处的香蕉,这就是“以简驭繁”的雏形。
可大模型要掌握类似的迁移能力,得在训练数据里见过成千上万个类似例子。
麻省理工的认知科学家JoshTenenbaum也说,人类智能的核心是“直觉理论”,靠原则性知识理解世界,而大模型更多是“模式识别机器”,靠统计规律工作,不是真正的理解。
2024年MIT的最新研究还指出,大模型的语言训练可能存在三种上限,目前大多停留在“语言是无监督的编程语言”阶段,并没真正理解语言背后的世界规律。
其实现在学界有个共识,大语言模型确实有一些“涌现能力”的初步证据,尤其是内部形成压缩表征的案例。
但大多数只靠外部性能提升就宣称涌现的说法,还站不住脚。
未来的研究不该再迷恋基准测试分数的提升,而要深入模型“黑箱”内部,去探寻那些支持压缩、泛化和类比的结构与机制。
比如模型内部是不是真的形成了类似“概念”的东西,这些“概念”之间能不能建立像人类那样的关联网络。
对于我们普通人来说,不用神化AI,也不用贬低它。
它确实是强大的工具,但还不是真正的智能。
而对于科研人员来说,要清楚真正的智能从来不是靠“暴力堆砌”实现的,而是靠优雅的压缩和抽象。
我们到底是在创造更强大的工具,还是孕育真正的新型智能?答案,或许就藏在“更多”与“更少”的辩证法里。
热门跟贴