大模型突现超强能力，涌现之争愈演愈烈，真智能是否降临？

残梦重生来

2026-01-09 00:15 ·四川

GPT-4能解复杂数学题，大语言模型还会写代码、做逻辑推理，不少人都惊呼AI出现了“涌现智能”。

但学界对这事吵得厉害，核心就两个问题：这些能力算不算真“涌现”？模型变强了就等于变聪明了吗？

本来想把涌现说得简单点，但后来发现不先讲清楚科学定义容易跑偏。

其实涌现在复杂科学领域不是新鲜词，物理学家安德森有句名言“多者异也”，意思是系统规模变大后，会冒出全新的宏观属性。

最典型的就是水分子，单个看就是氢氧原子的组合，没什么特别的。

可无数水分子聚在一起，就涌现出了流体力学的各种特性。

而且真正的涌现，不只是突然变强那么简单。

复杂系统科学家说，核心是“粗粒化”和“有效理论”的形成，说白了就是系统能用更简洁的方式描述自己的行为，不用盯着每个微观细节。

就像研究水的流动，没人会去追踪每个水分子的位置和速度，只要知道压力、流速这些宏观变量就行。

除了水，晶体形成也能说明这一点，单个原子杂乱无章，大量原子有序排列后，就会涌现出固定形状、硬度这些宏观属性。

学界对涌现还有几个判断标准，比如规模化效应、临界相变、信息压缩等等。

搞懂这些，再回头看大语言模型的所谓“涌现”，才能更清楚争议在哪。

最经典的就是三位数加法测试，60亿参数的模型准确率才1%，130亿参数的勉强到8%，1750亿参数的突然就飙到80%。

这一下，很多人都觉得涌现真的来了。但很快就有反对声音。

斯坦福大学的研究者发现，要是换一种更连续的评估指标，这些“突变”就没了，性能提升其实是平滑的。

他们觉得所谓的涌现，可能只是评估方法造成的假象。

后来谷歌DeepMind团队研究PaLM2模型时，也发现了类似的“相变”现象，可换了评估指标后，这一现象同样消失了，这也让质疑的声音更响了。

还有个叫OthelloGPT的模型很有意思，它学下棋时，内部自己形成了对棋盘状态的压缩表征，有点像“涌现世界模型”。

它没被明确教过棋盘概念，却自己“发现”了这种结构。

这看起来好像符合涌现的定义，毕竟出现了新的、压缩的内部表征。可质疑声还是没断。

有人说这个“世界模型”可能就是一堆启发式规则的集合，算不上什么真正的涌现。

而且这种内部结构和模型性能之间的因果关系还没搞清楚，说不定只是巧合。

更关键的是，最新研究发现，有些曾被叫做“涌现能力”的现象，其实缺乏稳健的泛化性。

现在学界分成了两派，一派觉得模型只是靠海量数据和参数的暴力拟合，把能力“编程”进去了，这是工程堆砌不是涌现，另一派则认为只要内部形成了压缩表征结构，就符合涌现定义。

目前还没谁能说服谁。

搞不清涌现能力和涌现智能的区别，很容易对AI产生误判。

简单说，涌现能力是具体的功能性表现，就像计算器能做加减乘除、开方积分，功能很强，但没人会说计算器有智能。

因为它只是按预设算法工作，没法在不同概念间建立类比，也不会创造新的解决方法。

涌现智能就不一样了，它是更一般、更精炼的能力，核心是“少者丰也”。

用最少的概念和能量消耗，解决最多的问题，人类智能就是典型的涌现智能。

我们能通过抽象和类比，把不同领域的规律统一起来，比如用“平方反比律”概括牛顿力学和电磁学的部分规律。

而且我们靠寥寥数语的指令，就能让别人在几分钟内理解复杂任务，不用漫长的试错学习。

对比之下，当前的大语言模型更像无数个高度特化“计算器”的集合。

它们靠海量参数和数据暴力拟合，实现了很多令人眼花缭乱的功能，但在概念压缩、类比创造这些方面，还差得很远。

认知科学里有个苛勒的黑猩猩顿悟实验，黑猩猩没经过大量训练，就能通过抽象思维把箱子叠起来拿到高处的香蕉，这就是“以简驭繁”的雏形。

可大模型要掌握类似的迁移能力，得在训练数据里见过成千上万个类似例子。

麻省理工的认知科学家JoshTenenbaum也说，人类智能的核心是“直觉理论”，靠原则性知识理解世界，而大模型更多是“模式识别机器”，靠统计规律工作，不是真正的理解。

2024年MIT的最新研究还指出，大模型的语言训练可能存在三种上限，目前大多停留在“语言是无监督的编程语言”阶段，并没真正理解语言背后的世界规律。

其实现在学界有个共识，大语言模型确实有一些“涌现能力”的初步证据，尤其是内部形成压缩表征的案例。

但大多数只靠外部性能提升就宣称涌现的说法，还站不住脚。

未来的研究不该再迷恋基准测试分数的提升，而要深入模型“黑箱”内部，去探寻那些支持压缩、泛化和类比的结构与机制。

比如模型内部是不是真的形成了类似“概念”的东西，这些“概念”之间能不能建立像人类那样的关联网络。

对于我们普通人来说，不用神化AI，也不用贬低它。

它确实是强大的工具，但还不是真正的智能。

而对于科研人员来说，要清楚真正的智能从来不是靠“暴力堆砌”实现的，而是靠优雅的压缩和抽象。

我们到底是在创造更强大的工具，还是孕育真正的新型智能？答案，或许就藏在“更多”与“更少”的辩证法里。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴