打开网易新闻 查看精彩图片

导语

涌现(Emergence)是复杂科学中的核心概念,用以描述多体系统如何在规模扩展后呈现出全新的宏观属性——这些属性可以由低维的有效变量与理论加以刻画,而无需逐一追踪微观机制,这正是安德森所说的“多者异也(more is different)”。智能则常被视为涌现的极致形态:它不是简单叠加更多能力,而是通过高度压缩的概念与表征,以更低成本、更高效率解决更广泛的问题,即“少者丰也(less is more)”。

近年来,大语言模型在规模扩展过程中展现出的能力跃迁,频繁被称为“涌现”。但一个关键问题随之浮现:这些现象究竟符合复杂系统意义上的涌现,还是只是工程尺度放大下的能力堆叠?更重要的是,它们是否已经触及“涌现智能”的门槛?本文从复杂系统的经典定义出发,系统审视大语言模型中的“涌现”主张,并论证:当前证据更支持涌现能力的存在,而非真正意义上的涌现智能。

关键词:涌现(Emergence)、大语言模型(Large Language Models)、复杂系统(Complex Systems)、涌现能力(Emergent Capabilities)、涌现智能(Emergent Intelligence)、知识输出(Knowledge-Out)、知识输入(Knowledge-In)

Lynne丨作者

赵思怡丨审校

打开网易新闻 查看精彩图片

论文题目:Large Language Models and Emergence: A Complex Systems Perspective 论文链接:https://arxiv.org/html/2506.11135v1 发表时间:2025年6月10日 论文来源:arXiv

引言:当模型变大,惊喜就来了吗?

近年来,大语言模型展现出的各种能力常常令人惊叹。从流畅的文本生成、代码编写,到看似复杂的逻辑推理,这些能力似乎随着模型参数和数据规模的扩大而“突然”出现。许多研究者将这种不连续性称为“涌现”(Emergence),认为这是模型在跨越某个规模阈值后产生了质的改变。然而,争议并不在于这些能力是否真实存在,而在于它们是否符合科学意义上的“涌现”。在复杂系统研究中,涌现并不等同于“突然变强”或“超出预期”,而是指系统内部组织方式发生了可识别的重构,使我们能够用更简洁、更高效的描述来理解其行为。本文将带领读者从复杂系统的经典视角,重新审视大语言模型的“涌现”之争,并深入探讨一个更根本的问题:我们今天所见,究竟是模型的涌现能力,还是真正的涌现智能

“涌现”在科学中意味着什么?

在讨论大语言模型之前,我们先厘清“涌现”在复杂科学中的核心要义。涌现并非仅仅指代性能的突变或人类观察者的意外之感。其最本质的特征在于 “粗粒化” 与 “有效理论” 的形成。

想象一下描述流体运动。最微观的方法,是追踪每一个分子的位置和动量,运用分子动力学进行模拟。但这在大多数工程实践中既不必要也不可行。相反,我们使用流体动力学,只需关注质量、压力、流速等宏观变量。流体动力学就是描述流体涌现属性的一种“有效理论”——它通过一组粗粒化的变量,成功地“屏蔽”了无关的微观细节,从而高效地预测和解释系统的行为。这就是安德森那句名言“多者异也”(more is different)的精髓所在:“异”,在于出现了能用新颖的、粗粒化的变量和宏观规则来描述系统演化的新层面。

因此,判断一个属性是否为涌现属性,一个标志是:系统是否形成了一种新的、压缩的(compressed)描述方式,这种描述通过粗粒化观测变量,在保持预测能力的同时,大幅降低了描述的复杂度,进而降低预测和控制系统的巨大成本。

通常而言,当系统满足以下至少部分条件时,可认为其具有涌现性:

  1. 规模化(Scaling):系统组件数量的变化如何影响其特性;

  2. 临界性(Criticality):系统的相态理论;

  3. 压缩性(Compression):通过高效粗粒化实现系统描述规模或维度的降低;

  4. 新型基底(Novel Bases):发现能够描述系统的最小构成元素;

  5. 泛化性(Generalization):系统规则在训练或适应场景之外的表现。

大语言模型文献中的“涌现”

在大语言模型的研究领域,“涌现”一词的使用往往与上述科学定义有所偏离。2022年,《Emergent Abilities of Large Language Models》的作者们指出,随着模型规模和训练数据量的扩大,模型在某些基准测试上的性能会出现不连续的、意外的跃升,这些能力在小规模模型中并不存在,也无法通过简单外推小模型的性能改善来预测。例如,在一个三位数加法的测试中,60亿参数的模型准确率仅为1%,130亿参数模型略升至8%,而1750亿参数的模型却突然达到了80%的准确率。这种类似“相变”的突变模式,被许多后续研究引为涌现的证据。不过,也有学者提出,若采用更具连续性的成功度量指标,其性能随规模的提升会呈现连续性特征,而非突变。

也有观点认为,LLMs的涌现能力可能源于大模型在“上下文学习”(in-context learning)上的可预测提升,或训练后的“指令调优”(instruction tuning),这些因素改善了大模型遵循提示指令的能力。

此外,也有研究将“涌现能力”宽泛地定义为模型未经专门训练而自发获得的能力,例如数值理解、类比推理、法律推理,乃至内部“世界模型”的形成。

总体而言,LLM文献中的涌现一词主要用于两种情况:

  1. 随着数据、模型或集群规模的扩大,模型在特定基准上准确率的意外跳跃

  2. 模型获得了未经过明确训练的能力

但这些往往缺乏复杂系统科学中的严谨基础。

知识输出 vs. 知识输入:两种不同的涌现

为了更精准地分析大语言模型,我们需要区分两种不同类型的涌现,这源于系统与环境互动方式的不同。

知识输出涌现(knowledge-out, KO):这种涌现见于物理、化学等经典复杂系统。其特点是,宏观的复杂结构或行为源于大量简单组分之间简单的相互作用。例如,水分子的简单互动在宏观上涌现出流体的特性;硅和氧原子在高压下结合,集体涌现出石英晶体的压电特性。这些属性并非设计或学习的目标,而是相互作用的自然结果。这里的“知识”是由系统内部“输出”到世界的。

知识输入涌现(knowledge-in, KI):这种涌现见于复杂的自适应系统,如生物体、大脑、经济系统,以及大语言模型。这些系统的宏观属性(如器官、股票指数、认知能力)源于系统从预先存在的、高度复杂的环境中提取并内化了大量的“知识”——即结构化的信息、事实和规则。环境的复杂性被“输入”到系统内部,塑造其结构。在这里,“涌现”常常与“训练”、“学习”、“演化”等过程交织。

大语言模型无疑是典型的“知识输入”系统。它们通过机器学习方法,从海量文本语料库中汲取信息。因此,在讨论其涌现属性时,我们必须同时关注其展现的粗粒化全局属性,以及这些属性是如何从局部微观机制(如神经元的权重与激活)中产生的。不能仅凭宏观性能的提升就下结论,因为那可能只是大规模训练直接“编程”的结果。

分析大语言模型的涌现

大型语言模型(LLMs)展现出的是何种类型的涌现性?与涌现性相关的粗粒化和压缩过程是什么?其行为对应的有效理论又能提供哪些涌现性证据?如何在一个“知识输入”系统中严谨地评估涌现?我们可以借助复杂科学中研究涌现的核心机制来分析:

  1. 规模化与临界性:系统属性如何随组件数量(尺度)变化?是否存在类似相变的临界点,伴随对称性破缺和内部组织的质性重组?首先,目前尚不清楚大型语言模型的能力是否存在明确 “相态”,也不确定观测到的准确率骤升在特定度量标准下是否实为连续性提升。其次,大型语言模型的控制变量 “规模” 实际上是文本数据与模型参数交织的高维复杂变量,而非简单的一维参数。如果模型展现出的宏观能力是通过大量训练 “编程” 而成,那么这种行为很难被称为涌现。真正的涌现,应体现为外部能力突变与内部结构简化、重组之间的同步与因果关联,不能仅凭性能曲线的陡峭变化下结论。目前,一些研究观察到了损失函数的突然下降与内部句法结构的获得同步发生,且这种结构似乎支持低复杂度描述。这可能是涌现能力的一个证据。然而,许多所谓的“性能跃升”是否真的对应内部表征的根本性重构,仍需更多微观证据。

  2. 压缩:系统内部是否发现了能够捕捉数据规律性的、压缩的粗粒化模型?例如,在仅用合法走子序列训练的OthelloGPT模型中,研究者发现其内部形成了对棋盘状态的压缩表征,类似于一个“涌现世界模型”,且OthelloGPT模型并未涉及规模化。这展示了通过压缩实现的一种涌现形式。不过,也有质疑认为这种内部模型可能只是一堆启发式规则的集合,且其与模型性能的因果关联尚不明确。因此尚不能确定这是一种真正的涌现能力。

  3. 新型基底与流形:系统是否发现了新的基础组件或低维流形,来更高效地编码信息?在大语言模型中,有研究发现自监督Transformer中出现了抽象表征单元,视觉输入中的协变特征表明新基的存在。但此类证据尚少。

  4. 泛化:系统是否拥有在训练分布之外的全新情境中解决问题的能力?涌现的粗粒化变量和理论能够促成强大的泛化。对大语言模型而言,挑战在于区分其表现是源于真正的泛化,还是对训练数据中相似模式的隐性记忆。已有一些例子表明,某些曾被称作“涌现”的能力缺乏稳健的泛化性。

结论:涌现能力 ≠ 涌现智能

通过对现有证据的梳理,我们认为大语言模型确实展示了一些符合“涌现能力”初步证据的现象,特别是在内部形成压缩表征或伴随尺度变化出现内部重组迹象的案例中。然而,大多数仅仅基于外部性能“意外”提升的主张,尚未满足涌现所需的、关于内部粗粒化机制的核心条件。

更重要的是,我们必须严格区分涌现能力与涌现智能。

  • 涌现能力指的是一项项具体的、有时甚至超越人类水平的功能性表现。就像一个计算器,它内部编码了多种算法,功能强大,但我们不会称其为“智能”,因为它无法在这些概念之间构建类比,也无法通过简单修改规则来创造新的能力。

  • 涌现智能则是一种更一般、更精炼的解决问题的能力。它意味着“少者丰也(less is more)”:用尽可能少的概念和能量消耗,解决尽可能多的问题。人类智能是典型的涌现智能:我们通过抽象、类比,将牛顿力学、电磁学等不同领域的规律统一于“平方反比律”这样的粗粒化概念之下;我们通过寥寥数语的语言指令,就能让他人在几分钟内理解一个复杂任务,瞬间重构其神经表征,而无需漫长试错。这种基于理解、能够灵活迁移和创造的低带宽、高效率的认知方式,才是智能的本质。

目前的大语言模型,更像是无数个高度特化“计算器”的庞大集合。它们通过海量参数和数据进行“暴力”拟合,实现了令人眼花缭乱的功能,但在概念压缩、类比创造、高效理解方面,尚未展现出人类智能那种“以简驭繁”的涌现特质。

展望:语言是钥匙吗?

语言在大语言模型的训练中扮演何种角色?这可能决定了其能力的上限。有三种可能:(1) 语言本身是对世界(包括非语言模态)近乎完整且压缩的表述;(2) 语言反映了内在的“思维语言”;(3) 语言是一种无监督的“编程语言”。无论哪种情况,语言中蕴含的世界信息越丰富,模型通过单纯扩大规模来“学习”一切的可能性就越大,但这恰恰会削弱真正的“涌现”主张——因为在这种“知识输入”的极限下,模型内部的自由度只是通过工程手段收敛于每一个外部自由度,并未产生或需要一个新颖的、粗粒化的内部模型。

未来的研究,应当超越对基准测试分数的迷恋,转而深入模型“黑箱”内部,探寻那些支持压缩、泛化和类比的新颖结构与机制。唯有如此,我们才能更科学地评估大语言模型乃至更广泛人工智能中的涌现现象,并最终解答那个根本问题:我们是在创造更强大的工具,还是在孕育真正的新型智能?答案或许就藏在“更多”与“更少”的辩证法之中。

大语言模型与多智能体系统读书会

集智俱乐部联合西湖大学工学院特聘研究员赵世钰、浙江大学教授任沁源、鹏城实验室高级工程师崔金强,共同发起,探究大语言模型给机器人领域带来的新思想新价值。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:

1.

2.

3.

4.

5.

6.

7.