反正都是生成式模型，人和AI又有啥区别？｜智能渐近线|智能渐近线|有机体

当前，生成式AI正席卷整个社会，大语言模型（LLMs）在文本（ChatGPT）和图像（DALL-E）生成方面取得了令人惊叹的成就，仅仅依赖零星几个提示词，它们就能生成超出预期的内容（比如追问每一期的封面图）。

以大语言模型为代表的生成式AI取得的进步促使我们思考：ChatGPT真的能够理解它们在“谈论”的东西吗？抑或只是塞尔“中文屋”*的一个实例？它能“捕捉”外在现实吗？或仅仅是自然语言数据催生的拟合现象（mimic）？更深层地，生成式AI是通向人工理解（artificial understanding）的正确道路吗？除复制数据外，它是否还能理解词语、感知和行为的“意义”？或者它是否仅仅是一种自我限制的方法的终结？

*中文屋（Chinese Room）：由美国哲学教授约翰·塞尔提出的一个思想实验，借以反驳强人工智能的观点。根据强人工智能的观点，只要计算机拥有适当的程序，理论上就可以说计算机拥有它的认知状态并且可以像人一样进行理解活动。但中文屋指出，计算机即使可以回答用人类语言提出的问题，但它也无法建立人类语言的语义关系，无法理解人类语言。它只会根据规则，机械摆弄符号。

John R. Searle. MINDS, BRAINS, AND PROGRAMS. [2014-07-23].

在《生成意义：主动推理与被动AI的范围与限制》一文中，Giovanni Pezzulo、Thomas Parr、Paul Cisek、Andy Clark和Karl Friston试图通过比较生命有机体的主动推理模型（active inference）与AI的被动生成模型，指明“理解”的真正基础，并思考生成式AI是否能够获得理解能力。

▷图1.Generating meaning: active inference and the scope and limits of passive AI，https://doi.org/10.1016/j.tics.2023.10.002。图源：cell

生成式AI的局限

生物系统与主动推理

许多哲学家（如Andy Clark、Merleau Ponty）、心理学家（如James Gibson、Lawrence Barsalou）和神经科学家已经达成共识：大脑的基本功能并非积累知识，而是控制与世界的信息和能量交换。更重要的是，特定的相互作用以特定的方式稳定地改变事物的状态（例如，进食能够减少饥饿，逃离捕食者能够减少危险等）。所以，重要的不是知识的真实性，而是与世界交互形成的稳定性。

所以，在这种互动中，世界的某些特定特征对我们尤为重要，因为它们决定了我们的行动方式。吉布森将这类特征称作可供性*，即环境提供的行动可能性。生物系统通常以感觉运动（sensorimotor）来响应这些可供性。例如，平坦的地面可以用来支撑，用来坐，也可以用来放东西。

*注：可供性（affordance），afford一词的名词形式，Gibson在《视觉的生态学进路》（The Ecological Approach to Visual）一书中首次对这一概念做出系统性的阐述。可供性是环境提供给生物的行动可能性，它可能是好的，也可能是坏的。可供性既非客观性质，也不是主观性质，而是生物与环境互动的产物。

此外，生物系统的另一特征是在与世界进行互动之前，它们能够基于已掌握的关于动态世界的知识，做出行动预测。这种预测是主动推理（active inference）的基石。简单来说，主动推理认为，生命有机体的感觉行为根本上是预测性的，而非随机被动触发，它建立在能够提供可供性的世界模型之上。

两种生成模型

生成式AI与主动推理有一个共同的承诺：它们都强调基于生成模型的预测。不过，虽然都是以生成模型为基础（图2），但它们的运作机制并不相同。

▷图2：生成式AI和主动推理的生成模型。图源：原始论文。

在主动推理中，生成模型不仅仅用于预测，而且是能动性（agency）的担保。它们会对外在或内在世界的目标导向、决策和计划进行推理。在非活动状态（offline），例如在反省或睡眠中，主动推理的生成模型也会模拟过去的反事实场景（即“如果过去不是怎样便会如何”的推理）和可能的未来，以此优化生成模型，从而产生行为策略。

与此相反，生成式AI则是基于深度网络，通过自监督学习从信息中建构生成模型。以大语言模型为例，他们在推测一个语句中的下一个词语时，通常使用的是自回归模型和变换器模型（transfer architecture）。经过大规模的样本训练，大语言模型就能用灵活的预测生成全新的内容。并且，它还擅长一些下行任务（如总结文本和回答问题），并能用细粒化的特定领域的数据集解决更多任务（如写科幻小说）。

这两种生成模型的关键区别在于，主动推理所做出的回应是有意义的，而这种意义基于感觉运动经验。例如，回应“向北”或“向南”的问题会与在物理空间中特定的行动可能性关联起来，神经加工的多感官状态和情感状态也会参与其中。尽管人工系统能够通过训练习得空间转译（spatial translations）的统计学规律，但空间转译对于能够在空间中移动的生物和没有移动能力的人工系统来说，意义大相径庭。对于前者，空间转译关乎行动的可能性以及对世界的因果理解。

生命有机体的意义理解

成功的生成模型能够从数据中提炼出“潜在变量”，这些变量有助于解释和预测。生成式AI能够用潜在变量反映统计学规律，以超越训练数据的界限；生命有机体提炼潜在变量的目的可能是更好地预测世界状态。尽管它们都能提取潜在变量，但主动推理与生成式AI的处理方式不同。主动推理的生成模型涉及理解，并将潜在变量作为概念形成的基础。

对于人类和其他生物来说，与世界的互动是在探索世界的特定性质。一个桌子不仅是以木材为原料，由桌腿、桌面构成的物体，而是能够承载盘子，能够坐人，能够在地震中作为庇护所的可供性的集合，这些可供性就是桌子的潜在变量。“桌子”一词仅仅是一个象征符号，或一个简称。具体来说，“桌子”是“能放东西的、能坐的和能隐藏于其下的那个对象”。因此，桌子这个概念实际上是与行动结果相关联的潜在变量的集合（constellation）。生命有机体通过感觉运动经验来了解对象。而轻重、大小等抽象概念，则以这些多感官提供的信息为基础发展而来。

语言能力也是以感官模块为基础，在互动（即沟通）中发展起来的。从具身的角度来看，沟通就是一种感觉运动互动。沟通的意义不在于语音和语法，而在于由沟通所预测的社交互动。人类的语言交流虽然将抽象化发展到了极致，但仍然以互动和控制为基础。语词是有意义的互动的缩写，是在互动中被约定下来的。我们也是在与同类的互动中习得语言符号的意义。当前以语言习得为基础的认知机器，就要在目标导向行动的背景下开发语言和符号能力。而大语言模型和其他生成式AI只是从大量多感官模块的文本数据中被动地学习。

简而言之，我们对语言符号的理解源自于与活生生的世界的互动，而非单纯的对自然语言的运用。生成式AI所具有的潜在变量，或许能够把握关于世界的统计学规律，却略过了它们的形成过程。实际上，生成式AI只是继承了人类沟通所得的语言财产，却不会参与到赋予语词意义的互动过程中。在大语言模型中，只有生产训练文本和转译文本的人才能够理解语词的含义。

基于行动的具身智能

孩子不是习得知识，而是通过经验以及与环境的互动建构知识。

——Maria Montessori

给予生成式AI更多的数据，它们能够获得理解吗？当务之急是要指明理解的真正基础是什么。

实际上，生成式AI习得概念的方式与生命有机体大相径庭（图3）。生命有机体通过与环境的感觉运动互动来学习，这种互动不仅包括了统计规律的掌握，更重要的是，它们是形成知觉和对世界因果关系理解的基础。生命有机体通过感觉运动经验和在环境中的动态移动，习得了对环境的各种表征，如可供性、空间、对象、情境、自我感和能动感等。我们的大脑也编码了与环境的互动和可供性。有研究表明，海马体和内嗅皮层通过路径整合自我移动的信息，发展出空间编码（包括对抽象的概念空间的编码）*。前额叶皮层也包含着探测可供性的空间回路。这种具身智能是发展出抽象的概念思维的基础。

▷图3：生成式AI和生命有机体如何学习生成模型来解决图2的寻路任务。图源：原始论文。

*注：The hippocampus maps concept space, not feature space. J. Neurosci. 2020; 40: 7318-7325

与此不同，当前生成式AI所谓的“理解”并不是以行动为基础，它们只是被动地反映数据的统计学规律，而非呈现关于世界的因果规律。这种方式缺乏对数据的主动选择和训练中的干预，因此无法形成对行动和其结果之间因果关系的理解，也不能区分预测与观察的差别。

生成式AI往往依赖于其模型的复杂性来提高预测准确性，但这种方法也带来了一定的局限性。这些系统在特定任务上表现出色，却难以推广到其他类似任务。这种局限性并不能简单地通过增加数据量来克服。因为理解语境敏感的语言不仅需要大量的数据，更需要能够从数据中提炼出深层的含义和模式。

此外，生成式AI与生物有机体也以不同的方式决定需要关注的信息。生成式AI中变换器模型的注意力机制发挥过滤功能，通过指派不同的权重决定哪些信息是有价值的。而生命有机体的注意力涉及到主动选择，其目的是消除不确定性。

生物体在演化的过程中，面对自然选择的压力，发展出了独特的生成模型。例如，我们的情绪，根植于对某物“对我重要”的感觉，这为我们对世界的理解赋予了意义和目的。在主动推理的过程中，我们利用内感受预测（interoceptive prediction）来引导行动和决策，这种方式使我们能够更好地理解行动的原因和后果。这种内感受、外感受和本体感受的预测共同促进了生命体的生存。因此，与生成型AI不同，生物的主动推理模型自然形成，不需要像AI那样不断地学习细粒化的、繁复的任务。

此外，为了存活下去，生命有机体不能只是消极待命，等待信号来刺激，而要积极主动地与世界进行有目标的互动。这意味着生命有机体的生成模型必须保证在探索新模式和利用旧模式之间审慎权衡，做出灵活的选择。此外，为了更具普适性，这还要求模型不仅要准确，还要节约能量。在生态位（ecological niche）中，这种权衡能够支持不同时间尺度下的行动和知觉。在主动推理中，探索性行为和利用性行为之间的权衡，以及生成模型的效率和准确性之间的权衡，都可以通过最小化自由能来解决。但生成式AI尚未能实现这种情境敏感的、灵活的控制。

▷图源：Midjourney

最后，从系统发育轨迹来看，生成式AI与主动推理也有本质区别。具有抽象思维和语言能力的生命有机体，能够发展出一种特殊的心智表征方式——我们称之为“分离性表征”（detached representation）。这些表征虽然起源于感觉运动经验，但最终能够从其最初的环境中独立出来，形成自主的独立存在。例如，我们能够在没有直接感知物体的情况下，通过想象和语言讨论它们。

这种独立于直接感觉经验的表征能力是高级认知功能（如规划、想象和讨论抽象或不在场的事物等）的基础。复杂的心智生活需要这种能力，使得我们从直接的、实用的表征转变为语义的描述性表征。这一转变通过复杂的社交互动和对世界的深入参与得以实现，从而拓展了我们对事物的理解和意义的界限。当前的生成式AI走的是一条完全不同的发展路径，它们直接从文本中获得知识。这一过程受到了当前科技，如大型数据集和高效的变换器模型的可用性的驱动。

简而言之，真正的“理解”以能动性理解为基础，建基于有机体通过感觉运动与世界进行的互动，建基于生命有机体对环境的主动探索。更深层次的理解需要分离性表征的能力，即使这种能力仍然基于与世界的互动，但它能够超越当前情境，进行规划、想象和讨论抽象概念。这种理解不仅仅是对统计规律的掌握，而是对世界模型背后的因果结构的深入认识。

生成式AI的出路何在？

继续沿着老路扩大生成式AI的规模，是通向真正智能的可取方法吗？

要想使得生成式AI生成意义并拥有理解能力，当前有两种选择。要么坚持原有方法，朝着更加复杂的方向发展。要么转变思路，强调对训练数据的主动选择。

当前的研究大多坚持第一种选择，即提升生成式AI的复杂性来提升其性能。这种复杂性主要体现在模型参数的增加和训练数据量的扩充上。此外，还包括输入信息类型的多样化，以及增添更多的功能和能力，以求实现更高级的AI应用。然而，还有一种潜在的、更为深刻的方法常常被忽视，即让模型通过与世界互动进行主动选择，在获得关于世界的知识的同时，追求内在目标。

当前的大语言模型是以我们对世界的描述为中介来理解现实的。仅仅建立基于文本的大语言模型，然后尝试将之与世界关联起来以获得对世界的理解，可能并不是最有效的途径。更可靠的方式可能是先让AI系统在与现实世界的互动中学习，然后再将这些经验与大型语言模型结合。但这种“互动在先，模型在后”的方法，目前还未被系统地研究过。

人工智能，作为人类之镜

生成式AI只能基于被给予的提示词或文本产生结果，而不能像主动推理一样生成原因，如生成计划（planning）。这提供了几个基本的暗示：

首先，真正的计划蕴含着能动性，只有能动者才具备“行动-结果”的生成模型。其次，这意味着主动推理的生成模型并非单纯依赖数据输入，而是需要在世界进行实时的感觉运动互动中获得。也就是说，生成模型以世界模型为基础；“行动-结果”模型能够揭示出世界的因果结构，而信息收集只是隐秘地以统计学规律反映因果结构。

从实践层面来看，生成式AI并不适合作为自动机器人或自动驾驶技术的理想模型。此外，由于生成式AI没有可供性，因此它没有由好奇心驱使的主动学习机制。相较于此，具身智能可能是一个更有效的模型。

尽管生成式AI存在上述种种局限，但它仍然对我们的生态系统产生了深刻影响。它引导我们反思人类的理解过程，寻找世界模型与信息流之间的桥梁。我们人类不断外化我们的思想，创造出全新的对象，这些对象也需要我们去审慎地检视。生成式AI就是一个生动的案例，它揭示出一种未被我们关注的认知自我的建构方式。

可以说，生成式AI就像是21世纪的一面人类之镜，我们在其中照见自己，但遗憾的是，镜子之后却空无一人。