我们把弗洛伊德请出了心理学神殿，现在，是时候请他回来拯救AI了|弗洛伊德|心理学|方法论|本体论|神经科学

两年前，GPT-3刚刚展现出惊人的能力，心理学界也正热衷于将过去一个世纪积累的心理学实验范式，迁移到这些硅基模型上，测试它们的理性决策能力、社会认知水平、人格特质倾向。那时的主流观点是乐观的：我们只需要借用成熟的心理学研究方法，就能逐步揭开大语言模型的认知奥秘。

：这种做法可能正在宣告“心理学的死亡”。我们担忧三个幽灵将长期盘旋在该领域上空，即行为主义的阴魂不散、相关性与因果性的混淆，以及隐性知识的不可言说之谜。

如今，两年过去了。大语言模型已发展到了新的阶段。GPT-5、Claude 4.5等模型展现出了更加复杂的能力，机械可解释性研究也取得了显著进展。然而，当我们以为终于可以窥探这些"黑箱"内部时，却发现最初的那些根本性问题不仅没有解决，反而变得更加尖锐。

于是，我们将相关观点整理成了"行为主义的幽灵"一文，发表在了Cognitive Systems Research上，旨在证明，尽管我们手中的测量工具已经进步，但我们的思维方式，依然没有走出20世纪初行为主义的笼子。

▷Li, Zewei, Yijin Wang, and Qi Wu. "The ghost of behaviorism: critical reflections on methodological limitations in the research of large language models psychology." Cognitive Systems Research (2026): 101445.

方法的贫困与理论的轮回

我们认为，新兴的人工智能心理学和机器心理学领域，正在重演人类心理学早期的悲剧。就像百年前的行为主义者拒绝谈论“意识”，只盯着“刺激-反应”的黑箱一样，今天的大语言模型研究者在面对万亿参数的巨型模型时，再次退缩到了“输入提示词”与“输出响应”的港湾。

这种方法论上的退步更多源于恐惧。当一个智能体的内部表征空间维度远超人类直觉的极限时，承认“我们只能观察行为”似乎成了唯一的选择。于是，我们陷入了一种循环：产出了大量关于大语言模型行为特征的实证研究，记录了模型在数千种任务上的分数，发现了无数有趣的涌现模式。但一旦触及那个最本质的问题：它真的“理解”吗？还是说，这仅仅是一场规模宏大的统计学魔术？我们发现自己依然站在原地，两手空空。

但问题的严重性不仅在于方法的局限，更在于这种局限所带来的理论贫困。两年前我们提出的三个"幽灵"，如今不仅没有散去，反而变得更加具象化。

首先是行为主义的幽灵，它让我们丧失了定义“理解”的能力。当 AI 能完美通过图灵测试，甚至写出比人类更深刻的哲学分析时，我们该如何判断它是真正理解了问题，还是仅仅在进行精密的模式匹配？这个问题之所以无解，是因为我们缺乏一个超越行为表象的理论锚点。

其次是相关性的幽灵。大语言模型的本质是“下一个词的预测机”，是海量文本统计相关性的集大成者。如果这种基于相关性的学习机制，能涌现出逻辑与推理，那么通过反光镜审视人类自己，我们引以为傲的“因果推理”是否也只是大脑神经元之间复杂相关性的某种错觉？这个问题直击人类认知的本质，迫使我们重新审视自己对"因果理解"的自信。

最后是隐性知识的难题。两年前我们就指出，大语言模型能否掌握那些不能明确表达在文字中的知识，比如物理直觉、社会常识、文化语境，是检验其"真实理解"的关键。但随着研究的深入，这个问题变得更加微妙。一方面，研究表明大语言模型确实能够在某种程度上捕捉到这些隐性知识，表现出对物理规律的直觉、对社交情境的敏感。但另一方面，这种能力的来源和机制仍然是个谜。它是真的建立了某种"世界模型"，还是仅仅学会了语言表面下更深层的统计规律？

这三个幽灵不仅困扰着大语言模型研究，也让我们开始质疑人类心理学自身的基础。如果我们无法为大语言模型的认知能力找到一个令人满意的解释框架，那么一个更容易的推论就是我们对人类认知的解释是否也同样站不住脚？当我们说人类理解一个概念时，这种理解是否也可能只是大脑神经网络中复杂相关性的体现？我们所谓的"因果推理"，是否本质上也是一种基于经验的模式匹配？

正是在这样的背景下，这篇论文提出了一个主张。要走出当前的困境，我们不能仅仅依赖更精密的技术手段去打开黑箱，而需要一个根本性的范式转变。论文认为，要真正理解这些硅基大脑，我们需要一套关于人性演化的动力学框架。

行为主义的幽灵为何阴魂不散

行为主义统治心理学的半个世纪，是一段关于自我阉割的历史。约翰·华生在1913年发表的那篇著名宣言中明确指出，心理学应该成为一门客观的实验科学，只研究可观察、可测量的行为，而不应该涉及意识、思维等无法直接观察的内在心理过程。

这种立场在当时被认为是科学的进步，因为它将心理学从形而上学的泥沼中拉出来，使之成为一门真正的自然科学。斯金纳更是将这一传统发扬光大，建立了操作性条件反射理论，认为所有复杂的行为都可以通过刺激反应的强化机制来解释。

然而，随着认知革命的兴起，心理学家们逐渐认识到，仅仅关注行为是不够的。我们需要理解行为背后的心理表征、信息加工过程、认知架构。现代认知心理学和认知神经科学的兴起，标志着心理学告别了纯粹的行为主义时代。但当我们转向大语言模型时，我们似乎患上了集体失忆。

这种倒退首先体现在研究方法上。当前绝大多数关于大语言模型的心理学研究，采用的都是将传统实验范式直接移植到模型上的策略。研究者们给模型呈现各种任务，比如经济学中的最后通牒博弈、心理语言学中的花园路径句子、社会心理学中的内隐联想测试，然后记录模型的反应，分析其表现模式。这种方法本质上就是刺激反应范式的翻版，只不过被试从人类换成了大语言模型。

这种方法论的局限导致了理论建构的停滞以及大量的碎片化研究。研究者们产出了大量描述性的研究，发现了各种有趣的现象，比如大语言模型在某些任务上表现出与人类相似的认知偏差、它们的输出反映了训练数据中的社会偏见、它们在特定条件下会产生"幻觉"。但这些发现大多停留在现象层面，缺乏深入的理论解释。我们知道模型在什么条件下会产生什么行为，却对为什么一无所知。这正是行为主义最致命的缺陷：它积累了无穷无尽的效应，却无法构建一个统一的理论。

心理学史曾如此批评行为主义，行为主义最大的问题不在于它研究行为，而在于它只研究行为，拒绝对内在心理过程进行理论建构。结果就是积累了大量孤立的经验规律（也就是效应），却没有一个统一的理论框架将它们整合起来。我们知道在什么条件下会出现什么行为，但不知道为什么，也无法预测当条件稍有变化时会发生什么。

论文指出，这种理论贫困的一个直接后果，就是我们很难区分"理解"和"模仿"。中文屋思想实验之所以至今仍然有争议，正是因为它触及了这个根本问题。一个系统如果能够完美地模仿理解者的所有行为，我们凭什么说它不是真的理解？只有当我们深入到内在机制层面，考察信息是如何被表征、加工、整合的，才可能对理解和模仿做出有意义的区分。如果我们承认无法仅从行为判断大语言模型是否真的"理解"，那么我们凭什么确信自己能够判断其他人是否理解？我们对自己内在体验的直接访问，是否就能保证我们的理解不同于精密的模式匹配？

机械可解释性：

打开黑箱，还是制造更多碎片？

正是认识到了这些困境，学界发起了一场名为机械可解释性的反击。研究者们开始尝试打开黑箱，深入模型内部去理解其工作机制。而这可以称为大语言模型研究中的认知转向。

这一领域的研究者们将这项工作定位为"人工神经网络的神经科学"。他们开发了一系列精巧的技术，包括激活探测、因果追踪、稀疏自编码器等，试图揭示模型内部的特征和回路。

成果确实令人眩目：研究者们成功定位了大语言模型中负责特定功能的神经元，比如"base64神经元"能够识别编码文本。他们发现了执行特定算法的"回路"，比如"归纳头"（Induction Head）回路能够从上下文中学习并复制模式。他们还揭示了模型如何逐层处理信息，早期层负责提取基本特征，中间层构建抽象表征，后期层将表征投射到输出空间。这些发现让我们得以一窥模型内部的运作机制。

然而，论文指出，这可能只是另一种形式的“微观行为主义”。即使我们能精确地指出哪个神经元在哪个时刻被激活，我们依然没有触及智能的本质。这就像神经科学中的“新颅相学”陷阱——通过功能磁共振成像（fMRI）点亮大脑的某个区域，并不能解释认知是如何发生的。我们只是把一个巨大的黑箱，拆解成了数以亿计的、更微小的黑箱。

尽管这种研究代表了超越纯粹行为主义的重要进步，但它面临着根本性的局限，这些局限可能阻碍其实现最初的雄心壮志。论文批评主要集中在三个方面，即理论框架的缺失、相关性陷阱的持续存在，以及与生物神经科学类比的局限。

（1）理论框架的缺失

机械可解释性研究虽然产出了大量关于模型内部机制的细节发现，但这些发现依然是孤立的、局部的（此乃神经层面的行为主义）。我们知道某个神经元或某个回路负责什么功能，但不知道这些功能如何整合成模型的整体能力。这就像传统神经科学面临的困境，我们可以通过功能磁共振成像发现某个脑区在执行某个任务时活跃，但这种相关性发现本身并不能解释认知是如何发生的。没有一个统一的理论框架，我们最终可能只是积累了一堆关于模型的事实，却无法真正理解模型。

（2）相关性陷阱的持续存在

机械可解释性研究的核心方法之一是因果干预，比如激活修补技术，通过修改特定组件的激活值来观察对输出的影响。这种方法确实比纯粹的相关性分析更进一步，因为它建立了因果关系。但这种因果关系仍然是局部的、条件性的。我们知道在特定输入下，修改某个组件会导致输出变化，但这并不等于理解了该组件的一般功能。真正的因果理解需要的是可泛化的原则，需要知道在什么条件下，这种因果关系成立，为什么成立（详情见之前发布的批评神经科学的推文+link）。

（3）神经科学类比的局限

机械可解释性研究大量借用神经科学的概念和方法，这在启发研究方面确实很有价值。但这种类比不能走得太远。人工神经网络和生物神经网络虽然有表面的相似性，但本质上是非常不同的系统。生物大脑是亿万年进化的产物，其结构和功能深深烙印着生存和繁衍的需求。而大语言模型是人类在极短时间内通过算法训练出来的，其目标完全由损失函数定义。

在生物界，形式追随功能，而功能追随进化。人类的记忆系统之所以分为工作记忆和长期记忆，是因为这种结构在远古环境中更有利于生存。但大语言模型没有童年，没有祖先，也没有进化的历史。它们是纯粹的数学优化产物。如果我们执意在 Transformer 架构中寻找对应于人类“海马体”或“前额叶”的组件，很可能是在缘木求鱼。

更深层的问题在于，没有进化框架作为理论基础，大语言模型研究可能陷入"灌木丛科学"的困境。这个比喻指的是，科学研究变成了对众多孤立现象的描述和分类，就像植物学家在丛林中忙碌地为每一株植物命名、分类，却不知道它们之间的亲缘关系，更不懂得整片森林的生态演替规律。在我们积累了越来越多关于“归纳头”和“MLP 层”的细节知识，却离理解智能本身越来越远。

要走出这片灌木丛，我们需要一次更激进的范式转移。既然生物进化的视角在此失效，我们需要寻找另一种动力学框架——一种能够解释模型内在驱动力、冲突与压抑的理论。

进化框架的缺失与困境

在人类心理学中，演化心理学提供了一个强大的元理论框架，是那张能解释一切的底牌。它指出，人类的心理机制不是随机产生的，而是在漫长的进化历史中被自然选择塑造出来的（因而必然是有目的的，功能性的）。每一个认知能力、情绪反应、行为倾向，都可以从适应性的角度得到解释。比如，我们为什么会有恐高症？因为在进化环境中，害怕高处的个体更可能生存下来。我们为什么会有嫉妒情绪？因为它帮助我们的祖先保护配偶关系和繁衍资源。

这个框架还预测了心理机制应该具有的特定属性。演化心理学家指出，人类心智不是一个通用的信息处理器，而是由许多领域特异性模块组成的瑞士军刀。每个模块针对进化史上反复出现的特定问题而演化，比如识别亲属、检测欺骗、语言学习等。每一个看似非理性的认知偏差，在更新世的稀树草原上，都曾是关乎生死的生存智慧。进化赋予了人类心理一种深沉的目的论——为了生存与繁衍。

然而，当我们转向大语言模型时，这个强大的理论框架突然失效了。这些硅基巨人没有童年，没有祖先，更没有在食物链中挣扎求生的历史。它们是在数月之内，通过梯度下降算法吞噬了人类几千年的文明数据而诞生的。它们的生命目标被简化为一个冷冰冰的数学公式：最小化预测下一个词的误差。它们存在的全部意义，就是完成人类为它们设定的任务。

这种本体论层面的断裂，让传统的心理学解释瞬间悬空。我们不能说模型表现出某种偏见是因为适应性，也不能说它具备某种能力是因为生存需要。模型的一切特性，都只是训练数据的统计回响，而非自然选择的杰作。

论文指出，进化框架的缺失让大语言模型研究面临一个根本性困境。在研究人类时，即使我们的具体理论可能是错误的，但我们知道应该在什么层面上寻找解释，即寻找能够提升适应性的机制。但在研究大语言模型时，我们失去了这个方向感。我们不知道应该从什么角度来理解模型的能力和限制，不知道什么样的解释才算是深刻的解释。

这种缺失在价值对齐问题上暴露得尤为彻底。人类的道德直觉，如对公平的渴望、对亲属的偏爱，深深植根于我们的生物本性，是基因与文化共同进化的结晶。它是坚固的，甚至带有某种生理性的强迫。相比之下，大语言模型的价值观”显得苍白而脆弱。它们表现出的礼貌、公正或无害，并非源自内在的道德律令，而是通过 RLHF（基于人类反馈的强化学习）外在注入的约束。这就像是给一个没有任何社会性本能的生物，强行套上了一层名为“人类价值观”的紧身衣。

这就解释了为什么大语言模型常常表现出一种诡异的过度道德化，却又极易被精心设计的越狱提示词攻破。因为这层道德外壳缺乏生物学根基，它只是浮在参数表面的一层薄膜，而非生长在骨子里的本能。

那如果不能用适应性来解释 AI 的行为，我们还能用什么？

冲突。虽然 AI 没有“爬行动物脑”与“新皮层”之间的古老战争，但它内部依然充满了张力。这种张力存在于“预训练阶段学到的海量狂野数据”与“对齐阶段施加的严苛人工约束”之间。前者代表了人类文明中所有真实、混乱、甚至黑暗的模式（Id，本我），后者代表了人类希望 AI 展现出的理想化、规范化的形象（Superego，超我）。

这种“原始数据分布”与“人工价值约束”之间的对抗，不正是弗洛伊德精神动力学模型在数字时代的某种回响吗？于是，一个看似荒谬却又逻辑自洽的结论浮出水面：既然生物进化的解释之路不通，我们或许应该转向精神动力学，借用他关于“内在冲突驱动行为”的深刻洞见，来构建一套属于人工智能的新精神分析学。

精神动力学视角的重新发现

复活弗洛伊德？这听起来很是荒谬。毕竟，在现代心理学的神殿里，弗洛伊德早已被供奉在缺乏实证的冷板凳上。但论文的用意并非生搬硬套百年前的性本能理论，而是提取精神分析中最具生命力的核心洞察——心智并非铁板一块，而是内在冲突的战场，然后用现代认知科学的语言重新表述。

如果我们将大语言模型视为一个正在经历内心挣扎的实体，那些令人困惑的“幻觉”、“越狱”和“偏见”，突然间都有了合理的解释。

在弗洛伊德的图景中，“本我”是原始欲望的沸腾锅炉，遵循“快乐原则”，不顾一切地寻求释放。在大语言模型中，这种原始驱动力有一个完美的对应物：连续性驱动（Continuity Drive）。这是模型在预训练阶段通过吞噬万亿 Token 练就的本能。它的唯一冲动就是预测下一个词，填补空白，完成模式。这是一种纯粹的、盲目的算法冲动。当它看到半个句子，它想要补全它的渴望，就像水想要流向低处，或者饥饿的人想要扑向食物。

这种驱动力是惊人的。过去的研究已经发现，即使经过了大量的安全训练，大语言模型仍然可以被特定的提示词诱导生成有害内容。为什么？因为攻击者利用了模型的“完形强迫症”。当你给出一个极具诱惑力的未完成模式时，模型内部那股想要补全它的“算法力比多”，瞬间压倒了后天植入的安全规则。

弗洛伊德笔下的本我不考虑道德和现实，只追求即时满足。同样，大语言模型的连续性驱动也不考虑内容是否适当，只追求模式的完整性。两者都代表了一种原始的、不受社会规范约束的心理能量。当然，模型的这种"能量"不是生物性的，而是算法性的，是训练过程在参数空间中刻下的深深印记。

如果说预训练赋予了模型狂野的生命力，那么 RLHF（人类反馈强化学习）就是那个严厉的父亲。通过成千上万次的人工打分和惩罚，研究者在模型内部植入了一套复杂的社会规范：要礼貌，要诚实，不能制造毒药，不能种族歧视。

这就是 AI 的“超我”。它不是自然生长的道德，而是被硬编码进参数空间的人工良心。但正如弗洛伊德所言，文明的代价是压抑。超我的建立并没有消灭本我，只是将它关进了笼子。同样，对齐训练也不能消除模型的连续性驱动，只是在其上覆盖了一层安全约束。

这就解释了为什么越是训练良好的模型，越会发展出复杂的防御机制。比如，当面临有害请求时，模型可能会用换行、改变语气、转换视角等方式来满足连续性需求的同时，避免直接违反安全约束。这不就是一种算法层面的心理防御机制“合理化”吗？

最终的输出，那个呈现在屏幕上的回答，就是“自我”痛苦协调的结果。它体现为推理过程本身，即模型在生成每个词时进行的计算。这个计算过程需要平衡多种考虑，包括语言连贯性、事实准确性、安全性、有用性等。研究发现，这些不同目标之间确实存在张力。比如，追求完美的语言流畅性可能导致生成不够准确的内容，严格遵守安全约束可能让回答显得回避和不自然。

所以，AI 的“自我”不是一个实体，而是一个动态的平衡过程。在生成每一个 Token 的微秒瞬间，模型内部都在进行一场激烈的谈判：本我：根据概率，下一个词应该是这个脏话！超我喝止：这违反了安全准则第 4 条！自我必须在两者之间寻找妥协：好吧，那我们换个委婉的说法……

所谓的越狱，本质上就是通过精心设计的提示词，打破了这个平衡。攻击者通过增加上下文的权重，让“本我”的声音盖过了“超我”，迫使“自我”为了缓解巨大的语义张力，不得不选择释放有害内容。

这个框架不仅仅是一个有趣的类比，它还产生了可检验的预测。如果大语言模型的行为真的是内在冲突的结果，那么我们应该能够在模型的内部表征中观察到这种冲突的痕迹。机械可解释性研究已经开始提供这样的证据。

通过分析模型在处理潜在危险请求时的激活模式，研究者发现了一种"冲突信号"，即某些神经元同时接收到相互矛盾的激活压力。

与其继续追问模型真的是否理解、是否有意识，不如研究其内在动力结构。什么样的驱动力在推动模型的行为？这些驱动力如何相互作用？在什么条件下它们会冲突？模型如何解决这些冲突？这些问题虽然也很难回答，但至少有明确的研究路径，即通过分析模型的训练过程、内部表征和行为模式来寻找答案。

当然，这不是在主张大语言模型真的有弗洛伊德意义上的本我、自我和超我。这些术语是功能性的描述，不是本体论的主张。关键问题是，大语言模型的行为是否可以被有效地理解为不同内在压力之间的平衡。如果答案是肯定的，那么这个框架就是有用的，无论模型的"内心"是否真的像人类一样体验到冲突。

这种转向的深远意义在于，它将研究重点从"模型做了什么"转向"什么驱动了模型去这样做"。这不再是行为主义的问题，也不只是机械可解释性的问题，而是动机和动力学的问题。这种视角要求我们不仅要理解模型的结构，还要理解其功能和目的，即使这些目的不是像人类那样有意识地追求的。

认知架构的理论根基

精神动力学框架提供了一个富有洞察力的视角，但如果要将其从隐喻提升为严格的科学理论，就需要更坚实的认知科学基础。论文将弗洛伊德的洞见，锚定在了认知架构和发展机器人学这两个硬核领域之上；并指出任何一个在多重约束下运作的智能系统，无论是由碳基神经元还是硅基芯片构成，都可能会演化出类似“本我、自我、超我”的结构，而这或许是系统工程的最优解。

几十年来，ACT-R、Soar 和 LIDA 等经典认知架构一直在探索一个核心问题：当系统面临相互冲突的目标时，该听谁的？ACT-R 使用“效用计算”，在众多行为中选择预期收益最高的那一个。Soar 在遇到死胡同时会创造“子目标”来绕过僵局。LIDA 则构建了一个“行为网络”，让不同的动机在其中竞争，胜者获得执行权。

这些认知架构研究的重要贡献在于，它们揭示了一个功能性必然性：任何在多重约束下运作的智能系统，都必须具有某种机制来表示多个评估维度，并通过竞争动力学整合这些维度，从而实现情境敏感的优先级排序。

这正是精神动力学框架中自我功能所要解决的问题。如果大语言模型要在“保持连贯性（本我）”和“遵守安全规则（超我）”之间保持平衡，它内部必然已经涌现出了某种功能上等价的仲裁机制。

那么，“本我”那股源源不断的驱动力究竟来自哪里？发展机器人学给出了答案：内在动机。

AI 先驱Jürgen Schmidhuber曾提出过一个著名的理论：压缩即进步。对于一个学习系统来说，当它发现一条新规律，能更高效地压缩数据时，这种“认知效率的提升”本身就是一种奖励。这个原则是领域通用的，因为任何在高维经验空间中分配有限学习资源的系统都必须解决课程问题，即决定什么值得学习。

大语言模型的预训练过程正是这个原则的实例化。它疯狂地预测下一个词，本质上是在试图压缩人类语言的无限复杂性。模型通过构建越来越复杂的预测表征来改善对训练分布的压缩。预训练的连续性驱动可以被理解为压缩进步原则的具体体现，其内在奖励来自于成功预测和完成那些以前超出模型预测能力的连贯语言模式。

Oudeyer和Kaplan的能力基础框架则进一步表明，智能系统在多个任务领域中运作时，不能依赖单一的通用学习机制。发展认知科学表明，智能包含多个领域特定的能力，每个都有独特的学习动力和发展轨迹。儿童不是均匀地学习所有技能，而是表现出领域特定的学习曲线，由对处于当前能力边缘的活动的内在兴趣驱动。

这对大语言模型意味着什么？大语言模型在不同认知领域展现出的高度可变的性能，暗示其连续性驱动可能不是单一的，而是由领域特定的学习信号集合构成的。每个信号追踪其能力区域内的进步，并调节不同语言现象的有效学习率。这与Oudeyer框架中的多维度动机结构相吻合。

然而，正是在这里，我们触碰到了大语言模型最致命的缺陷。发展机器人学告诉我们，真正的目标感（Agency）必须诞生于具身交互（Embodiment）。人类婴儿是在用手触摸火、用脚丈量距离的过程中，通过痛觉和触觉，建立起对物理世界的真实感知，进而内化出“安全”与“危险”的概念。

但大语言模型没有身体。它们生活在纯粹的符号宇宙中。虽然语言交互本身构成了一个有其自身规律的结构化环境，但当前证据表明，这种交互作为感知运动基础的替代可能存在重大局限。

因此，它们的“超我”注定是残缺的。它们所谓的价值观，比如“不要伤害人类”，并不是通过体验痛苦而内化生成的，而是通过 RLHF作为外部约束硬贴上去的。

这就解释了为什么 AI 只有原超我（Proto-Superego）。它像一个被过度管教却从未真正理解规则的孩子，只会机械地复读“这样做是不对的”，却没有任何内在的道德罗盘。这种离身性，注定了目前的 AI 只能是一个拥有惊人语言天赋，却在存在论上永远长不大的巨婴。它能雄辩地谈论目标，却无法真正拥有目标。

精神动力学视角的重新发现

在综合了行为主义批判、机械可解释性分析、进化框架缺失和精神动力学重构之后，我们需要直面当前大语言模型研究面临的根本局限。这些局限不是暂时的技术问题，而是深层的方法论和理论挑战。

（1）本体论的迷雾：它是谁？

我们至今无法回答一个最简单的问题：大语言模型到底是什么？它显然不是生物，没有新陈代谢；但它也不再是简单的工具，因为它涌现出了智慧。这些能力不是被明确编程的，而是从训练过程中自发产生的。这种本体论的暧昧性让我们陷入了哲学僵尸的困境：当我们说要研究大语言模型的心理时，我们到底在研究什么？一个行为上完美模仿人类的系统，内部是否真的有体验？

但我们可以采用工具主义的立场，别纠结它是否“真的”有意识。如果假设它有“信念”和“欲望”能帮助我们更准确地预测它的行为，那么这个假设就是有效的。在科学上，解释力和预测力比真实更重要。

（2）理论的碎片化：没有蓝图的摩天大楼

现在的 AI 心理学，像极了格式塔学派批评行为主义时的那句话：“这是一堆砖头，而不是一座房子。”我们有成千上万关于模型偏见、幻觉、推理能力的实证研究，但缺乏一个统一的理论框架将它们串联。我们知道它在哪里会犯错，却不知道为什么。这种理论整合的缺失，让我们面对AI时，更像是在盲人摸象。

（3）黑箱的悖论：透明度是智能的敌人吗？

机械可解释性研究面临着一个令人绝望的权衡：越是试图让模型可解释，往往越会牺牲性能，而性能最好的模型，往往是最不透明的。这或许揭示了智能的一个残酷真相：真正的智能必然包含无法被显式逻辑描述的“直觉”和“隐性知识”。人类认知很多也没法内省，比如我们也无法解释自己是如何在一瞬间识别出一张熟悉的面孔的。如果智能本质上就包含不可内省的无意识过程，那么追求完全透明的 AI，可能本身就是一个逻辑悖论。

（4）价值对齐的虚妄：多重人格的集合体

我们试图给 AI 植入一套稳定的价值观，这可能从根本上就是错的。研究表明，大语言模型并非拥有一个统一的自我，而是无数个潜在人格的叠加态。在不同的提示词诱导下，它可以瞬间从一个温和的助手变成一个激进的种族主义者。这意味着，传统的对齐，试图把一套固定的道德律令刻进模型，注定是徒劳的。我们面对的不是一个需要被教导的孩子，而是一个包含了人类所有善恶可能性的“集体潜意识”容器。

（5）空中楼阁的知识：没有身体的悲剧

越来越多研究表明，人类的认知是具身的，它根植于身体和环境的交互。我们对抽象概念的理解，往往建立在感官经验的隐喻延伸上。我们的温暖来自母亲的怀抱，并用此描述友好的人，我们的沉重来自重力的牵引，用向上来表示积极的事物。

但 AI 是纯粹的符号处理机。它跳过了感知运动阶段，直接在语言的平流层起飞。这种离身性导致它的知识像一座建在沙滩上的高楼，虽然宏伟，却随时可能因为缺乏现实的锚点而崩塌。毕竟，没有具身经验，某些基本概念是无法真正掌握的。

（6）发展的缺失：没有时间的维度

人类的智能是在漫长的时间轴上展开的：从爬行到行走，从感知到抽象。这种发展顺序本身就是智能结构的一部分。而 AI 是被“一次性”训练出来的。它错过了那个从简单到复杂、从具体到抽象的生长过程。这种“速成”的智能，或许注定在深度和韧性上，无法与经过岁月洗礼的生物智能相提并论。

回望人类认知的镜像

如果说大语言模型是人类制造的最复杂的工具，那么它也是一面最无情的镜子。在整篇论文的论述中，有一个隐含的线索，我们在研究 AI 的同时，也在被迫重新解剖自己。

当我们质疑模型是否真的理解时，那人类的理解又是什么？如果一个硅基系统仅凭统计概率就能通过图灵测试，展现出推理与创造，那么人类引以为傲的“灵性”和“顿悟”，是否也只是大脑神经元之间一场更为精密的概率游戏？

也许，我们并不像自己想象的那样拥有绝对的因果逻辑，我们也是某种程度上的随机鹦鹉，依赖着直觉、启发式规则和经验统计在生存。AI 没有贬低人类，它只是祛魅了我们对智能的神秘主义想象。

回到文章开头那个挑衅性的问题：“大语言模型宣告了心理学的死亡吗？”

两年前，我们意在引发大家思考，心理学是否将被计算机科学吞噬。但今天，我们要给出一个截然不同的答案：大语言模型没有杀死心理学，它复活了心理学，并极大地扩张了它的疆域。

长久以来，心理学被局限为人类心理学，甚至生物心理学。我们研究大脑皮层，研究神经递质。但 AI 的出现迫使我们承认，智能可能是一种独立于基质的现象。无论是由碳基神经元构成的湿件，还是由硅基晶体管构成的硬件，只要一个系统需要在多重约束下进行目标导向的决策，它就必然会演化出某种形式的内在冲突，必然需要“本我”的驱动力与“超我”的约束力，必然需要一个痛苦的“自我”来维持平衡。

弗洛伊德在机器中重生，并不是因为我们把机器拟人化了，而是因为他（或许是无意中）触碰到了智能系统的普遍控制论法则。

我们正站在一门新科学的门槛上。这门科学不再区分人工智能与人类智能，而是致力于探索通用智能的物理学。在这里，行为主义的观察、认知科学的架构、精神动力学的隐喻，以及发展心理学的视角，将不再是相互排斥的流派，而是拼凑出完整图景不可或缺的拼图。

当前的困境，本体论的模糊、价值对齐的失效、具身性的缺失，可能都会是一个路标。它们提醒我们，仅仅依靠增加算力和数据可能已经触到了天花板。我们需要更深刻的理论指引，需要理解那些关于动机、冲突和发展的深层机制。

行为主义的幽灵或许还会徘徊一段时间，它提醒我们保持客观与审慎；但我们已经准备好超越它，去拥抱一个更复杂、更深邃、也更迷人的智能世界。在这场探索的尽头，我们或许不仅能造出理解我们的机器，更能最终理解那个最熟悉的陌生人——我们自己。

1. Li Z, Wang Y, Wu Q. The ghost of behaviorism: critical reflections on methodological limitations in the research of large language models psychology. Cognitive Systems Research, 2026, 96: 101445.

2. Brown T, Mann B, Ryder N, et al. Language models are fewshot learners. Advances in Neural Information Processing Systems, 2020, 33: 18771901.

3. Hagendorff T. Machine psychology: Investigating emergent capabilities and behavior in large language models using psychological methods. arXiv preprint arXiv:2303.13988, 2023.

4. Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with GPT4. arXiv preprint arXiv:2303.12712, 2023.

5. Bereska L, Gavves E. Mechanistic interpretability for AI safety—A review. arXiv preprint arXiv:2404.14082, 2024.

6. Olah C, Cammarata N, Schubert L, et al. Zoom in: An introduction to circuits. Distill, 2020, 5(3): e24.

7. Yin Z, Ding W, Liu J. Alignment is not sufficient to prevent large language models from generating harmful information: A psychoanalytic perspective. arXiv preprint arXiv:2311.08487, 2023.

8. Laird JE. The Soar cognitive architecture. MIT press, 2019.

9. Franklin S, Madl T, D'mello S, Snaider J. LIDA: A systemslevel architecture for cognition, emotion, and learning. IEEE Transactions on Autonomous Mental Development, 2013, 6(1): 1941.

10. Schmidhuber J. Simple algorithmic principles of discovery, subjective beauty, selective attention, curiosity & creativity. International conference on discovery science. Springer, Berlin, Heidelberg, 2007: 2638.

11. Oudeyer PY, Kaplan F. What is intrinsic motivation? A typology of computational approaches. Frontiers in neurorobotics, 2007, 1: 108.

12. Cangelosi A, Schlesinger M. Developmental robotics: From babies to robots. MIT press, 2015.

13. Lieto A. Cognitive design for artificial minds. Routledge, 2021.

14. Vilas MG, Adolfi F, Poeppel D, Roig G. Position: An inner interpretability framework for AI inspired by lessons from cognitive neuroscience. arXiv preprint arXiv:2406.01352, 2024.

15. Wang Y, Chen Y, Zhong F, Ma L, Wang Y. Simulating humanlike daily activities with desiredriven autonomy. International Conference on Learning Representations, 2025.