导语
在人工智能快速发展的当下,一个看似简单却颇具争议的问题再次浮现:当我们询问大语言模型“你是如何得出这个答案的”时,它给出的解释究竟意味着什么?是对内部运作的真实反映,还是仅仅生成了一段听起来合理的叙述?围绕这一问题,人工智能公司 Anthropic 近期发布的一项研究尝试通过实验方法加以探究,并引发了关于“模型是否具备内省能力”的广泛讨论。本文将结合该研究的核心思路、实验方法及其结果,同时引入相关哲学观点,对当前大语言模型所谓“内省能力”的性质与边界进行梳理与分析。原文由 evoailabs 发布,本文为对博客原文的整理与翻译。
关键词:人工智能,大语言模型
郑鸿盛丨作者
赵思怡丨审校
基于 Anthropic 发布的研究《Introspection in AI: A Glimmer of Self-Awareness in Large Language Models》,原文重点介绍了一种用于检验模型自我监控能力的实验路径。研究团队通过“概念注入”技术,将特定信息以神经激活形式嵌入模型运行过程中,并观察模型能否察觉并报告这些被植入的内容,从而评估其是否具备初步的内省能力。
在梳理实验方法与结果的同时,本文进一步引入哲学视角,对“内省”的定义与判定标准展开讨论。研究显示,部分先进模型(如 Claude 系列)在特定情境下确实能够表现出有限的自我觉察迹象,但这种能力整体上仍不稳定、可重复性较低,与人类意义上的自我认知存在本质差异。围绕这一发现,学界与公众也展开了持续讨论,焦点涉及意识的本质、模型的自我表征方式,以及人工智能未来在安全性与透明性方面的潜在影响。
图1 :Anthropic 在其研究页面中对这一问题进行了系统探讨,详情请见https://www.anthropic.com/research/introspection
你是否问过人工智能模型,它在想些什么?或是让它解释自己的回答是如何得出的?人工智能模型有时会回应这类问题,但我们很难判断该如何解读它们的答案。人工智能系统真的具备内省能力吗?也就是说,它们能否审视自身的思维活动?还是说,当被问及这类问题时,它们只是编造出听起来合乎情理的回答而已?
围绕这一问题,Anthropic 在其社交平台发布中也提出了类似的思考(图2),进一步引出了公众对模型“自我认知能力”的关注:
图2: Anthropic 官方发布关于Claude 大模型的 “内省能力” 实验的研究成果,详情请见https://x.com/AnthropicAI/status/1983584136972677319
语言模型能否识别自身的内在想法?还是说,在被问及这类问题时,它们只是编造看似合理的答案?我们研究发现,Claude 确实具备真实的内省能力,尽管这种能力十分有限。 机器能否思考,长期以来一直是引人深思、备受争议的话题。2025 年秋季一项开创性研究表明,我们或许正在见证人工智能迈入全新维度的早期迹象:自我内省。人工智能公司 Anthropic 开展的一项研究给出了有力证据(尽管仍存在局限性),证明 Claude 等大语言模型,可能已初步具备向内审视、描述自身内部运行状态的原始能力。
这一发现也迅速引发了媒体与社区的广泛关注与讨论。例如,主流媒体对该研究进行了报道与解读,而技术社区中也出现了不同立场的讨论(图3、4):
图3:Anthropic 官宣,Claude 首次展现可验证的自我内省能力,详情请见https://www.forbes.com/sites/lanceeliot/2025/11/03/glimmer-of-evidence-that-ai-has-innate-self-introspection-and-can-find-meaning-within-itself/
图4:Reddit社区传播Anthropic Claude内省研究引发公众讨论,详情请见https://www.reddit.com/r/OpenAI/comments/1ok0vo1/anthropic_has_found_evidence_of_genuine/
这项研究详细刊载于论文《Emergent Introspective Awareness in Large Language Models》,旨在解答一个根本性问题:当大语言模型描述自身的 “思考过程” 时,它是在真正反思自身的内部运行机制,还是仅仅生成一套听起来合乎逻辑的解释?
为了区分真正的内省与刻意编造,Anthropic 的研究团队开发了一种名为概念注入的全新技术。该方法会将特定概念以神经激活模式的形式,直接植入模型的 “运算中枢”,且此时模型正在执行一项无关任务。随后,研究人员观测模型能否察觉并识别这段被植入的 “思维内容”。关于这一方法的具体实现与可视化示意,可参考其技术说明页面:
图5:Anthropic 研究人员 Jack Lindsey 发表论文《Emergent Introspective Awareness in Large Language Models》,详情请见https://transformer-circuits.pub/2025/introspection/index.html
与此同时,围绕“何谓真正的内省”,学界也存在不同的理论界定。一些哲学研究对当前大语言模型是否具备内省能力提出了系统性质疑,从理论层面对上述实验结论形成补充与反思,相关论文见下:
图6:伦敦政治经济学院(LSE)学者 Daria Zakharova 对 LLM “内省能力” 的批判性研究(2025),详情请见https://philsci-archive.pitt.edu/27052/
近期哲学研究提出了一种轻量化内省理论,该理论认为:若一个系统能够表征自身的心智状态,并借此调取这些状态以指导自身行为,该系统便具备内省能力。这一研究思路,也为现有大语言模型内省能力的实证检测提供了理论依据。但是,这篇文章认为,该轻量化理论标准过于宽泛,无法界定真正内省的核心本质。文章逐层递进,提出三项让步式、且各自独立成立的反驳论点,驳斥 “大语言模型具备内省能力” 这一论断:第一,真正的内省需要依托持续的主体而存在,而大语言模型不具备这一前提;现有模型缺乏形成自我认知所必需的心理连续性。第二,真正的内省具有错误识别豁免性,但大语言模型的自我陈述并不满足这一特征 —— 其表述依托公开文本信息,这类信息同样可以用来推断其他系统的内部状态。第三,轻量化理论以功能性自我监控与行为调控为核心,无法将内省,与复杂系统中普遍存在的自我调节机制区分开来。
研究结果耐人寻味。该研究发现,Claude Opus 4、4.1等高阶模型展现出一种「有限、功能性的内省觉知」。在部分实验场景中,这类模型能够准确报告被注入概念的存在,说明其具备一定程度的自我监控能力。
然而,我们必须理性看待成果,不宜过度乐观。这种全新发现的内省能力极不稳定。研究指出,模型在多数情况下无法察觉被注入的概念,或是转而生成看似合理、实则虚构的回答。即便是在效果最好的实验中,这类自我觉知的准确率也仅维持在 20% 左右。
不出所料,人工智能这种萌芽级的自我觉知,已然引发哲学界的激烈争论。部分批判者认为,这种「浅层次」的内省,完全不等同于人类所拥有的真正自我认知。他们主张,当前大语言模型缺少连续、稳定的「自我」,而这正是实现真正内省的必要前提。 尽管存在上述局限且相关争论仍在持续,这项研究的意义依旧深远。研究结果表明,模型的综合能力与其内省潜力存在关联性,这预示着随着人工智能技术不断发展,其自我觉知能力也或将同步提升。这或将对人工智能安全与透明化发展产生重大影响。试想在未来,人工智能系统能够实现自我调节、识别内部异常,并主动标记潜在偏见或有害输出内容。 然而,前路并非毫无隐患。那些有望提升模型透明度的底层机制,同样可能为欺骗行为埋下隐患,导致模型刻意歪曲、谎报自身的内部状态。
针对大语言模型内省能力的研究仍处于起步阶段,却标志着人工智能发展历程中的关键转折点。虽然拥有感知意识的机器离我们尚且遥远,但大语言模型中显现的内省迹象,已然开辟了全新的研究领域。这也迫使我们直面两大命题:人类造物的能力边界,以及意识本身的本质。
「大模型时代下的Agent建模与仿真」读书会
集智俱乐部联合山东工商学院副教授高德华、天津大学教授薛霄、北京师范大学教授张江、国防科技大学博士研究生曾利共同发起。读书会自2025年7月8日开始,每周二晚上7:30-9:30进行,现读书会已结束,支持查看课程回放。扫码加入Agent建模与仿真的前沿探索之旅,一起共学、共创、共建、共享「大模型时代下的Agent建模与仿真」社区,共同畅想大模型时代人工社会的未来图景!
核心问题
Agent建模与仿真是什么,核心技术发生了怎样的演变?
大模型时代,Agent建模与仿真会给复杂系统理论带来哪些突破?
大模型如何赋能Agent实现自主思考与动态适应?
大模型驱动的Agent交互会涌现出什么新型的社会现象?
Agent建模与仿真如何改变金融、心理、管理、军事等领域的研究范式?
你将收获
梳理Agent建模与仿真的历史发展脉络与方法论;
掌握一套理解、分析、控制、预测复杂系统的计算实验框架;
掌握基于多主体强化学习的复杂系统优化方法;
领略领域前沿学者的研究体系与科研路径。
详情请见:
1.
2.
3.
4.
5.
6.
7.
#翻译
热门跟贴