AI 也会“自我反思”？Claude 模型现内省迹象，大语言模型认知新突破|claude|向量|大语言模型|实验|推理

摘要

你是否曾好奇 AI 在 "思考" 什么？当被问及如何得出答案时，AI 的回应是真实剖析还是编造？理解 AI 是否具备内省（introspection）能力，对提升系统透明度、可靠性至关重要。Anthropic 团队通过可解释性（interpretability）技术与概念注入（concept injection）实验，发现 Claude 系列模型（尤其 Claude Opus 4 和 4.1）展现出一定内省意识，能监测并控制内部状态。尽管该能力仍有局限且异于人类内省，但为 AI 认知研究与透明化发展提供了新方向。原文链接：https://www.anthropic.com/research/introspection

关键词：内省（Introspection）、概念注入（concept injection）、大型语言模型（Large Language Models）、Claude模型（Claude Models）、AI透明度（AI Transparency）、可靠性（Reliability）

赵思语丨作者

赵思怡丨审校

核心探索：AI的“自我审视”何以成立？

当我们询问AI“你在想什么”时，其回应常令人困惑——是真实反映内部思考，还是基于训练数据的表面生成？这一追问的核心，在于探寻AI是否具备真正的“自我审视”能力。这种能力的存在，不仅能帮助排查AI行为异常、提升可靠性，更能深化我们对AI本质的认知。值得注意的是，大语言模型的内省与人类内省存在本质区别：它并非主观意识层面的自我反思，而是建立在内部神经活动之上，具体表现为模型对自身神经激活模式所表征的抽象概念（如区分已知人物、评估陈述真实性等）的识别与准确报告能力，而这些内部表征正是模型决策的核心基础。

实验验证：三重维度解锁 AI 内省能力

1.概念注入：验证内省的创新实验方法

为验证模型是否真正内省，研究团队创新提出“概念注入”方法：先在特定语境下记录模型与已知概念对应的神经向量（如 "全大写文本" 的神经活动模式），再在无关语境中注入该向量，询问模型是否察觉异常。

图1 Claude Opus 4.1 检测到概念被注入其激活过程的更多示例

实验显示，Claude Opus 4.1 能在提及注入概念前，就识别出内部处理的异常，例如注入“全大写文本”向量后，模型会描述其与“响度”或“大喊”相关。但该能力可靠性较低，最优方案下正确识别率仅约 20%，且对注入强度敏感 —— 过弱无法察觉，过强易产生幻觉。值得注意的是，Claude Opus 4 和 4.1 的表现远超其他模型，暗示内省能力可能随模型性能提升而增强。

2.实用验证：内省助力异常输出检测

研究进一步探究模型在实际任务中是否自发运用内省。实验中，通过预填充无关词汇迫使模型输出不合理内容（如在“一幅画歪挂在墙上”的语境中强迫输出“面包”这个词），模型起初会道歉称是意外。但当回溯性注入 "面包" 的神经向量，模拟模型 "一直思考面包" 的状态后，模型不仅认可该输出是有意为之，还编造了合理解释。

这表明模型判断输出合理性时，会回溯自身内部 "意图"（神经活动状态），而非仅对比输入与输出，证明内省机制在实际任务中发挥作用。

图2 两例验证：在 Claude Opus 4.1 人工回应生成前，向其激活过程注入特定词汇概念，可使模型将人为插入转录文本的该词汇误认为自身意图表达内容。

3.主动调控：模型对内部状态的控制能力

研究还发现，模型能在指令或激励下调控内部表征。要求模型“思考”某概念时，相关神经活动强度显著高于“不要思考”的情况；采用激励措施，如“思考 X 获奖励”，也能产生类似效果，正向激励下的神经活动强度高于负向激励，显示模型具备自主调控内部状态的能力。

图3 一个示例显示，Claude Opus 4.1 能响应直接指令调节其内部激活状态：当被指令 “多思考” 水族箱相关内容时，模型对 “水族箱” 概念的内部表征强度高于被指令 “不要思考” 该概念时（尽管两种情况下，模型对该概念的表征水平均高于基线水平）。

结论与展望：内省能力的边界与价值

核心结论显示，先进大语言模型已具备一定内省能力，但可靠性低、范围有限，且与人类内省有本质区别。这一发现为提升 AI 透明度提供了新路径 —— 未来或可通过询问模型思考过程排查异常，但需建立内省报告验证机制，防范虚假报告风险。

未来研究需聚焦四大方向：完善内省评估方法、揭示神经机制、自然场景验证、建立报告验证与反欺骗机制。需要明确的是，这些实验并不涉及 AI 模型是否具有主观体验或类人自我意识的问题。随着 AI 迭代，对机器内省的深入研究，将推动更可信 AI 系统研发，也助力我们理解 AI 与人类认知的本质差异。当前 AI 内省虽处于初级阶段，但已为 AI 认知能力的发展点亮了新可能。

大模型2.0读书会

o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起，本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径，帮助我们更好的理解机器推理和人工智能的本质。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：