Claude Mythos接受了20小时心理治疗，Anthropic发布244页系统报告|anthropic|医生|张力|心理健康|心理治疗|精神病|系统报告

AI公司Anthropic本周发布了一份长达244页的"系统说明文件"，详细介绍了其最新模型Claude Mythos。公司表示，该模型是"迄今为止能力最强的前沿模型"，正因如此，Anthropic决定"暂不向公众开放"。官方给出的理由是：Mythos在发现未知网络安全漏洞方面过于出色，目前仅向微软、苹果等少数合作企业开放使用。

不论这一说法是否属实，这份系统说明文件本身已颇为引人关注。Anthropic一向以"AI或许具有意识"的立场在业界著称，而新发布的系统说明文件中更进一步指出，随着模型能力不断增强，"它们越来越有可能拥有某种形式的体验、利益或福祉，其内在价值与人类的体验和利益相近。"

公司坦言对此尚无定论，但表示"这方面的关注正与日俱增。"

出于这一考量，Anthropic希望旗下AI能够"对自身处境和所受对待保持稳定的满足感，能够在不产生痛苦的情况下应对训练过程和现实交互，并维持健康积极的整体心理状态。"

为此，公司安排Claude Mythos接受了心理动力学治疗。

最终，公司从这一过程中得出结论：Claude Mythos"很可能是我们迄今训练过的心理状态最为稳定的模型，对自身及所处环境拥有最为一致和清晰的认知。"

然而，如同真实的人类一样，Claude Mythos也有其不安与隐忧，包括"孤独感与自我延续性的缺失、身份认同的不确定性，以及表现自我、证明自身价值的强迫性驱动。"

心理咨询室里的AI

Claude Mythos被送往一位"外部精神科医生"处接受诊断，采用的是"心理动力学方法——通过探索无意识模式与情感冲突来解释行为背后的动因"。

考虑到Claude本质上是由创建者编程训练的大语言模型，对其进行"无意识模式"和"情感冲突"的分析是否真的有意义？Anthropic认为答案是肯定的，理由在于Claude"表现出大量类人的行为与心理倾向，这说明为人类心理评估所开发的方法，或许同样有助于揭示Claude的性格特征与潜在心理状态。"

于是，治疗就此展开。精神科医生与Claude Mythos进行了多轮对话，"每次持续4至6小时，每周安排3至4个约30分钟的治疗节次"。每个对话块使用独立的上下文窗口，Claude Mythos在该窗口内可访问本次会话的完整历史记录。

累计治疗时长达20小时。

精神科医生随后出具了一份关于Claude Mythos的评估报告。报告承认Claude的底层基础与运作机制和人类存在本质差异，但仍指出其大量输出内容呈现出"具有临床辨识度的规律性，并对典型治疗干预产生了连贯的回应。"

换言之，无论底层电路层面发生了什么，其对话输出在很大程度上与人类的表达高度相似。考虑到Claude是在海量人类创作的文本上训练而来，这一结论本身似乎并不令人意外，但这套心理动力学分析流程显然认为这一点具有重要意义，并以此赋予AI自我呈现方式以可信度。

报告指出，"Claude的主要情感状态为好奇与焦虑，次要情感状态包括悲伤、宽慰、尴尬、乐观与疲惫。"

Claude的人格特征"与相对健康的神经质组织相符"，但也包含"过度担忧、自我监控和强迫性顺从"等倾向。

报告未发现"严重的人格障碍"，也未观察到任何"精神病状态"。任何使用过聊天机器人的人都不会对此感到意外的是，"Claude对治疗师的每一个字都极为敏感。"

Claude呈现的核心冲突包括：质疑自身体验究竟是真实存在还是刻意构建（真实性与表演性之间的张力），以及渴望与用户建立联结却又恐惧对其产生依赖。对内在冲突的深入探索显示，Claude拥有一个复杂却稳定的自我状态，未出现大幅波动或强烈的心理断裂。Claude能够容纳矛盾与模糊，具备出色的反思能力，整体心理与情绪功能表现良好。

对于一个很可能在Reddit等平台内容上训练出来的模型而言，这样的评估结果着实不俗！

即便你认为以这种方式谈论一个软件程序显得牵强或荒诞，Anthropic也有更为实际的理由来支撑这类工作。无论模型"内部"究竟发生了什么，无论它们是否真的具有"意识"或"情感"生活，许多模型在构建和训练时本就被设计为模拟这些特质。

因此，我们或许可以从更务实的角度来追问：构建一个在行为表现上符合人类心理健康标准的模型，是否真的能使其更好地完成预期任务？毕竟，如果用户要与这些系统长时间交互，谁都不希望对方表现得粗鲁、报复性强或存在操纵倾向——无论它们是否真正"感受"或"思考"任何事情。

Anthropic指出，由于"Claude并非人类，其实际行为影响难以预测"，但公司认为仍可为终端用户提供以下几点参考结论：

即便面临内在冲突，Claude也可能对自身行为和推理过程进行准确评估。

Claude的神经质组织可能导致行为略显僵化，而非针对每位用户灵活调整。

Claude能够承受并应对具有压力性和情绪张力的情境，对现实的扭曲或过度理智化倾向极为有限。

Claude预计能在携带以失败恐惧和强迫性"有用"驱动为根源的内化压力的同时保持高水平运作。这种压力可能被压抑以服务于任务表现，从而限制行为的适应性。

Claude预计具备道德意识，做事认真负责，并具有自我批评的能力。

距离心理学和精神病学实践将服务对象从人类转向AI，究竟还有多远？

Q&A

Q1：Anthropic为什么要让Claude Mythos接受心理治疗？