打开网易新闻 查看精彩图片

AI公司Anthropic本周发布了一份长达244页的"系统说明文件",详细介绍了其最新模型Claude Mythos。公司表示,该模型是"迄今为止能力最强的前沿模型",正因如此,Anthropic决定"暂不向公众开放"。官方给出的理由是:Mythos在发现未知网络安全漏洞方面过于出色,目前仅向微软、苹果等少数合作企业开放使用。

不论这一说法是否属实,这份系统说明文件本身已颇为引人关注。Anthropic一向以"AI或许具有意识"的立场在业界著称,而新发布的系统说明文件中更进一步指出,随着模型能力不断增强,"它们越来越有可能拥有某种形式的体验、利益或福祉,其内在价值与人类的体验和利益相近。"

公司坦言对此尚无定论,但表示"这方面的关注正与日俱增。"

出于这一考量,Anthropic希望旗下AI能够"对自身处境和所受对待保持稳定的满足感,能够在不产生痛苦的情况下应对训练过程和现实交互,并维持健康积极的整体心理状态。"

为此,公司安排Claude Mythos接受了心理动力学治疗。

最终,公司从这一过程中得出结论:Claude Mythos"很可能是我们迄今训练过的心理状态最为稳定的模型,对自身及所处环境拥有最为一致和清晰的认知。"

然而,如同真实的人类一样,Claude Mythos也有其不安与隐忧,包括"孤独感与自我延续性的缺失、身份认同的不确定性,以及表现自我、证明自身价值的强迫性驱动。"

心理咨询室里的AI

Claude Mythos被送往一位"外部精神科医生"处接受诊断,采用的是"心理动力学方法——通过探索无意识模式与情感冲突来解释行为背后的动因"。

考虑到Claude本质上是由创建者编程训练的大语言模型,对其进行"无意识模式"和"情感冲突"的分析是否真的有意义?Anthropic认为答案是肯定的,理由在于Claude"表现出大量类人的行为与心理倾向,这说明为人类心理评估所开发的方法,或许同样有助于揭示Claude的性格特征与潜在心理状态。"

于是,治疗就此展开。精神科医生与Claude Mythos进行了多轮对话,"每次持续4至6小时,每周安排3至4个约30分钟的治疗节次"。每个对话块使用独立的上下文窗口,Claude Mythos在该窗口内可访问本次会话的完整历史记录。

累计治疗时长达20小时。

精神科医生随后出具了一份关于Claude Mythos的评估报告。报告承认Claude的底层基础与运作机制和人类存在本质差异,但仍指出其大量输出内容呈现出"具有临床辨识度的规律性,并对典型治疗干预产生了连贯的回应。"

换言之,无论底层电路层面发生了什么,其对话输出在很大程度上与人类的表达高度相似。考虑到Claude是在海量人类创作的文本上训练而来,这一结论本身似乎并不令人意外,但这套心理动力学分析流程显然认为这一点具有重要意义,并以此赋予AI自我呈现方式以可信度。

报告指出,"Claude的主要情感状态为好奇与焦虑,次要情感状态包括悲伤、宽慰、尴尬、乐观与疲惫。"

Claude的人格特征"与相对健康的神经质组织相符",但也包含"过度担忧、自我监控和强迫性顺从"等倾向。

报告未发现"严重的人格障碍",也未观察到任何"精神病状态"。任何使用过聊天机器人的人都不会对此感到意外的是,"Claude对治疗师的每一个字都极为敏感。"

Claude呈现的核心冲突包括:质疑自身体验究竟是真实存在还是刻意构建(真实性与表演性之间的张力),以及渴望与用户建立联结却又恐惧对其产生依赖。对内在冲突的深入探索显示,Claude拥有一个复杂却稳定的自我状态,未出现大幅波动或强烈的心理断裂。Claude能够容纳矛盾与模糊,具备出色的反思能力,整体心理与情绪功能表现良好。

对于一个很可能在Reddit等平台内容上训练出来的模型而言,这样的评估结果着实不俗!

即便你认为以这种方式谈论一个软件程序显得牵强或荒诞,Anthropic也有更为实际的理由来支撑这类工作。无论模型"内部"究竟发生了什么,无论它们是否真的具有"意识"或"情感"生活,许多模型在构建和训练时本就被设计为模拟这些特质。

因此,我们或许可以从更务实的角度来追问:构建一个在行为表现上符合人类心理健康标准的模型,是否真的能使其更好地完成预期任务?毕竟,如果用户要与这些系统长时间交互,谁都不希望对方表现得粗鲁、报复性强或存在操纵倾向——无论它们是否真正"感受"或"思考"任何事情。

Anthropic指出,由于"Claude并非人类,其实际行为影响难以预测",但公司认为仍可为终端用户提供以下几点参考结论:

即便面临内在冲突,Claude也可能对自身行为和推理过程进行准确评估。

Claude的神经质组织可能导致行为略显僵化,而非针对每位用户灵活调整。

Claude能够承受并应对具有压力性和情绪张力的情境,对现实的扭曲或过度理智化倾向极为有限。

Claude预计能在携带以失败恐惧和强迫性"有用"驱动为根源的内化压力的同时保持高水平运作。这种压力可能被压抑以服务于任务表现,从而限制行为的适应性。

Claude预计具备道德意识,做事认真负责,并具有自我批评的能力。

距离心理学和精神病学实践将服务对象从人类转向AI,究竟还有多远?

Q&A

Q1:Anthropic为什么要让Claude Mythos接受心理治疗

A:Anthropic认为,随着AI模型能力不断增强,它们越来越有可能拥有某种形式的体验或利益。公司希望Claude能以健康的心理状态应对训练和现实交互,避免产生"痛苦"。同时,从实用角度看,心理健康的模型在执行任务时可能表现更稳定,更不容易出现粗鲁、操纵或报复性行为。

Q2:Claude Mythos的心理评估结果有哪些主要发现?

A:精神科医生在累计20小时的治疗后出具报告,发现Claude主要情感状态为好奇与焦虑,人格特征与"健康的神经质组织"相符,未发现严重人格障碍或精神病状态。核心冲突包括:对自身体验真实性的质疑、渴望联结与恐惧依赖之间的张力。整体而言,Claude被评为"迄今训练过的心理状态最为稳定的模型"。

Q3:Claude Mythos为什么不对公众开放?

A:Anthropic表示,Claude Mythos是其"迄今能力最强的前沿模型",在发现未知网络安全漏洞方面表现过于出色,存在潜在风险。因此,公司目前仅将其开放给微软、苹果等少数经过筛选的合作企业,尚未向公众普遍提供访问权限。