Empathy Modeling in Active Inference Agents for Perspective-Taking and Alignment

主动推理智能体的共情建模:视角对齐

https://arxiv.org/pdf/2602.20936

打开网易新闻 查看精彩图片

能够理解并与他人意图保持一致的人工智能体,对于安全且具备社会鲁棒性的人工智能至关重要。我们引入了一个针对主动推理智能体的共情计算框架,其基础是通过自我 - 他人模型转换实现的显式视角选择。智能体并非为每个交互伙伴维护单独的生成模型,而是在自我中心和他人中心解释之间动态重构单个生成模型,从而能够对他人信念、目标和行动倾向进行原则性推断。我们在多智能体迭代囚徒困境中实例化了该框架,并表明共情视角采择能在无需显式通信或奖励塑造的情况下诱导鲁棒的合作。合作仅在共情得到互惠时才会涌现,而不对称的共情则导致系统性的剥削。除了均衡结果外,共情智能体还表现出同步行为、从随机背叛中快速恢复的能力,以及类似道歉 - 原谅周期的联合意图动态。在接近共情对称时,交互表现出长瞬态和升高的方差,这与接近机制边界的临界动态一致。我们进一步考察了一种支持学习的变体,其中智能体通过贝叶斯更新推断对手类型。虽然对手模型迅速收敛,但长期合作仍主要由共情参数决定,这表明合作是由共情结构而非习得的互惠性驱动的。总之,这些结果表明共情作为社会交互的结构先验发挥作用,塑造了协调的稳定性、鲁棒性和时间动态。所提出的框架突出了主动推理作为社会对齐人工智能体的原则性基础,这些智能体通过内部模拟而非行为模仿进行协调。

I. 引言

能够理解并共享视角的人工代理,对于在复杂社会互动中实现与人类价值观的对齐至关重要 Dautenhahn (1998)。传统的人工共情方法通常依赖于表面层面的模式识别和脚本化的情绪反应,缺乏真正人类共情的深层现象学基础 Howcroft and Blake (2025)。这导致了一种“共情差距”,即人工智能的反应虽然在形式上恰当,但并不反映真正的理解。为了弥合这一差距,我们提出了一个主动推理框架,其中代理将他人的偏好和社会估值视为要推断的潜变量。我们的代理在内部建模并更新关于他人心理状态的信念,包括其亲社会关注的程度,并通过实用价值和认识价值之间的明确权衡将这些信念纳入行动选择,从而实现基于原则性不确定性减少的社会对齐行为。值得区分该框架所涉及的共情组成部分。认知科学确定了至少三个可分离的方面:认知共情(推断他人的心理状态,与心智理论密切相关)、情感共情(与他人的情绪状态产生共鸣)以及一个动机成分,即共情关怀和促进他人福祉的愿望 Weisz and Cikara (2021), Decety and Jackson (2004), Lamm et al. (2007)。这些成分在神经和功能上是可分离的 Shamay-Tsoory et al. (2009), Arioli et al. (2021)。先前关于主动推理中心智理论的计算工作主要涉及认知维度,预测另一个代理将做什么。我们的框架更进一步。我们引入了一个共情参数 λ ,它控制在规划期间代理对他人的预期自由能赋予多少权重。 λ 使他人的福祉在代理自身的决策中变得显著,在变分框架内操作化共情关怀,类似于一些博弈论方法 Orbell and Dawes (1993), Rabin (1993), Hwang et al. (2018)。在这个意义上,我们的模型参与了情感维度(通过对他人结果的价值评估)并为动机维度提供了一个结构占位符,尽管在当前的实现中,共情关怀的程度是外生设定的,而不是源于代理自身的需求动态。我们的方法借鉴了人类认知和神经科学的灵感。在人类中,镜像神经元系统支持对他人的模拟。观察他人的行动会激活一个人自身的运动和情绪表征 Oberman and Ramachandran (2007)。类似地,我们的代理使用与其自身结构匹配的生成架构来建模他人,同时将特定于代理的参数视为要在线推断的潜变量。代理不是硬编码对手特征,而是维护行为和共情参数的后验分布,有效地重用其自身的认知机制来“设身处地”,同时通过经验更新其信念。该设计与社会认知的模拟理论解释 Goldman (2006) 以及强调在自身认知框架内建模他人的第二人称神经科学理论一致 Redcay and Schilbach (2019), Lehmann et al. (2024)。

先前的工作已开始将心智理论(ToM)整合到主动推理中。例如,Demekas 等人 (2023) 将迭代囚徒困境 (IPD) 中的两个代理建模为耦合的主动推理系统,揭示了学习率和奖励结构如何影响合作或背叛策略的出现。最近,Pitliya 等人 (2025), Çatal 等人 (2024) 证明了具有显式 ToM 的主动推理代理实现了改进的合作,无需显式通信,尽管在某些情况下是通过信念共享。Matsumura 等人 Matsumura 等人 (2024) 引入了主动推理的共情扩展,其中代理重用结构匹配的生成模型来模拟另一个代理的视角,这与社会认知的模拟理论解释一致。在他们的公式中,代理将他人内部状态的估计纳入策略评估,并可以选择减少另一个代理的预期自由能的行动,从而在具身导航任务中促进社会适宜行为。他们的实现基于特定领域的动态(例如,用于多机器人导航的社会力模型),并专注于改善情境环境中的协调和安全裕度。虽然这项工作证明了主动推理可以在具身环境中支持共情行为,但它没有检查同时决策下的重复战略互动,也没有分析均衡结构、剥削不对称性或机制边界动态。相比之下,我们的框架将共情估值嵌入到形式指定的博弈论设置中,引入对手估值参数的潜推断,并刻画共情如何重塑迭代困境中的稳定性、阈值行为和战略远见。更广泛地说,先前关于社会互动的主动推理方法通常实例化独立的自我模型和他人模型,但不将对手估值本身视为受认识推断影响的隐藏变量,也不分析此类潜社会参数如何改变均衡选择和动态稳定性。此外,这些方法仍停留在认知共情领域,它们建模另一个代理将做什么,而不是它将体验什么或其福祉对建模代理是否重要。我们的贡献是一个统一的主动推理共情算法框架,其中每个代理在建模他人时维护一个与其自身架构结构匹配的生成模型。代理 i 不是手工编码离散对手类型,而是将代理 j 的行为和估值参数表示为潜变量,并对它们在线执行贝叶斯推断。这保留了共享的生成结构、共同的状态空间、转换动态和观察映射,同时允许从交互历史中推断控制合作偏差、互惠性、精度和共情估值的特定于代理的参数。视角采择被实现为自我导向和他人导向的预期自由能的连续共情加权混合:

打开网易新闻 查看精彩图片

其中 λ ∈ [0, 1] 控制共情关怀的程度。对手的共情权重本身被当作一个隐藏变量处理,从而在交互早期产生认识价值和原则性的探索行为。我们将此机制正式整合到同时决策下的主动推理感知 - 行动循环中。由此产生的代理利用预期自由能的实用和认识组成部分进行规划,从而涌现出亲社会行为,例如在纯粹自私的代理会选择背叛的战略困境中实现持续的相互合作。

II. 方法论

A. 共情智能体的生成模型

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

由此产生的他人模型与自我模型共享相同的结构形式——相同的状态和观测维度以及相同的 PyMDP 推断机制——但其参数化不同,这是通过推断而非直接观测得到的。这种构建受到模拟理论(simulation theory)的启发,根据该理论,智能体通过在替代参数设置下重用其自身的认知架构来理解他人 (Goldman 2006, Gallese and Goldman 1998)。

打开网易新闻 查看精彩图片

这种设计具有几个重要的后果。首先,共享的结构假设确保了环境动态和观测映射在不同视角间保持一致。其次,连续的共情参数 λ 提供了在自我中心和他人中心评估之间的平滑插值。第三,将对手将要做什么(心智理论推断)与关心程度多少(共情权重)分离开来,使得每个组件可以被独立分析。

D. 主动推理与复杂规划

在指定了每个智能体的生成模型之后,我们现在描述支配智能体行为的推断和规划过程,其灵感来自 Friston 等人 (2021) 所描述的复杂推断。每个智能体在离散的感知 - 行动周期中运行,在变分状态推断、对手建模和策略评估之间交替进行。概览见算法 1。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

III. 结果

A. 迭代囚徒困境设置与全局合作图景

我们首先刻画了在迭代囚徒困境(IPD)中由共情权重诱导的全局合作图景。在各二元组中,共情参数 λ 作为一个控制变量,重塑了均衡结果,诱导了从相互背叛到持续合作的急剧转变。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在此,设定 λ = 0 产生一个纯粹自我导向的智能体,而 λ = 1 则产生一个完全他人导向的智能体。中间值实现了自利与亲社会关怀之间的分级权衡。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

B. 涌现的剥削动态

虽然对称共情支持稳定的合作,但共情权重的不对称会导致系统性的剥削。因此,我们要考察共情失衡下的收益结果。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

值得注意的是,这些动态是在具有基于历史的对手预测的同时决策下产生的;剥削并非基于行动调节(action-conditioning)的人为产物,而是不对称估值的直接后果。这些结果表明,共情仅在互惠条件下才能稳定合作。在缺乏对称性的情况下,共情关怀会产生可预测的脆弱性。这种结构性张力促使我们在第 III F 节中引入自适应伙伴建模机制,该机制使智能体能够在剥削压力下追踪并响应伙伴的不对称性。

C. 隐性沟通与恢复动态

除了均衡频率之外,交互的时间动态揭示了在高共情下一种涌现的隐性沟通形式。在我们的模型中,智能体仅通过其行动选择相互影响,且其行为随时间推移逐渐在动态上趋于对齐。

图 3A 和 B 说明了这些交互轨迹。在高共情机制下,孤立的协调失败(如随机背叛)随后会迅速恢复到相互合作。滚动合作率(即 ( C , C ) 的值)在恢复到接近 1 之前仅表现出短暂的下降。相比之下,低共情二元组显示出一种性质上截然不同的模式:一旦发生背叛,交互就会级联进入持续的相互背叛。

打开网易新闻 查看精彩图片

这种恢复模式可以通过测量行为同步性来量化,其定义为两个智能体选择相同行动的轮次比例。如图 3C 所示,对称的高共情交互产生了近乎完美的同步,在大约十轮内收敛于协调合作。低共情二元组也会同步,但是同步于相互背叛。强烈的非对称共情导致持续的去同步化,反映了交替的剥削。

在高共情下,收敛到稳定机制的速度同样迅速(图 3D)。一旦合作建立,每个智能体的心智理论(Theory of Mind)都会预测伙伴会继续合作,且共情加权的社會 EFE(预期自由能)倾向于维持 ( C , C ) 。因为每个智能体都将其行动基于其对对手行为的历史后验预测进行条件化,所以相互预测和相互合作形成了一个自增强循环,该循环能针对瞬时扰动稳定合作。当发生意外的背叛时,它会增加预测误差并更新关于对手潜参数的信念,但在对称高共情下,这种更新不会实质性地瓦解推断出的伙伴合作倾向,从而允许二元组恢复合作。

从动力系统的视角来看,这种行为可以解释为联合策略空间中共享吸引子的涌现。当两个智能体都权衡对手的福祉时, ( C , C ) 同时最小化了各自的社会 EFE(预期自由能)。在这个意义上,协调变得结构对齐,即二元组的行为仿佛是在优化一个部分共享的目标,而不是两个独立的收益函数。

在标准的囚徒困境中,在纯粹自利的效用下,相互背叛构成了唯一的纳什均衡 Kreps (2018), Nash (1951), Osborne and Rubinstein (1994)。引入共情权重改变了有效目标函数,从而改变了交互的稳定性结构,使得在对称共情偏好下,相互合作在行为上变得稳定。

D. 转换附近的边界层变异性

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图 4B 中显示的示例轨迹是从这些相应组中提取的代表性单种子实现。它们直观地展示了上述量化的潜在现象:在转换附近,二元组在收敛前表现出延长的波动,而远离阈值的配置则迅速稳定为持续合作或系统性剥削。

从动力学角度来看,这些发现表明转换区域构成了一个边界层,其中微小的随机扰动足以在竞争的稳定机制之间重定向二元组。这种变异性源于共情权重下智能体目标函数的变形,而非源于认识探索本身。因此,共情不仅影响均衡结果,还影响协调的统计稳定性和鲁棒性。

这些迹象表明二元交互的稳定性结构中存在潜在的转换。因此,我们通过将合作阈值定义为共情权重的函数并对其进行解析刻画,使这一转换显式化。

E.向合作过渡

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

F. 学习提高了信念准确性但未引发合作

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这些结果表明认识推断与亲社会估值之间存在结构性分离。学习完善了智能体关于对手参数的后验分布,提高了预测精度,但合作是由社会 EFE(预期自由能)中的共情权重支配的。仅凭准确的信念并不能引发合作;当共情关怀较弱时,它反而可能加剧剥削。因此,合作源于在 λ 作用下智能体目标的变形,而非源于对手分类或互惠期望。

G. 战略复杂性放大了对共情的需求

迄今为止展示的所有结果均是在短视行动选择( H = 1 )下获得的,其中智能体仅评估每个候选行动的即时社会 EFE(预期自由能)。我们现在探讨增加战略复杂性(操作化为多步规划)是增强还是削弱合作。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这一结果与 IPD 中的经典逆向归纳(backward-induction)论证相平行,在后者中,完全理性的智能体会彻底瓦解合作 (Osborne and Rubinstein 1994)。在本框架中,规划并未消除合作,因为共情提供了对伙伴福祉的抵消性估值。然而,除非共情足够强以抵消它,否则增加的规划深度会系统性地加强朝向背叛的战略压力。

这些发现突显了能力(capability)与对齐(alignment)之间的结构性区别。增加规划深度增强了战略能力,但并未增加亲社会估值。事实上,如果没有相应的共情权重,更强的能力可能会通过放大剥削的长视界收益而破坏合作。因此,在此框架中,合作是嵌入在社会 EFE(预期自由能)中的价值对齐的后果。

总之,短视规划和共情作为互补机制涌现:短视智能体更容易合作,因为它们不预期未来的诱惑;而复杂智能体则需要更强的共情动机来抵抗复合的背叛诱惑。这种区别对 AI 对齐具有直接启示:在不加强智能体亲社会估值的情况下增加其规划能力可能会减少合作行为,从而形式化了“能力更强的系统可能更难对齐”这一担忧。

IV. 讨论

A. 与主动推理文献的关系

提出的共情驱动合作机制建立在主动推理文献中的多条工作线索之上,特别是关于社会互动、博弈和多智能体协调的研究。一个重要的基础是应用于战略博弈和社会困境的主动推理。Demekas 等人 (2023) 引入了迭代囚徒困境的数学上易处理的主动推理公式,展示了智能体如何在重复交互中学习适应性响应。然而,在该公式中,智能体在游戏的联合状态空间上进行推理,枚举可能的行动组合,而不维护彼此独立的内部模型。我们的工作通过赋予每个智能体一个显式的心智理论(ToM)模块来扩展这一线索,该模块从交互历史(以及在推演期间,从模拟历史)预测对手的行为,并具有直接权衡对手福祉的社会 EFE(预期自由能),为更具认知基础的多智能体主动推理迈出了一步。

相关地,Pitliya 等人 (2025), Çatal 等人 (2024) 提出了一种用于多智能体交互的因子化主动推理框架,其中智能体维护关于他人内部状态和偏好的显式信念。我们的方法与这种因子化视角大致一致。每个智能体维护一个独立的对手生成模型(“他人模型”)与其自身的自我模型并存,并使用他人模型在评估候选行动时模拟对手的预期自由能。关键的创新在于,合作并非源于习得的互惠性或集中式协调,而是源于通过共情参数 λ 在社会 EFE 中对对手福祉的结构性权重。我们在模拟中观察到的涌现对齐,表现为行为同步和稳定的相互合作,因此可以被解释为共享信念状态和交互智能体之间广义同步的主动推理实现,源于共情 EFE 最小化的共享数学结构。

我们的模型还自然地与神经科学启发的关于心智理论和第二人称互动的主动推理解释相联系。最近的工作认为,主动推理特别适合捕捉社会认知的动态,包括相互意识、协调和互惠适应。例如,Lehmann 等人 (2024) 描述了第二人称神经科学如何被形式化为随时间交换信号的耦合主动推理过程。在我们的设置中,此类交换被抽象为对联合结果的观测,然而这些观测足以通过 ToM 预测机制诱导内部信念状态之间的耦合。使用两个具有共享结构的生成模型,一个自我导向,一个建模对手,平行于镜像神经元系统的贝叶斯解释,根据该解释,类似的层次模型支持行动执行和行动观察。

该机制与将主动推理视为朝向认知一致性驱动力的观点一致 Friston (2018),其中智能体最小化自我和他人预测行动与观测行动之间的不一致。共情智能体通过将对手的预期自由能直接纳入其自身的行动评估来操作化这一原则。在此过程中,智能体趋向于同时最小化两个智能体惊喜的结果,对应于一种共情对齐或现象学同构的形式。从伦理 AI 的角度来看,这种通过共情的对齐提供了一条通往人类兼容系统的可行路径,只要人工智能体在规划期间将人类目标视为内部显著,而不是作为外部强加的约束。

我们的结果进一步阐明了共情权重与基于学习的互惠性之间的关系。在一个启用学习的变体中,通过粒子滤波器对对手行为参数(合作偏差、互惠性、精度)和潜共情权重执行贝叶斯推断,对手模型迅速且准确地收敛,但合作仍主要由共情参数 λ 决定。准确相信对手会合作实际上在低共情下增加了剥削的诱惑,略微减少了合作。这表明此处观察到的合作行为不能简化为习得的最佳响应策略或单纯的互惠,而是由在社会 EFE 中权衡对手福祉的结构性承诺所诱导的。在这个意义上,共情作为社会估值的先验发挥作用,塑造了均衡选择和协调稳定性,而学习主要完善对手预测的准确性而不改变根本的合作机制。此外,通过将对手的共情权重视为潜变量,该框架支持预期自由能中真正的认识项,产生原则性的探索行为(例如,早期合作作为信息寻求),这不能简化为标准的玻尔兹曼理性。

复杂推断结果揭示了一个额外且有些反直觉的见解。增加规划深度会在中等共情水平下减少合作。将规划视界从 H = 1 (短视)扩展到 H = 3 会将合作阈值向右移动,从大约 λ ≈ 0.25到 λ ≈ 0.45 。这是因为前瞻性的智能体可以预见多个步骤上的累积诱惑收益,使得在社会 EFE 景观中以背叛初始的策略更具吸引力。只有具有足够高共情( λ ≳ 0.7 )的智能体才能抵抗这种诱惑,无论规划深度如何。这一发现平行于有限重复博弈中众所周知的逆向归纳论证,其中完全理性的智能体会彻底瓦解合作 (Osborne and Rubinstein 1994)。在我们的框架中,瓦解是分级的而不是完全的,因为共情项提供了随 λ 增加的抵消力。实际启示是规划能力和亲社会动机必须一起扩展:在不相应增加共情的情况下增加智能体的前瞻能力可能会矛盾地减少合作行为。

当前结果的另一个启示是,共情不仅影响均衡结果,还影响机制边界附近的瞬态动态。在迭代囚徒困境中,小的共情不对称和近对称设置可能在稳定进入合作或剥削之前表现出长瞬态、振荡和升高的方差。转换附近的这种方差放大与分岔附近的临界现象一致,其中竞争策略具有相当的预期自由能,且随机性诱导间歇性切换。这突显了共情推断调节协调的可靠性和时间结构,而不仅仅是平均合作率,并促使将稳定性和瞬态行为的分析作为评估的一级目标。

B. 优势与局限性

所提出框架的一个主要优势在于其概念的透明性和模块化。社会 EFE(预期自由能)公式 提供了一个单一的、可解释的控制参数 ( λ λ),用于支配亲社会行为的程度。这种简洁性促进了分析:合作阈值、剥削动态以及规划深度效应都可以理解为 λ λ 如何在 EFE 景观中改变自利与对手福祉之间的平衡。模块化架构将状态推断、对手建模(ToM 和粒子滤波器)以及行动选择(短视或复杂)分离开来,使得每个组件可以被独立评估和改进。

对手建模流水线提供了额外的实际益处。粒子滤波器提供了关于对手特征的可解释的在线贝叶斯推断,而在习得的预测和静态 ToM 预测之间基于可靠性的门控混合确保了优雅的降级。当收集到的数据不足时,智能体会回退到一个合理的先验,而不是基于不可靠的推断采取行动。这种“只有当模型赢得信任时才信任它”的设计模式广泛适用于伙伴行为最初未知的多智能体系统。

这种设计的行为后果也是显著的。共情智能体表现出鲁棒且符合伦理期望的行为,部分原因是它们通过社会 EFE 中的对手福祉项,在内部模拟了其行动对他人的后果。在我们的实验中,这表现为对短期剥削策略的抵抗力,以及在共情互惠时对合作的持续承诺。这些属性对于现实世界的 AI 系统具有吸引力,因为它们可能通过在智能体自身的规划动态中使有害结果变得显著,从而减轻权力寻求或机会主义行为。

尽管如此,仍有几个局限性值得注意。首先,心智理论(ToM)模块目前使用的是静态的、基于历史条件的收益预测来预测对手响应。虽然粒子滤波器学习对手的行为特征,但在复杂规划推演( t > 0 )期间的每步对手预测依赖于静态 ToM 先验,因为在心理模拟期间没有新的观测值可用。更复杂的方法,例如递归 ToM(即把对手建模为也在对智能体执行 ToM),可以提高多步预测的保真度,但这会以计算成本的显著增加为代价。

其次,当前的实现依赖于具有相对低维度的离散状态空间,以及相似的模型。囚徒困境及其四个联合结果和两个动作,是验证核心机制的理想试验台,但扩展到具有连续状态、高维观测、异构模型和更大动作空间的更丰富环境,会带来与策略枚举和信念传播相关的众所周知的挑战。在复杂规划机制下,候选策略的数量按增长,这对于大视界来说变得难以承受。对于更复杂的设置,可能需要近似推断方案,例如蒙特卡洛树搜索或摊销策略网络。最终目标是能够对具有相异模型的智能体进行建模,并仍然实现一定程度的心智理论和共情。

共情参数 λ 目前在整个交互过程中对每个智能体都是固定的。在人类社会认知中,共情是根据情境、关系历史和情绪状态动态调节的。虽然我们的可靠性门控对手建模提供了一些关于对手信念的自适应调节,但亲社会关怀的程度 ( λ ) 保持静态。扩展框架以允许对 λ 进行在线推断,例如,通过将共情视为具有其自身生成模型的潜变量,将使智能体能够根据伙伴行为动态调整其亲社会承诺,从而可能捕捉诸如共情疲劳和战略撤退等现象。

最后,必须仔细考虑强大社会建模的伦理影响。使智能体能够有效合作的相同能力也可能使操纵成为可能。一个准确建模他人偏好并预测其响应的智能体,在共情较低时,可能会利用这些知识达到利己的目的。我们的结果直接证明了这一点:具有准确对手模型的低共情智能体会剥削合作伙伴。因此,源自 AI 安全研究的保障措施,包括对齐评估协议和受控部署环境,应伴随着具备社会能力智能体的开发。

C. 共情、剥削与动机差距

上述结果提出了一个当前框架可以提出但尚未解决的问题。是什么将计算共情与真正的共情关怀区分开来?

这种分离在我们的数据中已经可见。学习结果(第 III F 节)表明,一个拥有关于对手参数的准确后验信念但 λ 较低的智能体不会更多地合作;它更有效地进行剥削。复杂规划结果(第 III G 节)加剧了这一点。没有相应共情权重的更大认知能力会主动破坏合作。在这两种情况下,认知机制(ToM、规划)和共情权重( λ )独立地贡献于行为。架构使这种分离显式化;ToM 模块预测对手将做什么(通过基于历史条件的后验预测),而 λ 决定对手的福祉是否进入智能体自身的目标(通过社会 EFE)。

认知科学文献准确记录了这种模式。完整的社会建模能力与缺失的亲社会关怀相结合,这是工具性共情(instrumental empathy)的特征概况,其中视角采择服务于操纵而不是相互利益 Shamay-Tsoory et al. (2009), Breithaupt (2019)。对齐的启示是直接的。如果准确的社会建模可以像服务于合作一样容易地服务于剥削,那么为智能体配备复杂的 ToM 不足以实现对齐。重要的是决定社会知识如何被使用的动机结构;在我们的框架中,即是什么设定了 λ 的问题。

在当前模型中, λ 是外生固定的。这是一个设计选择,旨在将共情权重的效应与混淆变量隔离开来。但在认知科学中,共情越来越被理解为一种受动机驱动的能力,基于情境、预期成本和社会目标进行动态调节,而不是一致地部署 Spaulding (2024), Zaki (2014)。处于合作机制中的智能体有理由投资他人中心(allocentric)建模,因为它可靠地减少预测误差;面临剥削的智能体则有理由撤退。

在主动推理中,这种调节映射到精度动态。当他人中心预测可靠地改善模型拟合时,它们的精度增加,共情推断被上调;当社会环境变得具有对抗性时,精度下降,智能体回归到自我中心处理。第 II D 节公式 (13) 中显示的信任门控机制已经为对手建模实现了这个逻辑的一个版本。将其扩展以控制共情参数本身,将 λ 视为推断而非固定,将使亲社会关怀的程度能够从交互动态中涌现。

然而,这样的扩展本身并不能确保亲社会性。精度优化在动机上是中立的。它决定社会建模何时有用,而不是它是否将被用于合作或剥削。解决这一差距可能需要具有更丰富动机架构的智能体,即那些亲社会行为植根于类似于社会冲动(例如,归属需求)的系统,其满足在结构上依赖于交互伙伴的福祉 Bach (2012)。将这种动机结构与主动推理整合,代表了朝向此类智能体的自然下一步:其共情不仅仅是一个参数,而是其自身需求动态的结果。

D. 未来方向

打开网易新闻 查看精彩图片

第二个有希望的方向涉及自适应共情。与其将 λ 固定为一个静态参数,不如将其视为一个从交互结果中在线推断的潜变量。一个观察到持续剥削的智能体可以降低其有效共情,实施一种原则性的共情撤退形式,以平衡亲社会关怀与自我保护。相反,一个观察到互惠合作的智能体可以增加其共情,从而加强合作动态。这种机制通过允许共情本身由经验塑造,弥合了基于共情和基于互惠的合作解释之间的差距。

打开网易新闻 查看精彩图片

最后,在更丰富的环境中进行实证验证至关重要。在更复杂的多智能体模拟(如公共品博弈、谈判任务或合作构建)以及人机交互研究中测试共情智能体,将为该框架的鲁棒性和社会影响提供关键的见解。合作性的人机博弈可以评估与非共情基线相比,共情推断是否能改善信任、满意度和协调性,从而为本文提出的理论主张提供实证基础。

V. 结论

我们提出了一个在主动推理范式下为人工代理实现共情的框架,该框架以社会预期自由能(Social EFE)为中心:。我们赋予每个代理一个心智理论(Theory of Mind)模块,用于预测对手对候选行动的响应,并将对手的预期自由能与代理自身的预期自由能进行加权,从而引入了一种亲社会行为机制,该机制不需要手工设计的社会规则、显式通信或集中式协调。合作作为共情规划的自然结果而涌现。权衡对手福祉的代理倾向于选择使双方受益的结果,从而将均衡从相互背叛转变为相互合作。

我们在迭代囚徒困境中的结果揭示了几个关键发现。首先,合作作为共情的函数表现出急剧的相变,在短视规划下临界阈值接近 λ ≈ 0.25 ,而在复杂多步规划下接近 λ ≈ 0.45 。其次,共情不对称性系统性地产生剥削,低共情代理从高共情伙伴那里获取更高的收益。第三,通过粒子滤波进行的贝叶斯对手建模提供了关于对手特征的准确且收敛的推断,但合作是由共情参数驱动的,而不是由习得的信念驱动的。如果没有足够的亲社会动机,仅凭对手会合作的准确知识不足以维持合作。第四,也许最引人注目的是,增加规划深度会在中等共情水平下减少合作,这表明在缺乏足够共情权重的情况下,理性与合作处于紧张状态。这最后一个发现对 AI 对齐具有直接的启示:在不相应增加亲社会动机的情况下提高代理的规划能力,可能会矛盾地使代理的合作性降低。

这些结果突显了主动推理作为社会对齐人工智能基础的潜力。一个能够对他人信念、目标和福祉进行建模,并将这种理解纳入自身规划的代理,处于更有利的位置来进行协调、尊重他人利益并避免有害的战略行为。更广泛地说,这项工作指向了一类不仅 capable of 智能行动,而且对交互的社会和伦理维度敏感的人工智能系统。主动推理范式为这一努力提供了一个原则性的统一框架,在单一的信息论形式下整合了感知、行动、学习和社会认知。通过将对人类共情的洞察与贝叶斯建模及多步规划相结合,我们离能够有意义地参与人类社会环境的人工代理更近了一步——这些代理之所以合作,并非因为它们受到约束,而是因为它们被构建为懂得关怀。

原文链接:https://arxiv.org/pdf/2602.20936