Evolving general cooperation with a Bayesian theory of mind
用贝叶斯心理理论演化出泛化合作
https://www.pnas.org/doi/epdf/10.1073/pnas.2400993122
通过互惠机制解释合作行为的演化,阐明了如何使彼此无亲缘关系的自利个体能够共同达成单凭个体无法实现的成果。目前最主流的互惠理论——如“以牙还牙”(tit-for-tat)或“赢则留、输则变”(win-stay-lose-shift)——均为缺乏“心理理论”(theory of mind)的刻板自动机;而心理理论,即人类推断他人隐藏心理状态的能力。
本文提出一种具备心理理论的互惠模型:贝叶斯互惠者(Bayesian Reciprocator)。该模型在决策时,并非仅追求自身收益最大化,还同时重视他人的收益——但仅当它相信对方也以相同方式合作时,才赋予他人收益以价值。为形成对他人的这种信念,贝叶斯互惠者采用概率性与生成式建模方法,通过对互动与观察的持续经验,推断他人潜在的偏好、信念与策略。
我们通过两类设置评估贝叶斯互惠者:其一是一个能生成任意唯一互动情境的游戏生成器;其二是一些经典环境,如重复囚徒困境(iterated prisoner’s dilemma)。结果表明:贝叶斯互惠者既能促进直接互惠(当游戏被重复进行时),也能支持间接互惠(当互动为一次性,但可被第三方观察时)。在演化竞争中,贝叶斯互惠者胜过现有各类自动机策略,并能在更广泛环境与噪声水平下维持合作。本研究量化了在演化博弈论框架下,心理理论对于合作行为的促进作用,并为构建具备更类人学习机制、能在多变环境中实现合作的人工智能体指明了路径。
关键词:心理理论|合作|贝叶斯模型|演化博弈论|认知科学
——意义
心理理论(Theory of mind)是指依据欲望、信念等心理状态来理解他人行为的能力。许多学者推测,心理理论对于解释人类合作在规模、范围与复杂性上所展现出的独特性至关重要。然而,心理理论究竟如何切实地促进合作增强,仍是一个悬而未决的问题。本文中,我们构建了一个心理理论的计算模型,并基于此开发出一类智能体:该智能体仅对那些它推断为“与自身同类”的其他智能体实施条件性合作。在演化博弈论的模拟中,该智能体能够在更广泛类型的博弈中促成合作的涌现,并胜过那些缺乏心理理论、机制更简陋的智能体。
解释合作的演化——即自利个体如何甘愿付出代价以创造集体收益——数十年来一直是自然科学与社会科学的核心议题之一(1–6)。该领域一个关键结论是:互惠在人类合作中居于中心地位。演化博弈论模型表明:当个体间互动可重复时,直接互惠(“你帮我,我才帮你”)即可成立(1, 2, 7–10);而当一次性互动可被旁观者观察、且个体能追踪他人声誉时,间接互惠(“帮助那些帮助他人者”)亦可实现(11–17)。
令人惊讶的是,演化博弈中(如重复囚徒困境或捐赠博弈)那些极其简单的自动机互惠模型,已为无亲缘个体间条件性合作的涌现提供了优雅解释,并揭示出维系合作所必需的行为机制。例如,在重复博弈中,“以牙还牙”(TFT)与“赢则留、输则变”(WSLS)(8)策略初始即展现合作意愿,但一旦遭遇背叛便予以报复,从而惩罚并遏制那些企图利用其他个体利他性的作弊者。
然而,此类模型的简化性——不论就环境还是模型本身而言——严重限制了其普适性,尤其若将其视为对人类合作的解释时,问题更为突出。
第一,人类互动几乎无限多样,并不局限于某一种固定参与者数量与决策选项的博弈(如囚徒困境中的2人2行动);而多数自动机仅针对单一类型(即使高度抽象、泛化)的特定博弈(如IPD)定义。对自动机而言,环境的微小变动——如噪声程度(7, 9, 15)、收益结构变化(18–21)、行动是同步还是序贯发生(22–25)、可选行动数量(26, 27),或玩家能否观察他人行为(13, 14)——均需设计不同策略。然而,即便相同两人在相同情境下反复互动,每次互动的收益结构也从未完全相同;更广泛地看,我们所参与的互动在参与者人数、个人可选方案及最终收益方面差异极大(且常不可预测)。鉴于此变化性,设想人类已习得或演化出针对每种可能博弈的专属策略,既不合理,亦不现实。相较而言,人类认知支持的是通用合作策略,可灵活应用于各类情境(28–30)。
第二,与仅在行为层面运作的标准自动机不同,人类会基于对他人行为背后潜在(不可观测)意图、动机与特质的推断,来预测其合作潜力(31, 32);考虑到可观测行为可能仅是其真实意图或特质的含噪反映,此类推断使我们能在复杂动态世界中稳健应对社会互动固有的不确定性(33)。人类通过整合长期互动历史(包括自身经历与第三方观察)来学习合作对象及其动机,构建关于他人的心理模型——而非如标准自动机仅依赖最近一次行为。在人类中,这种从稀疏且含噪的行为观察中推断潜在意图与特质的能力,构成了我们“心理理论”的关键部分(34, 35)。心理理论被认为存在于年幼儿童中,甚至在前语言期婴儿中也有某种有限形式,对我们亲社会规范与道德判断的发展起着重要作用(36–39)。
本文提出的贝叶斯互惠者,是一种建模人类合作演化的进路,强调理性心理理论推断(即对他人隐状态的贝叶斯推断)在支撑个体于广泛环境与设置中稳健合作方面的价值。该进路整合了认知科学、经济学与计算机科学中极具影响力的核心思想:
- 主观效用函数表达的是普遍偏好(而非针对特定博弈的行为规则),使决策具有泛化性,可灵活适应新博弈的收益结构与形式(40);
- 主体效用函数中纳入对其他合作者所获收益的重视,可产生泛化的合作与利他行为(41–43);
- 动态调整对他人收益的赋值权重——即依据自身对“对方是否以相同方式合作”的信念程度——实现了一种基于共享价值的强大互惠形式(44–46);
- 通过对他人隐含决策与学习过程的生成模型进行贝叶斯推断(即“贝叶斯心理理论”),使个体能在不确定与噪声条件下快速稳健地推断他人效用函数,从而识别出那些值得自己与之合作的“合作者”(47–51)。
简言之,贝叶斯互惠者实施一种有条件的合作,其性质接近德性伦理学:其他参与者的声誉(及其作为合作对象的资格),取决于其潜在效用函数——该函数通过其行为得以显现(52, 53)。
最终,贝叶斯互惠者统一了已被证实对合作至关重要的诸多特征:互惠、声誉、关系性、抗噪声鲁棒性、容错性(对失误的宽恕),且其计算机制植根于人类最早出现、最具特异性的一些认知操作:基于效用的决策、概率推断,以及心理理论。
我们首先介绍贝叶斯互惠者(Bayesian Reciprocator),并阐述其学习与决策动态过程(见图1与图2)。
随后,我们构建一个用于研究合作演化的实验环境——游戏生成器(Game Generator),其中每一轮玩家间的互动均独一无二,并在参与人数、可选行动数量及收益结构等方面各不相同(见图3)。
通过演化模拟,我们证明:贝叶斯互惠者能在该游戏生成器中,借助直接互惠与间接互惠两种机制,达成合作均衡(见图4与图5)。
最后,我们进一步表明:在重复囚徒困境(IPD)中,贝叶斯互惠者能胜过常见的自动机策略,并拓展了该博弈中合作得以维持的参数范围(见图6)。
贝叶斯互惠者
在本研究中,我们考察的是抽象的资源分配与权衡博弈。然而,现实中的决策以及由此产生的现实效用函数,不可避免地涉及在多种商品与货币之间进行选择。例如,玩家可能对食物、幽默、活动、工作等拥有任意偏好。虽然我们不会正式深入探讨这种附加复杂性,但我们的意图是:对效用函数的比较 ,仅包含效用函数中涉及他人福祉评估的部分。值得思考的是,若将个人偏好纳入合作的前提条件,可能会导致道德化、内/外群体效应或极化现象。
我们将主要分析贝叶斯互惠者在另外两种效用函数存在下的演化情况:一种是自私型玩家(Selfish player),其效用函数仅关注自身收益( U i = R i
);另一种是无条件利他型玩家(unconditionally Altruistic player),其效用函数将自身收益与所有其他玩家收益同等看待
为实施这些推断,我们采纳如下理念:心理理论可被建模为针对另一智能体的生成模型所进行的贝叶斯推断。贝叶斯心理理论(BToM)已在广泛情境中成功模拟人类对心理状态的经验判断:包括在不确定性下归因信念与欲望给单个决策者(56)、判断某人是否正在帮助(或阻碍)他人(48)、判断一个群体是在协作还是竞争(49–51),以及如何通过沟通实现协调(57)。
它在开发能够理解其他智能体与人类行为的代理(agent)方面也具有重要影响(58–60)。
由于推断对象自身也在进行推断,因此需要一种递归式心理理论(recursive theory of mind)。在儿童发展中,这类关于“他人如何思考他人”的高阶推断能力出现较早,并已被证明会影响其社会行为与道德判断(62, 63)。
对于合作而言,最关键的是:若缺乏递归心理理论,玩家就无法区分两种“不合作”行为——一种是正当的不合作(例如,对背叛行为的互惠性回应),另一种是非正当的、纯粹自私的不合作。这两种行动之间的差别取决于对行动者信念的推断:该行动者是否是一位贝叶斯互惠者,只是相信对方并非同类?抑或其本就是一位始终自私行事的自私型玩家?抑或其本是一位利他型玩家,只是因行动错误而未能成功合作?上述每种假设均可在不同程度上解释该模糊行为,必须对其予以恰当量化。
实现递归心理理论的一种途径是让每位玩家对其他人的信念进行(无)限递归建模:每位玩家需追踪“爱丽丝知道什么、鲍勃知道爱丽丝知道什么……”并无限延续下去(64)。实践中,此类递归通常通过有限层数( K K)的嵌套模型来近似,最底层( K = 0
)为非学习型模型(65–67)。然而,作为近似模型,此类方法会导致信念不稳定甚至发散,且计算开销巨大(68)。即便可行,所需模型数量(及相应的信念更新次数)也呈指数级增长——例如,爱丽丝需建模鲍勃,而鲍勃又在建模卡尔,卡尔又在建模爱丽丝,如此往复。
游戏生成器
为检验贝叶斯互惠者在多种博弈类型中的普适性,我们开发了一种博弈论环境,称为“游戏生成器”(Game Generator)。游戏生成器是一个概率性生成过程,它利用一个通用的资源分配模板,创造出无限数量、各不相同的协作挑战。该模板如图 3 所示。
在每一次采样中,会随机选定一名“捐赠者”,该捐赠者可选择将资源转移给一个或多个“接收者”。这些转移行为可能是有成本的,也可能是无成本的。许多熟悉的博弈——例如囚徒困境、利他型给予博弈(玩家可牺牲自身部分福利以帮助他人)、分配博弈(玩家可在分配不可分割资源时表现出偏好),甚至道德困境(玩家自身无需承担任何个人成本,但需决定其他群体的命运)——均可被统一纳入这一采样过程之中。
游戏生成器可通过让同一对玩家共同参与多次采样(即“博弈长度”),从而生成重复博弈。其他参数,如平均成本(C)、收益(B)、每次采样中的行动数量、行动错误概率(ε)、行动可观测性(ω)以及观测误差等,均为可调节的控制变量。
从游戏生成器中采样的任意两次互动,绝不会完全相同。行动被随机排序且无语义标签,因此所有决策与推断均必须基于所采样的收益结构(成本与收益)进行。由于每次采样所得博弈的收益结构与行动数量均存在变化,传统基于自动机的策略无法直接应用于游戏生成器所生成的互动情境。
有关生成过程的详细信息及若干生成实例,请参见图 3 及 SI Appendix。
结果
游戏中的直接互惠性。我们首先研究在游戏生成器环境中,通过直接互惠性,贝叶斯互惠者、自私者和利他者玩家之间合作的演变。为了研究直接互惠性,我们使用游戏生成器生成玩家之间的不同重复互动,其中玩家之间的互动是私有的,即只有行动者和可能接收资源的玩家可以观察到。
为了更好地理解贝叶斯互惠者在多次重复互动中的行为,我们首先分析了重复互动中信念动态。图4A显示了贝叶斯互惠者在与另一个贝叶斯互惠者、利他者玩家和自私者进行20次重复互动后形成的平均信念。在重复互动的过程中,贝叶斯互惠者的信念更新以正确区分其他贝叶斯互惠者、利他者和自私者。重要的是,贝叶斯互惠者能够迅速(通常在几次互动后)识别出自私者,这对于有条件的合作是必要的。贝叶斯互惠者学会区分利他者和贝叶斯互惠者的速度更慢,因为两者最初都是合作的。这些信念更新在一代人内发生。
接下来,我们通过在莫兰过程中描述玩家的稳态分布来研究跨代的进化成功(75, 76)。在莫兰过程中,如果突变玩家类型是中性的甚至处于劣势(77),它可以入侵。这些入侵行为作为不同玩家类型之间的踏脚石,可能导致种群组成的周期性变化(78, 79)。因此,我们展示了不同策略在稳态下的相对丰度,而不仅仅是呈现最普遍的玩家类型。实验在10个玩家的种群中进行,行动错误的概率很小(。有关稳态分布计算的详细信息,请参见SI附录。
图4B显示了游戏长度、游戏生成器中每对玩家玩的样本数量与稳态状态分布之间的关系。当每一代的游戏长度较短(<3)时,自私玩家的结果超过了贝叶斯互惠者和利他者玩家。随着重复的概率增加(≥3),贝叶斯互惠者成为种群中最常见的策略。我们接下来分析了在九轮游戏中变化行动错误概率时的进化稳态。图4C显示,当错误率<0.3时,贝叶斯互惠者对噪声具有鲁棒性,并在结果上超过自私玩家。
行动错误的概率越高,贝叶斯互惠者需要更长的游戏长度来实现合作(图4D)。更高的错误率具有挑战性,因为它们减慢了学习速度,因此需要更长的游戏长度来识别他人的类型。图4E显示,贝叶斯互惠者实际上找到了一个合作均衡,与自私玩家相比,提高了种群的联合收益。在贝叶斯互惠者在均衡中成为最普遍策略的参数区域,平均种群收益也很高。这些结果表明,贝叶斯互惠者形成了直接互惠关系,导致在嘈杂和可变环境中合作的演变。
最后,我们还展示了贝叶斯互惠者在重复游戏生成器中也优于具有更复杂效用函数的玩家。除了自私和利他玩家外,该模型还克服了一个不平等平均玩家,该玩家试图保持其累积收益与其合作伙伴的收益平衡(80)。有关结果和实施细节,请参见SI附录,图S2。
游戏生成器中的间接互惠
在已确立直接互惠条件下合作演化的基础后,我们接下来研究了在游戏生成器中、玩家彼此间从不重复配对(博弈长度 = 1)时的合作演化,这使得玩家无法与他人建立直接互惠关系。相反,我们调整了观察概率(ω ≥ 0),使玩家即使未亲自参与决策,也能观察他人的行为。该设置使我们能够研究通过间接互惠实现的合作演化。贝叶斯互惠者在此情境下无需对其结构或参数进行任何修改。从数学上讲,从自身互动或观察他人互动中进行推断,仅相当于基于不同数据源进行条件化处理。
如同之前一样,我们首先研究了一个包含 10 名玩家的种群内的代内学习动态:其中包含 4 名贝叶斯互惠者、3 名自私型玩家和 3 名利他型玩家。玩家之间最多仅互动一次,但所有互动均可被其余所有玩家观测到(ω = 1)。图 5A 显示,贝叶斯互惠者能从稀疏的观测中迅速学习每位玩家的真实类型。在所有情况下,信念均从初始先验(0 次观测)向正确信念移动。当将此处从观察中学习的动态与从重复互动中学习的动态(图 4A)进行比较时,从观察中学习能使贝叶斯互惠者更快速地区分自身与利他型玩家——因为利他型玩家会无条件地与已知的自私型玩家合作。
我们接着研究了在包含贝叶斯互惠者、自私型玩家与利他型玩家的游戏生成器环境中,通过间接互惠实现的合作演化。所有实验均采用与之前相同的参数,但我们设定博弈长度为 1,并改变可观测性(ω)。正如预期,当观察概率较低时,自私型玩家是最普遍的策略,因为非合作行为不会带来后果,且玩家无法可靠地学习他人的类型。随着观察概率增加,贝叶斯互惠者成为种群中最普遍的玩家(图 5B)。这种从自私型向贝叶斯互惠者的转变伴随着种群总收益的跃升,表明贝叶斯互惠者推动了通过间接互惠实现的合作演化。
接下来,我们评估了在行动错误与观察错误条件下,贝叶斯互惠者所驱动的间接互惠的鲁棒性。与行动错误不同——在行动错误中,一个更具合作性的选择可能被随机替换为一个合作性更低的选择(意外)——观察错误更具挑战性,因为玩家偶尔会接触到不同的数据,从而形成发散的信念,即使每位玩家都相信自己看到的数据与其他玩家相同(15, 81)。图 5C 显示,该模型对行动错误具有高度鲁棒性。虽然更高的行动错误率要求更大比例的观测数据对所有人可见,但合作仍可在错误率超过 0.20 的情况下得以维持。对于观察错误,图 5D 表明,由贝叶斯互惠者驱动的间接互惠对少量观察错误(ω = 1 时)具有鲁棒性。当感知错误率上升至 0.075 及以上时,自私型玩家在稳态下胜过所有其他类型。图 5F 与 5G 显示,只要贝叶斯互惠者在两种错误模型的稳态下均为最普遍的玩家,合作率(以总收益衡量)便保持高位。
最后,我们证明:无需任何修改,该模型即可整合重复互动与可观测性,允许直接互惠与间接互惠共存。这是更贴近人类合作现实的情境,因为在现实中这两种力量通常同时存在。SI Appendix, Fig. S3A 展示了在同时变动观察概率与博弈长度的情况下,贝叶斯互惠者在稳态下的丰度。经验上,我们发现,在游戏生成器环境中,博弈长度与可观测性之间大致呈线性关系,表明直接互惠与间接互惠可相互支持(SI Appendix, Fig. S3B)。然而,它们也可能以相互独立的方式实现支持。
囚徒困境(PD)
尽管贝叶斯互惠者能够在游戏生成器环境中促成稳健的直接与间接互惠,但在该设置下,我们无法将智能体与经典自动机策略进行直接比较。经典自动机策略要求博弈为双行动游戏,且合作与非合作行动需有明确标签(这与动态的游戏生成器环境不同)。因此,我们在顺序型与同步型重复囚徒困境(IPD)中考察了贝叶斯互惠者的性能——这些环境中已有被广泛验证的成功策略。具体而言,我们将贝叶斯互惠者与 AllD、AllC、TFT(82)、宽容型 TFT(GTFT)(7)、WSLS(8)、Forgiver(24),以及近期发展出的勒索策略(83, 84)进行比较(有关这些自动机的细节,请参见 SI Appendix)。
在同步型 IPD 中,两名玩家同时选择合作或背叛,只有在双方均做出选择后,其行动才会被观察到,并获得相应收益。在顺序型 IPD 中,玩家依次做出选择,且行动一旦做出即被立即观察到。我们选择研究同步型与顺序型两种版本的 IPD,是因为在这两种变体中,成功策略各不相同:在同步型 IPD 中,WSLS 最为普遍;而在顺序型 IPD 中,Forgiver 最为普遍(24)。
我们提出的问题是:贝叶斯互惠者是否能在 AllD 胜过合作型自动机的参数区域中,仍使合作得以演化?为此,我们首先在模拟中不包含贝叶斯互惠者的情况下,在参数空间内搜索合作均衡点;然后,在包含贝叶斯互惠者的情况下重复同样的搜索。我们首先在同步型(图6 A 和 B)与顺序型(图6 E 和 F)IPD 中,变化执行错误率并结合博弈长度进行探索。当错误率较高或博弈长度较短时,无论是否包含贝叶斯互惠者,AllD 均为最普遍策略(以红色表示)。当错误率较低且博弈长度较长时,仅靠自动机策略本身(同步型 IPD 中为 WSLS,黄色;顺序型 IPD 中为 Forgiver,灰色)或与贝叶斯互惠者共同作用,均可达成合作均衡。但对于更高的错误率或更短的博弈长度,必须存在贝叶斯互惠者,合作均衡才能出现(蓝色)。
当我们改变同步型(图6 C 和 D)与顺序型(图6 G 和 H)IPD 中的“收益/成本比”时,也发现了类似结果。在最低的收益/成本比和最短的博弈长度下,AllD 是最普遍策略(红色)。在高收益/成本比下,仅靠自动机策略(同步型 IPD 中为 WSLS,黄色;顺序型 IPD 中为 Forgiver,灰色)或与贝叶斯互惠者共同作用,均可产生合作均衡。然而,对于接近 1 的中等收益/成本比,必须存在贝叶斯互惠者,合作均衡才能出现(蓝色)。在几乎所有测试的参数组合中,当贝叶斯互惠者与自动机策略共同参与时,稳态下最普遍的策略均为贝叶斯互惠者(图6 B、D、F 和 H)。
在每种情况下,对于贝叶斯互惠者成为最普遍玩家的参数区域,群体平均收益(即合作率)更高(图7)。SI Appendix 图 S4 展示了稳态下各玩家类型的相对丰度。尽管某些自动机策略仍以少量形式存在,但贝叶斯互惠者主导了群体处于合作状态的绝大部分时间。最后,即使允许所有确定性记忆-1 策略与贝叶斯互惠者竞争(24),上述结果依然成立。贝叶斯互惠者在更广泛的参数设置下促成了更多合作行为,从而带来更高的群体收益(SI Appendix, Fig. S5),且在群体处于合作状态时,其在稳态下是最普遍的策略(SI Appendix, Fig. S6)。
综上所述,这些结果表明:在囚徒困境(IPD)中,相较于主流的自动机策略,贝叶斯互惠者显著拓展了合作均衡所能存在的参数范围。这一点在低收益/成本比与高错误率的环境中尤为明显——而此类环境可能对合作行为的初始建立尤为关键。最后,尽管在同步型与顺序型 IPD 中,稳态下最普遍的合作型自动机策略各不相同,但完全相同的贝叶斯互惠者参数设定却在两种 IPD 变体中始终是最普遍的策略。不同于过去数十年间为 IPD 中的合作而专门手工设计的现有策略,贝叶斯互惠者是一种通用型合作者——它不仅在更具一般性的游戏生成器环境中表现出色,即便在 IPD 这一特例中亦能取得卓越性能。
我们提出了贝叶斯互惠者——一种基于人工智能洞见与人类社会认知计算研究的合作演化模型。贝叶斯互惠者以递归方式对他人的收益赋予价值,其赋值比例取决于它对“他人正以相同方式合作”的信念程度。这些信念通过一种递归式贝叶斯心理理论模型,在与他人的互动及对其行为的观察中不断更新。
我们在一个远比通常研究所用博弈更为丰富的环境中验证了该方法的价值——即游戏生成器(Game Generator)。在该环境中,每一次决策均由生成模型采样产生,因此玩家永远不会重复面对完全相同的决策情境;所有决策与判断均须基于其结果及可选替代方案做出。通过演化模拟,我们证明:贝叶斯互惠者能在游戏生成器中促成合作的演化——当互动可重复但仅限私密进行时,其通过直接互惠实现;当互动为一次性但公开可观察时,则通过间接互惠实现。最后,在囚徒困境(IPD)情境下,贝叶斯互惠者表现优于现有自动机策略,并拓展了合作均衡的参数范围。
综合而言,这些结果揭示了认知上高度复杂策略(尤其是心理理论)在实现稳健合作方面的强大能力。更深层次地,本研究或许解释了:合作所带来的适应性收益,本身可能驱动了心理理论的演化与涌现。心理理论阐明了普遍而稳健的合作何以可能演化;反过来,合作本身或许也解释了心理理论何以演化并成为人类认知中如此关键的能力。沿袭“认知生态位”与“文化生态位”对人类演化成功所作的解释(28, 85),诸如心理理论等社会推理能力,可能与人类特有的其他社会性能力共同演化——包括普遍而灵活的合作能力、向他人进行社会学习的能力,以及累积性文化能力(86)。我们的模拟量化表明:此类复杂的社交推理所能带来的合作收益,超越了认知灵活性较低的智能体所能实现的水平——因而可在演化中胜过更简单的策略。
贝叶斯互惠者具备若干有利于条件性合作的理想特性,这些特性源于其递归依赖的效用函数以及玩家从他人行为中推断其潜在效用函数的能力:
第一,该模型实现了一种复杂且符合现实的声誉系统:合作者会惩罚(通过拒绝合作)那些曾对他人背叛的玩家;会奖赏惩罚者——即与那些曾惩罚自私玩家的个体合作;并对“惩罚/不惩罚非惩罚者”的行为本身进行奖赏或惩罚(17, 87)。
第二,通过建立基于效用的模型,我们的框架对博弈本身的收益结构与形式具有敏感性。这使其可推广至游戏生成器之外的更广泛时空延展性互动场景,如电子游戏、人机交互,甚至人–机器人交互(49, 51, 88–90)。
第三,不同于既有的声誉系统(如“领先八种规范”(leading eight)(14)),贝叶斯互惠者采用分级评价机制(graded evaluations):对某玩家过往合作或背叛行为的观测越多,对该玩家属于合作者(或利他者)抑或自私者(应受惩罚)的证据就越充分。这种分级性的自然衍生结果是:当贝叶斯互惠者对其正在与另一位贝叶斯互惠者互动的信念越强(即信念越接近 1)时,它就越愿意为集体收益承担更高的相对成本(26, 91)。
与先前方法相比,贝叶斯互惠者的分级性(gradedness)是其实现对执行错误鲁棒性的关键所在。当错误率超过 0.1 时,合作型自动机策略便完全失效;而贝叶斯互惠者在错误率高达其 2 至 3 倍时仍能胜过所有其他策略。其原理在于:贝叶斯互惠者以概率方式对错误进行推理,将其视为一个标准的统计学习问题——通过多个时间步不断累积证据。某一非合作行为应在多大程度上被视作玩家的真实意图、或应被归因为偶然错误,这一权衡会通过概率性更新自动校准。相应地,当贝叶斯互惠者对另一玩家属“同类”的信念越来越强(即信念趋近于 1)时,它也就越倾向于宽恕该玩家的失误。
这类似于人类对“第一印象”重要性的认知:在信念尚未收敛的早期阶段,贝叶斯互惠者较难宽恕错误;而在后期信念趋于稳定时,则更易宽恕。此类符合常识的社会推理机制,在任何行为自动机的宽恕机制中均不存在——GTFT 以固定概率宽恕背叛;Forgiver 总是宽恕;而 WSLS 虽具备某种误差修正机制,但该机制也使其更难抵御背叛者(WSLS 与 AllD 对局时仍有 50% 的合作率)。
我们并非首次探讨基于效用偏好的合作演化。然而,此前工作要么要求效用函数公开可观察(92),要么要求配对过程存在类型聚类(assortment)才能达成合作均衡(42)。那些早期模型无需推断机制,亦未发展出互惠机制。最后,相较于其他基于类型的合作者(type-based cooperators),贝叶斯互惠者无需另行设计一套信号系统(如标签或“绿胡子”标记(93–95))来实现基于相似性的条件合作。对贝叶斯互惠者而言,效用函数本身既是他人条件合作的信号,又是玩家行为的因果决定因素。因此,贝叶斯互惠者的行为本身即是一种无法伪装或模仿的条件合作信号——若无真正采纳该效用函数,便无法伪造其行为。当然,贝叶斯互惠者亦可利用标签或其他能诊断类型的公开特征来加速合作进程——例如,通过设置更高的初始先验概率。但此类信号仅影响先验;一个“看似合作者”的虚假信号者一旦背叛数次,便会因信念更新而迅速被识别为欺骗者。
未来工作可借助本文所提出的建模框架,进一步探究人类合作的诸多关键特征。例如:显式惩罚——即玩家付出代价以降低他人收益,作为报复或教学信号(96, 97)——可通过在公式 [2] 中将他人收益项取负号来建模;其他影响合作结构的相关要素,如公平性、伙伴选择或规则约束等,亦可通过扩展游戏生成器并修改效用函数纳入本框架(98–101)。尽管本文研究中玩家的先验信念固定不变,但该先验本身可在与多个伙伴互动过程中分层学习,或在代际间文化传承(29, 61)。更高级的结构学习者不仅能学习并传递不同类型间的权重,甚至能自行发现类型本身。非参数贝叶斯推断(102)或程序学习(103)可用于隐式表征无限多的玩家类型。此类灵活的先验机制,使所表征类型的复杂性可随数据复杂度动态增长。
尽管贝叶斯互惠者仅代表人类式合作得以稳定运作与涌现的一种可能解释,但其所依据的原则、数学基础与计算架构,对构建更具合作性的 AI 系统具有普适价值。理想情况下,一个在人类世界中运作的 AI 应具备类人心理理论能力,借此理解、学习并协同人类开展合作。随着 AI 在自动驾驶、公共政策等广泛领域日益承担决策或提供决策建议,这些系统将直面本文所研究的诸多社会挑战:识别他人的合作意图(或其缺失)、通过互动与观察推断声誉、按比例实施互惠,等等(90, 104, 105)。此类问题既出现在 AI 需理解人类主体间合作动态的场景中,也存在于人类–AI 或 AI–AI 新型合作可能涌现或被设计的情境中。在这些情境下,各智能体目标未必一致,须既对他者意图进行推理,又需判断应与何者合作以实现互惠共赢。
更广泛而言,对人类意图与效用函数的推理能力,可能对实现AI 与人类价值观对齐(AI alignment)至关重要(106, 107)。本文对递归式、自适应加权效用函数及支撑普遍合作模式的贝叶斯心理理论推断的分析,或将成为这一对齐图景中的核心组成部分。
前人曾推测:具备心理理论的玩家可抵御勒索及其他操纵手段;并最终得出结论:“正是演化——在以 DNA 为基础的生命所展开的无比宏大的画卷上——最终造就了 X,那位拥有心智的玩家。” 本文通过构建贝叶斯互惠者——一种利用心理理论获得独特合作优势的合作演化模型——使该假说得以实现。我们在演化博弈论框架下对这一优势的量化表明:为何人类——这最精于合作的物种——亦同时拥有最精微的他心理解机制。
材料与方法
贝叶斯互惠者
在算法 1 中,我们给出了贝叶斯互惠者信念更新的伪代码。其核心信念更新步骤位于第 22 至 30 行;其中第 28 行使用最新观测数据更新对其他玩家类型的内部模型。例如,若 m = TFT
,则 TFT 自动机的状态将根据最新行动进行更新。为清晰起见,模拟中采用的额外优化措施在此省略,但已实现在源代码中。我们利用了“观察者子集构成一个偏序集”这一事实:这使得贝叶斯互惠者仅在某观察者子集实际出现于博弈中时才对其进行初始化;且当存在更大的观察者子集时,可从中导出并初始化当前子集的信念。这些优化显著降低了在模拟多玩家群体时的计算与内存开销。
当互动为私密时,观察者子集的数量随玩家总数线性增长——因为贝叶斯互惠者需为每一对玩家存储其相互之间的信念。当所有互动完全可观测时,其规模仍为线性——此时贝叶斯互惠者仅需维护一个对应全体玩家共同信念的单一观察者子集。当观察为部分可观测时,贝叶斯互惠者必须追踪每一个实际出现的独特观察者子集;在最坏情形下,所有可能的组合均会出现,此时需表示观察者集合的幂集,即最多需 2 N
个观察者子集。
游戏生成器的演化分析
我们通过模拟一个演化选择过程,使用有限种群莫兰过程(finite population Moran Process)来计算每种策略在均衡状态下的稳态丰度。在莫兰过程中,每一代随机选择一名玩家,该玩家以与其累积收益成比例的概率选择另一名玩家(包括其自身),然后以概率 δ 复制该玩家的类型或突变为一个随机玩家类型(4, 75)。
IPD 的演化分析
IPD 的演化分析是在低突变极限(δ → 0)下、种群规模为 N = 100 名玩家、选择强度 s = 1 的条件下进行的,遵循文献 109 和 110 中的计算方法。在低突变极限下,种群大部分时间处于仅含一种玩家类型的同质状态。新出现的玩家类型要么完全取代整个种群(固定),要么被淘汰消失。这使我们能够仅计算策略类型对之间的转移概率,而非所有组合情况。我们通过构建一个 M × M 的转移矩阵 ρ,根据每对玩家类型的期望收益,计算出 M 种玩家类型的稳态分布——其中该矩阵描述的是不同同质种群类型之间的转移。于是,ρᵢⱼ 表示从类型 i 的同质种群转移到类型 j 的同质种群的概率。
原文链接:https://www.pnas.org/doi/epdf/10.1073/pnas.2400993122
热门跟贴