博弈主动推理（开源）|博弈论|推理|智能体|贝叶斯

Factorised Active Inference for Strategic Multi-Agent Interactions

策略多智能体交互的因子化主动推理

https://arxiv.org/pdf/2411.07362v2

https://github.com/RuizSerra/factorised-MA-AIF

理解个体智能体在集体中如何做出战略决策，对于推动经济学、神经科学和多智能体系统等多个领域的发展至关重要。为此，可以整合两种互补的方法：主动推理框架 （Active Inference Framework, AIF）描述了智能体如何利用生成模型来调整其对环境的信念和行为；而博弈论 则形式化了具有潜在竞争目标的智能体之间的战略互动。为了弥合两者之间的鸿沟，我们提出了一种生成模型的分解方式，其中每个智能体维护关于其他智能体内部状态的显式、个体层面的信念，并在联合情境中使用这些信念进行战略规划。我们将该模型应用于有两个和三个玩家的重复一般和博弈，并研究了博弈转换的集合效应，即智能体的偏好（博弈收益）随时间变化的情况。这种非平稳性超出了由相互适应引起的非平稳性，反映了更自然的环境，在这种环境中，智能体需要适应不断变化的社会背景。最后，我们从数值模拟数据中对两个关键的AIF量进行了动态分析：变分自由能 （Variational Free Energy, VFE）和期望自由能 （Expected Free Energy, EFE）。通过集合层面的EFE，我们可以在不同条件下刻画具有多个纳什均衡的博弈（如猎鹿博弈）的吸引域，我们发现它在总体层面上并不一定被最小化。通过将AIF与博弈论相结合，我们可以更深入地理解智能集体是如何在动态环境中（无论是合作还是非合作情境下）产生、学习并优化其行为的。

关键词 ：自由能原理、博弈论、心智理论

1 引言

集体智能 （Collective intelligence），即群体比个体更能有效解决问题的涌现能力，是生物、社会和人工系统中普遍存在的现象。理解驱动这种集体行为的机制，对于推进经济学、神经科学和多智能体系统等多个领域至关重要。

博弈论 建模了具有潜在竞争目标的激励型社会互动，其中效用函数将行为映射为实数。纳什均衡 代表的是这样一个点：当所有智能体各自最大化自身效用时，没有人有动机改变自己的策略。

在理想化的博弈论模型与复杂环境中智能体实际互动之间建立桥梁，是一个持续存在的挑战。传统的博弈论在智能体偏离完全理性时往往失效 [10]。这一挑战在面对战略不确定性 时尤为突出，即智能体对其它智能体的行为和意图存在不确定性；以及在均衡选择 问题中，存在多个可能的均衡却没有明确的收敛机制。Shoham等人 [88] 指出了均衡选择中的一个关键问题：

“我们认为，有时人们急于研究收敛性质，动机是为了给博弈论的核心概念找到某种过程基础，但却忽略了对这一过程本身的严谨论证。”

主动推理框架 （AIF）是一种植根于神经科学的过程理论，能够为这些挑战提供有力的视角。AIF提供了一种原则性的方法，用于描述智能体如何根据对环境的概率性信念来调整其行为。近年来，单智能体任务下的AIF模型迅速发展并趋于成熟 [24]。然而，AIF在多智能体场景中的应用仍处于起步阶段 [25]。

我们首先回顾了AIF与贝叶斯智能体、博弈论及多智能体系统交叉领域的最新研究（第2节）。在此基础上，我们提出了一种生成模型的分解方式，使智能体能够维持关于其他智能体内部状态的显式、个体层面的信念，并在联合情境中使用这些信念进行战略规划（第3节）。

我们将该模型应用于两个和三个玩家的重复一般和博弈，并研究了博弈偏好的变化（即博弈收益及其相关均衡）带来的集合效应（第4节）。我们对两个关键的主动推理量进行了动态分析：变分自由能 （VFE，第4.1节）和期望自由能 （EFE，第4.2节），这些分析基于数值模拟数据。通过集合层面的EFE，我们可以刻画具有多个纳什均衡的博弈（如猎鹿博弈）在不同条件下的吸引域，并发现它在总体层面上并不一定达到最小值。

2 背景 2.1 重复标准式博弈（Iterated normal-form games）

重复标准式博弈 （INFG）[40] 提供了一个结构化的框架，用于研究智能体之间的战略互动，使得可以在多次重复的对局中分析决策过程。INFG 扩展了基本的标准式博弈框架，在后者中，玩家（智能体）同时选择策略（行动），他们的收益取决于所有参与者所选择策略的组合。在重复博弈的设定下，这一过程会在多轮中重复进行，允许智能体观察结果，并可能随时间调整其策略。

INFG 由以下几个要素定义：一组智能体、每个智能体可采取的一组可行动作 Ui、一个博弈收益函数 g，它将每一个联合结果（即所有参与者的行动组合）映射为一个实数（给定结果下的收益值）——从而以矩阵形式编码了智能体的激励或偏好——以及可能的游戏总轮数（时间步）。我们使用术语“自我 ”（ego）来指代我们正在从其视角描述博弈的任意一个智能体，而用“他者 ”（alter）来指代参与互动的其他任何智能体。

最简单的博弈是（对称的）两个玩家、每个玩家有两个动作选择（2×2）的博弈。在此类博弈中，每个智能体的动作集合为 u∈U={0,1}≡{c,d}，分别代表“合作 ”（cooperate）和“背叛 ”（defect）。在这四种可能的结果中，从自我视角来看，她的收益通常被命名为：

在标准式博弈的单次博弈版本中，智能体通常只为当轮的结果最大化其收益。然而，在重复博弈中，智能体必须考虑长期结果 [30]。这为战略行为打开了新的可能性，包括：

学习
（Learning）：智能体可以从以往的互动中学习，并调整策略以改善未来的收益；
互惠
（Reciprocity）：如果智能体相信他人会在未来回合中回报合作，他们可能会选择合作，以用短期损失换取长期收益；
声誉与信任
（Reputation and Trust）：互动历史可以影响未来的决策，智能体可能根据过去的行为选择信任或惩罚对方 [4]。

2.2 博弈中的贝叶斯学习

博弈中的贝叶斯学习建立在Savage的贝叶斯决策理论基础之上，最初用于描述“对抗自然”的博弈 [86]。在多智能体环境中，结果依赖于智能体之间的战略互动，其中每个智能体的行为既影响也回应其他智能体的行为。这种相互依赖性创造了一个动态、非平稳的环境，要求智能体随着策略的共同演化而不断适应 [3, 44, 60]。

模拟研究文献关注智能体如何通过重复互动来学习均衡状态。先验信念的选择显著影响智能体最终达到的均衡 [16, 26, 67]。在某些条件下，如果智能体的先验信念包含一个“真实的种子”（grain of truth），理性学习可能渐近地收敛到纳什均衡 [50, 51, 65]。

这一领域的一个基础模型是虚拟行动 （Fictitious Play），其中智能体通过平均对手过去的行动来估计其策略，并选择最优反应 [9, 82]。这个框架可以被解释为一种序贯贝叶斯推理 （sequential Bayesian inference），其中每个智能体假设对手遵循未知、独立且稳定的策略 [95]。对虚拟行动的扩展包括引入随机动作选择 [27, 29, 62]、指数遗忘 [28]、非平稳策略 [87] 和变分推理 [79]。

在人工智能领域，多智能体系统的研究文献探讨了用于协调与学习的贝叶斯方法，尽管这些方法尚未像在单智能体强化学习中那样广泛采用 [31]。一种常见的做法是将单智能体算法进行适配，例如贝叶斯自适应马尔可夫决策过程 （Bayes-Adaptive Markov Decision Process）及其扩展 [12, 19, 38, 81, 83]。然而，这些算法在多智能体环境中常常表现不佳，因为智能体之间策略的共同演化引入了非平稳性，使得任何单一智能体都难以收敛到最优策略。

为应对这些挑战，基于类型 （Type-based Reasoning）的推理方法成为建模他者行为的一种重要途径。在此方法中，智能体将他人的行为建模为从互动历史到动作概率的映射 [1, 43]，从而使其能够预测并回应各种策略。这种方法通过根据学习能力和信息结构对智能体进行分类，解决了多智能体系统的异质性问题 [60]。智能体从关于这些类型的先验出发，基于观察到的动作系统地更新其信念，随着获得更多关于对手行为的信息，不断优化其预测和策略 [2, 11, 45, 90, 92]。

递归推理 （Recursive Reasoning）在基于类型的方法基础上进一步发展，不仅包括智能体对他者的信念，还包括他对“他者对他信念”的信念，形成一种层级结构。这种方法构成了诸如交互部分可观测马尔可夫决策过程 （Interactive Partially Observable Markov Decision Process, I-POMDP）等模型的基础 [33–35]，其中智能体在多个层级上维护并更新关于他者信念和策略的知识。通过建模嵌套的信念结构，智能体能更准确地预测他人的行为，为支持更复杂和适应性强的互动的心智理论 （Theory of Mind）模型奠定了基础 [6, 18, 66, 75, 92]。

另一条研究路径将图形模型扩展到多智能体情境，利用条件独立性实现高效的表示与推理。多智能体影响图 （Multi-agent Influence Diagrams）和图形博弈 （Graphical Games）捕捉了智能体之间的依赖关系，通过聚焦局部互动实现高效计算 [53, 55, 56]。类似地，动作图博弈 （Action-Graph Games）和期望效用网络 （Expected Utility Networks）通过围绕子集智能体共享动作构建互动结构，特别适用于耦合稀疏的博弈场景 [48, 49, 57]。

最后，贝叶斯学习与有限理性的交集将决策视为在不确定性下的约束优化问题。乘积分布理论 （Product Distribution Theory）应用最大熵原理 [47] 推导出平衡效用最大化与计算成本的均衡点 [91]。Grünwald 和 Dawid 表明，最大化熵与最小化最坏情况下的期望损失是一对偶问题，其结构表现为决策者与自然之间的零和博弈 [37]。

热力学决策理论 （Thermodynamic Decision Theory）扩展了这些原则，将效用（能量）与信息处理成本（熵）整合在一个变分框架中，智能体在其中最小化自由能。这种方法自然延伸至变分贝叶斯推理 （Variational Bayesian Inference），使智能体在有限理性约束下实现高效、近似的后验更新 [73]。该框架还可推广到风险敏感控制 [20, 52, 59, 68, 69] 和对抗情境 [70, 71]，体现了其在多种决策场景中的通用性。

2.3 博弈论与主动推理（Game theory and Active Inference）

本节概述了主动推理框架 （AIF）与博弈论 是如何结合以建模社会互动中的战略决策的。

Yoshida 等人 [93] 研究了个体在空间猎鹿博弈中如何推断他人的意图，强调人们会对他人的信念进行递归思考。这种方法将博弈论中的战略思维与认知心理学中的贝叶斯推理和有限理性结合起来，揭示了人们在不确定的社会环境中如何做出决策。

Moutoussis 等人 [64] 基于主动推理原理开发了一个正式的人际推理模型，其中智能体通过观察过去的行为并更新其信念来推断其合作伙伴可能的类型（合作型或背叛型）。这展示了用于描述个体决策的计算模型如何可以扩展到复杂的社会互动中，在这种互动中，理解他人的心理状态至关重要。

Demekas 等人 [17] 在此基础上进一步研究，展示了 AIF 智能体如何在重复囚徒困境中通过持续更新关于博弈状态之间转移概率的信念来学习有效的策略。他们的生成模型追踪了学习速率如何影响策略的发展，并通过信念更新提供了清晰的解析性分析。

Hyland 等人 [46] 提出了“自由能均衡”（Free-Energy Equilibria）框架，通过对智能体联合策略的条件化预测，将期望自由能（EFE）扩展至战略情境。该框架将纳什均衡与有限理性相结合，提出合作可能是智能体通过联合自由能最小化而协调行动的结果。

Fields 和 Glazebrook [21] 进一步探讨了如何使用自由能原理将物理互动构造成博弈问题，并指出在经典和量子情境下实现纳什均衡的不可判定性。这种复杂性有助于解释为何现实世界系统往往无法收敛到稳定的均衡结果。

将战略决策建立在 AIF 的基础上，为社会互动提供了一个更现实的模型，突破了传统博弈论中完美理性和完全信息的假设，并以神经科学为基础。

3 模型描述

在重复标准式博弈 （INFG）中，个智能体通过在每个时间步选择一个动作来进行互动，其目标是最大化由博弈收益函数 g所决定的收益。智能体观察前一步中所有智能体（包括自己）所采取的动作，以决定当前步应如何行动。

3.1 生成模型

一个智能体的生成模型包括隐藏状态、观察、策略（动作序列）和模型参数上的联合分布。短期动态被编码在：

3.2 变分推理

3.3 偏好与规划

智能体通过选择最小化预期自由能量（EFE）的动作来实现期望的探索-利用权衡，EFE 包括显著性和实用价值项。接下来，我们将更详细地描述这些项，并将其适应于 INFG。

3.3.1 显著性。也被称为“认识价值”，显著性（σ）捕捉了关于隐藏状态的信息增益——或者一个动作预期会如何改变一个人的信念——信念的变化越大，认识价值越高 [76]。它可以分解为两个熵项之间的差异：

由于我们的 INFG 环境是无歧义的（参见 §3.1），第二个项（模糊性 ）为零。然而，仍然可以通过行动来最大化第一个项，从而获取信息，这会促使探索性行为 的发生。该第一项刻画了在采取动作的情况下，对下一个观测结果的不确定性。我们更倾向于那些结果最不确定的动作，因为我们能从这些动作中获得最多的信息。显著性 （Salience）在各个因子上是可加的：

3.3.2 功用价值（Pragmatic value）

通过选择使功用价值 （ρ）最大化的动作，智能体主动地追求自身的偏好，从而缩小预测观测 与期望观测 之间的差距。在标准形式博弈（normal-form games）中，偏好由博弈的收益值 g所决定，并且我们可以直接通过以下方式在两者之间进行转换：

这暗示了一种联合互动情境 （joint interaction context），因为每一种观测模态的偏好来自于一个联合分布 ，通常并不是相互独立的。这突出了博弈论的核心原则，即智能体的偏好与行为之间存在相互依赖性 。在这里，每种观测模态的偏好是从一个联合分布中推导出来的，这意味着智能体的结果是相互关联的，因此它们的策略不能被孤立地考虑。

3.4 动作选择

其中，超参数（0, 1）是固定的，0 表示基础水平的不确定性或噪声，而 1 反映了智能体的精度（或置信度）受环境反馈影响的程度。直观上，0 控制着智能体开始对其动作选择产生怀疑的阈值，而 1 则调节基于预期结果与实际观测结果之间差异的精度更新速率 。较高的 1 值意味着对偏差更加敏感，使得智能体在优化其动作策略时更加“理性”并厌恶噪声 [23]。

外部反馈体现在 ⟨G⟩ = E(̂ ) [[̂]] 中，即该智能体当前动作概率下预期的 EFE （预期自由能）。

3.5 学习

4 结果与讨论

4.1 变分自由能（VFE）与策略不确定性

4.2 预期自由能（EFE）与均衡选择

5 结论

我们提出了一种对主动推理（AIF）智能体生成模型的因子化方法 ，使该框架更贴近博弈论，尤其是在多智能体交互的建模中。在这种因子化结构下，每个智能体都拥有明确的、个体层面的信念，用于推断其他智能体的内部状态，并基于这些信念在联合的（博弈论）情境中进行战略性规划。这使得“自体”（ego）能够在联合互动情境之外灵活地追踪他者的内部状态，并根据互动需要整合这些信息。当参与互动的智能体发生变化，或某个智能体在特定时间参与多个互动时（参见网络博弈），这种能力尤其有用。

我们将所提出的模型应用于两人和三人 INFG（交互式正常形式博弈），并引入了智能体必须适应的博弈之间的转换 。我们展示了如何利用变分自由能（VFE）和预期自由能（EFE）来分析智能体群体在策略性互动中的动态行为 [7]——特别是突出博弈的均衡状态及其吸引域的相对大小——并提供了一个示例，说明如何通过信任机制而非惩罚手段，引导智能体群体走向更好的结果。这些度量工具有助于将智能体群体概念化为具有自组织动力学 与操作闭合性 的集体智能体 [46, 54, 78]。

将主动推理（AIF）与博弈论应用于多智能体系统，为研究智能体交互中的适应性行为提供了丰富的理论与实验空间。认知科学与人工智能的这一交叉领域，不仅加深了我们对个体决策机制的理解，也为探索塑造复杂环境中社会行为的集体动态 铺平了道路。

未来的研究将探讨如何通过对观测模型的学习来捕捉对手的理性程度；构建更复杂的转移模型，使其以所有智能体的动作作为条件；或对其他隐藏变量（如对手偏好）进行建模 [14, 84]；以及不同 EFE 公式 [13, 39, 63] 对博弈结果的影响。

https://arxiv.org/pdf/2411.07362v1