贝叶斯认知模型逆向工程思维 13 14|智能体|深度思考模型|算法|认知模型|贝叶斯|逆向工程思维|马尔可夫

Bayesian Models of CognitionReverse Engineering the Mind

https://dokumen.pub/bayesian-models-of-cognition-reverse-engineering-the-mind-1nbsped-9780262049412-9780262381048-9780262381055.html

13 资源合理分析

正如第二章所述，理性分析（Anderson, 1990）从这样一个假设出发推导人类行为的预测：心智在人们的目标和环境结构方面达到了最优适应。在推导这些预测时，理性分析对心智的计算限制仅作最少的假设。然而，自赫伯特·西蒙（Herbert Simon, 1956）的奠基性工作以来，大量关于有限理性（bounded rationality）的研究表明，人类的计算局限远非微不足道，而是对人类推理和决策施加了实质性约束。这限制了理性分析的适用范围——它仅适用于那些人类认知资源足以准确近似最优行为的现象。当这些假设不成立时，理性分析就存在一种风险：将次优的推断和决策合理化为在某种假设目标和假设环境结构下所进行的“最优”行为，而实际上，这些错误恰恰源于人类认知能力的局限。

资源-理性分析（Resource-rational analysis）是对理性分析的一种扩展，它更认真地对待人类有限的认知资源（Griffiths, Lieder, & Goodman, 2015；Lieder & Griffiths, 2020）。理性分析仅依据人们的目标和环境结构来预测人类行为，而资源-理性分析则进一步考虑人们可用于实现目标的认知架构，从而揭示潜在的认知机制与表征。理性分析的预测基于经典理性理论——这些理论实际上假设理性主体拥有无限的计算能力，例如期望效用理论（Neumann & Morgenstern, 1944）和概率论。相比之下，资源-理性分析依赖于一种更现实的理性概念，即真实的人类必须在有限的时间和受限的认知资源下高效地做出决策（Russell & Subramanian, 1994；Horvitz, 1987）。

资源-理性分析源自第十一章介绍的理性过程模型（rational process models）。理性过程模型承认，心智必须在有限的时间和计算量下对最优推理和最优决策进行近似。这类模型假设，这种近似是通过某种算法实现的——随着可用时间和计算量的增加，该算法会逐渐收敛到最优推理或决策。这一假设为人类认知建模提供了一些有用的指导，但仍有无穷多种方式可以近似实现最优推理和决策。相比之下，资源-理性分析能在给定的时间和计算约束下，导出唯一最有效的近似策略。

在本章中，我们总结了资源-理性分析背后的核心思想，并提供了一些如何用它来“逆向工程”心智的例子。我们首先探讨一个理性主体应如何最有效地利用其有限的认知资源，并将这种方法与其他理性行动的概念联系起来。接着，我们利用这一形式化框架定义资源-理性分析，并给出两个例子，说明该方法如何解释那些表面上看似非理性的行为：锚定效应（anchoring effects）和极端事件的过度表征（over-representation of extreme events）。这些例子表明，心理学家先前发现的启发式策略，可以从资源-理性分析的视角得到理解。

随后，我们转向一个更深刻的问题：如何在这一框架内推导出有效的启发式策略。通过认识到认知策略的构建本身可以被表述为一个序贯决策问题（sequential decision problem），我们借鉴第七章所介绍的规划与强化学习领域的工具来求解该问题。我们以简单选择和规划任务为例，展示了这一方法的具体应用。

13.1 认知资源的理性使用

关于人类判断与决策的研究已表明，人们并不符合逻辑、概率论和期望效用理论所设定的规范——而这些规范正是理性分析的基础（例如，Tversky & Kahneman, 1974；Wason, 1968；Kahneman & Tversky, 1979）。大脑有限的计算能力限制了人们达到这些规范性标准的能力。由于这种有限理性（bounded rationality），最大化期望效用、依据逻辑法则进行推理、以及按照概率法则处理不确定性等理想目标，对人类而言都是无法企及的。

那么，在计算资源有限的前提下，心智应当如何处理信息？这一问题不仅关乎对人类心智的理解，也关系到人工智能（AI）的构建。因此，我们可以借鉴人工智能研究者在设计智能但能力受限的智能体（intelligent bounded agents）方面获得的一般性洞见，来理解一类特定的智能体——即“人类”——的设计原理。具体而言，我们可以采用有限最优性理论（theory of bounded optimality；Russell & Subramanian, 1994；Horvitz, 1987）。

有限最优性的数学框架最初是为设计运行在性能受限硬件上、且需与环境实时交互的最优智能体而建立的理论基础。一个程序被称为有限最优（bounded optimal），当且仅当在该智能体性能受限的硬件上运行该程序所产生的决策，能够导向其期望效用不低于任何其他可在该硬件上执行的程序所能达到的期望效用。因此，有限最优程序由下式给出：

其中，s₁:ₜ = (s₁, s₂, ⋯ , sₜ) 表示环境 e 在智能体一生中所处的状态序列，u 表示智能体被设计用于优化的效用函数，表明某一状态序列有多好。期望算子 E 的下标表明该状态序列依赖于环境 e 和智能体的动作 aₜ。智能体通过一个程序选择其动作，该程序的输出取决于智能体的全部生命经验（以体现学习），形式化为对状态的一系列嘈杂观测 o₁:ₜ，以及智能体过去的行为 a₁:ₜ₋₁。最后，是智能体硬件能够执行的程序集合。这一限制正是区分有限最优性与完美最优性的关键。

通过求解方程（13.1）所定义的最优程序问题，有时可以推导出最优算法。例如，Russell 与 Subramanian（1994）推导出了一个最优的邮件分拣程序。这暗示了一种引人入胜的可能性：或许也可以为人类推导出最优的认知策略。将有限最优性原则应用于人类理性的特例时，它表明“理性”意味着依据那些表现至少不差于人们可能使用的其他任何策略的认知策略来进行推理和决策。这一关于人类推理与决策的新规范性标准，正是我们在资源-理性分析中所采纳的标准（Griffiths 等，2015；Lieder & Griffiths，2020）。

资源-理性分析从无限多的受限理性心智中识别出最佳的、在生物学上可行的心智。我们可以通过将有限最优性的定义（方程 13.1）应用于人类心智来形式化这一思想。类比于有限最优程序的定义，我们可以针对具有效用函数 u 的大脑，定义资源-理性心智 m* 为：

其中，a₁:ₜ 是拥有心智 m 的人在环境 e 中会做出的选择，u 衡量他们做得有多好，M_Brain 是在大脑生物物理约束条件下可行的心智集合。该方程与方程（13.1）完全相同，只是硬件是大脑而非计算机，程序即是心智。

在生物学上可行的心智 MBrain 中固有的认知局限包括：有限的基本操作集（例如，计数和记忆提取是可用的，但精确的贝叶斯推理则不可用）、有限的处理速度（每个操作需耗费一定时间），以及可能存在的其他约束，如工作记忆容量有限。至关重要的是，在心智 m 进行权衡的同时，世界状态 sₜ 持续变化。因此，为了表现良好，受限最优心智 m* 不仅必须生成良好的决策，还必须快速生成它们。由于每个认知操作都需耗费一定时间，这意味着受限最优性通常要求计算上的节俭性（computational frugality）。

不幸的是，根据方程（13.2）所定义的资源-理性心智可能是难以计算的，因为它需要在整个生命过程中进行优化。为提供一个更易处理的定义——可用于推导关于一个人应使用何种启发式 h 来做出特定决策或推断的预测——我们假设人生可被划分为一系列片段（episodes），每个片段从一个初始状态 s₀ = (w₀, b₀) 开始，其中包含外部世界的未知状态 w₀ 和个人的内部信念状态 b₀。此外，令 result(s₀, h) 表示在初始状态 s₀ 应用启发式 h 所产生的判断、决策或信念更新。在此设定下，我们可以将应用某一特定策略的价值分解为终止状态的效用 u(s⊥) 与其执行过程中的计算成本。后者至关重要，因为一个人在任何单一决策或推断（当前片段）中所消耗的时间和认知资源，会从其用于其他决策和推断（未来片段）的预算中扣除。

为捕捉这一点，设随机变量 cost(tₕ, ρ, λ) 表示启发式 h 在执行时长 tₕ 内所占用或阻塞的认知资源 ρ 所带来的总机会成本，其中智能体每单位认知资源和每单位时间的认知机会成本为 λ。在此设定下，我们可以定义针对特定大脑在信念状态 b₀ 下应使用的资源-理性启发式 h* 为：

其中，是大脑能够执行的启发式集合。大脑能执行哪些启发式，受限于可用的基本操作以及对启发式表征的记忆约束。此外，启发式的表征本身必须是一系列基本操作。

思考的成本是一种机会成本。具体而言，它是指智能体将用于执行该启发式所耗费的时间和认知资源投入到其他追求中本可获得的总效用。形式上，这一机会成本可定义为：

为简化起见，我们可以假设启发式的认知需求 ρ 与智能体的机会成本 λ 在启发式 h 执行期间大致保持恒定。在此情况下，思考的成本可近似表示为 cost(tₕ, ρ, λ) = tₕ · ρ · λ。为进一步简化分析，ρ · λ 可由智能体在环境 e 中的回报率近似替代；这对应于以下两个假设：(1) 智能体无法同时处理多项任务；(2) 当前回报率是对智能体时间价值的准确估计。简言之，关键假设是：人类的认知机制应以一种适应性的、近似最优的方式，在准确性与机会成本之间进行权衡。

此前心理学领域已提出过与有限最优性相关的概念（参见综述：Gershman, Horvitz, & Tenenbaum, 2015）。其中最突出的是，Lewis、Howes 及其同事主张在理性分析中考虑约束的重要性（Howes, Lewis, & Vera, 2009），并将这一思想与有限最优性相联系（Lewis, Howes, & Singh, 2014）。他们提出了一个名为“计算理性”（computational rationality）的框架，该框架专注于为受限智能体识别最优程序，并强调此方法有潜力产生“生态-受限-最优”的行为解释——即同时考虑环境与计算约束。我们在资源-理性分析中所使用的理性定义与此框架在三个方面存在显著差异：第一，它明确捕捉了将策略 h 应用于当前问题时所耗费的时间和计算带来的机会成本，而这些成本是以牺牲智能体同时或未来解决其他问题的能力为代价的。第二，它根据个体的信念状态（b₀）来加权环境可能所处的状态，而非依据这些状态在整个环境中的总体频率。这解释了人们能够基于其对环境状态不完全的知识，调整自身认知策略以适应具体问题的能力（Payne, Bettman, & Johnson, 1993）。第三，效用函数被允许依赖于由推理产生的信念状态 b⊥。

这捕捉了当前片段中因计算而产生的信念更新对未来片段决策所带来的潜在收益。

资源-理性分析与经典理性观念在三个方面存在主要差异：经典理性观念规定人们应依据逻辑与概率论法则进行推理，并依据期望效用理论选择行动。首先，资源-理性分析通过推理对未来决策的效用来评估推理本身，而非通过其形式正确性——这是一种实用主义取向。其次，它考虑了时间和人类认知资源有限性的成本。第三，理性行为是相对于环境中问题分布来定义的，而非相对于一组任意的实验室任务。可以说，这三个改变对于获得一个规范性但又现实的人类理性理论而言都是必要的。不同于决策理论与贝叶斯理论的解释方式，资源-理性分析解决问题的方法并非依据人们行为的质量或其信念的真实性或一致性来界定，而是依据其背后认知策略的实际效果。不同于逻辑与概率论，它衡量这些策略的质量不是依据它们是否遵守保持真实或一致性的规则，而是依据它们对人们行为及其后果的实际影响。

为了从心理学角度厘清经典理性与资源-理性分析之间的区别，经典理性本质上是一种行为主义对理性行为的刻画。也就是说，它规定了智能体应基于其所处环境所提出的问题采取何种最优行动：它对智能体的心理状态只字未提。相比之下，资源-理性分析采用了一种认知取向来定义理性行为：它强调理性智能体应执行哪些认知操作，从而形成指导行动的信念。对于那些有兴趣分析具有有限时间和计算资源的智能体行为的研究者，尤其是希望回答有关这些智能体心理状态问题的研究者而言，资源-理性分析提供了一种更具成效的方式来定义理性行为。

13.2 资源-理性分析的过程

赫伯特·西蒙（Herbert Simon）曾著名地指出，要理解人类的认知策略，必须同时考虑其认知约束和环境结构（1956, 1982）。安德森（Anderson, 1990）的理性分析侧重于环境结构，却弱化了计算局限的作用，因此只实现了西蒙关于理解有限理性愿景的一半。这在当时是一种合理的折衷，因为当时已有用于推导无界智能体最优行为的形式化工具，却缺乏用于推导有界智能体最优认知策略的相应工具。然而，第13.1节所介绍的思想使我们能够超越无界最优性的简化假设，从而推导出更贴近现实的人类推理与决策模型。

资源-理性分析通过修改理性分析中的最优性假设来实现这一点，即明确考虑人类只能以有限速度执行某些具有成本的认知操作（Griffiths 等，2015）。资源-理性分析是一种四步方法论（见图13.1），它利用此处介绍的理论思想，从认知能力的形式化功能定义及其对心智计算架构的假设出发，推导出该能力的过程模型。这种“功能优先”的方法始于马尔（Marr, 1982）所提出的计算层面（computational level）分析。一旦所研究的认知能力所解决的问题被形式化，资源-理性分析便假设一个抽象计算架构（abstract computational architecture）——即一组基本操作及其对应成本，心智可能借此解决该问题。接下来，资源-理性分析推导出在该抽象计算架构下、针对计算层面所识别问题的最优算法（见公式(13.3)）。由此得到的过程模型用于预测人们在特定实验中的反应和反应时，这些预测随后与实证数据进行比对。基于这一评估，研究者会修正关于计算架构和待解决问题的假设，并重复这一分析循环。对假设认知架构的迭代优化，从抽象而简约的初始假设出发，逐步发展为对底层神经认知架构日益逼真的模型（见图13.2）。通过这种方式，资源-理性分析能够连接马尔（1982）提出的计算层面与算法层面。

通过明确设定一类可能的算法以及这些算法所消耗资源的成本，我们便可引入一个最优性原则，从而推导出心智“应当”使用的算法。这使得资源-理性分析成为一种在中间层次上分析信息处理系统的方法——该层次由对应于特定计算架构的理想化计算机制族所定义。这一方法使我们不仅能逆向工程出系统所解决的问题（计算层面），还能逆向工程出系统的计算架构。

为了确定潜在认知策略的类别及其对应的认知架构（步骤2），资源-理性分析借鉴计算科学领域的既有研究成果。具体而言，一旦将待解决的问题以精确的数学形式表述，我们便可从人工智能、机器学习、运筹学以及其他计算机科学与统计学领域的文献中，挖掘那些为高效解决此类问题而开发的算法类别。这类文献检索通常会得到一个或多个参数化的算法族。算法参数的不同设置往往会产生质性不同的行为模式以及不同的速度-准确性权衡。例如，粒子滤波（particle filtering）是一种通用方法，通过调整粒子数量、重采样标准及其他要素，可生成具体的算法变体（Abbott & Griffiths, 2011）。这形成了一个无限的算法集合，其中某些算法具有质性不同的特性（例如，仅用一个粒子 vs. 使用数百万个粒子）。步骤2和步骤3使我们能够在这个庞大的算法空间中找到合理的候选点，并将其与人类行为进行比较。在进化、发育和学习已使系统能够对其有限计算资源进行最优利用的前提下，资源-理性分析便可基于对计算架构的假设，推导出该系统的实际算法。

资源-理性分析是一种新兴的认知建模范式，可应用于人类认知的各个方面（Lieder & Griffiths, 2020），包括决策、推理、记忆、知觉、判断、规划、学习和问题解决。在接下来的两节中，我们将呈现两个案例研究，分别在数值估计和决策领域展示资源-理性分析的方法论。

13.2.1 一个例子：数值估计

我们的第一个案例研究展示了资源-理性分析的四个步骤（如图13.1所示），用于探究导致数值估计中锚定偏差（anchoring bias）的计算机制（Lieder, Griffiths, Huys, & Goodman, 2018b）。锚定偏差是指：当人们首先被要求判断某个数量是否高于或低于某个任意数值时，他们随后的估计会系统性地偏向于这个先前用于比较的任意数值。例如，人们可能被要求估计密西西比河的长度，但在估计之前，先将其与50英里或10,000英里进行比较。结果发现，那些被要求将密西西比河长度与50英里比较的人，随后给出的估计值明显短于那些被要求与10,000英里比较的参与者。

简而言之，该资源-理性分析的第一步是界定数值估计所解决的问题；第二步是假设心智可能采用何种计算架构来解决这一问题；第三步是在该计算架构下推导出数值估计问题的最优解；第四步则是将由此产生的预测与人们在各种实验条件下对数值量的估计进行比对和评估。

步骤2：假设一类可能的算法

心智应如何解决数值估计问题（参见方程（13.5））取决于其计算架构。因此，为了通过资源合理分析得出预测，必须指定心智的基本操作及其成本。为此，Lieder等人（2018b）基于第11章回顾的模型，假设心智的基本计算是采样。

采样随机模拟事件的结果或数量的值，使得每个值发生的相对频率等于其概率。根据Vul、Goodman、Griffiths和Tenenbaum（2014）的说法，人们可能仅使用主观概率分布中的一个样本来估计未知量 X 的值，该分布表达了他们的信念。然而，对于人们在日常生活中面临的复杂推理问题，生成甚至一个完美的样本在计算上可能是不可行的。因此，虽然采样是从基于概率推理的认知机制的计算层面理论到更详细的基于过程模型的第一步，但需要一个更详细的过程模型来解释简单的认知机制如何解决日常生活中的复杂推理问题。Lieder等人（2018b）探索了一种更精细的心理计算模型，其基本操作用于从后验分布中近似采样。在统计学、机器学习和人工智能中，采样通常通过马尔可夫链蒙特卡洛（MCMC）方法近似（Gilks、Richardson和Spiegelhalter，1996）。如第6章所述，MCMC算法允许从任意复杂分布中抽取样本，使用一系列近似样本，每个样本仅依赖于前一个样本。

Lieder等人（2018b）假设心智的计算架构通过两个基本操作支持MCMC。第一个操作获取当前估计并随机修改以生成新估计。第二个操作比较新估计相对于旧估计的后验概率，并随机接受或拒绝修改。计算成本被认为是与执行此类操作的次数成正比。这两个基本操作足以执行有效的MCMC策略进行概率推理，即Metropolis-Hastings算法（Hastings，1970）。该算法（在第6章中更详细描述）是我们锚定和调整模型的基础，如图13.3所示。

有几个充分的理由考虑这种计算架构作为数值估计领域中心智计算的模型。首先，MCMC方法在统计学、机器学习和人工智能中的成功表明，它们非常适合人们在日常生活中面临的复杂推理问题。其次，MCMC可以解释从类别学习（Sanborn等人，2010a）到多稳态感知的时间动态（Moreno-Bote等人，2011；Gershman、Vul和Tenenbaum，2012）、儿童因果推理（Bonawitz、Denison、Gopnik和Griffiths，2014a）以及认知发展变化（Bonawitz、Denison、Griffiths和Gopnik，2014b）等认知现象的重要方面。第三，MCMC在生物学上是合理的，因为它可以有效地在生物学上合理的尖峰神经元（Buesing、Bill、Nessler和Maass，2011）的递归网络中实现。最后但同样重要的是，基于MCMC的过程模型可能能够解释为什么人们的估计既高度可变（Vul等人，2014）又系统性偏差（Vershy & Kahneman，1974）。

步骤3：寻找资源-理性策略

资源-理性的锚定与调整模型包含三个关键假设。
第一，估计过程是一系列调整操作，经过足够多的步骤后，最终的估计值将成为从信念分布 p(X∣K)（即在已知知识 K下对未知量 X的信念分布）中抽取的一个代表性样本。
第二，每次调整都耗费固定的时间成本。
第三，调整的次数是经过选择的，以实现最优的速度–准确性权衡。

由此可得，人们应当执行最优次数的调整；也就是说，

图13.5 说明了这一点，展示了期望误差成本——随调整次数呈几何级数递减——与时间成本——随调整次数线性增长——如何共同决定最优的速度–准确性权衡。我们考察了当信念分布和提议分布均为标准正态分布（即均值为0、方差为1的高斯分布）时，公式（13.6）的解，并针对不同锚点进行了分析。Lieder 等人（2018b）发现，对于广泛的现实时间成本而言，最优调整次数（见图13.6a）远小于消除对锚点偏差所需的调整次数。因此，在执行最优次数的调整后所得到的估计值仍然偏向于锚点，如图13.6b所示。这是误差几何收敛特性（见图13.4）的一个结果，该特性导致额外调整带来的收益迅速递减。这是该调整理性模型的一个普遍性质，可通过数学推导得出（Lieder, Griffiths, & Goodman, 2012）。

步骤4：评估并优化模型

资源-理性的锚定与调整模型的预测既通过现有数据，也通过一项新实验进行了评估。首先，Lieder 等人（2018b）将该模型应用于模拟先前进行的锚定实验中人们的判断，发现它捕捉到了一系列经验现象，包括从锚点出发的调整不足、锚点极端程度越大则锚定偏差越大，以及不确定性和激励因素对偏差幅度的影响。其次，Lieder 等人（2018c）专门设计了两项实验，以检验模型的预测——即锚定偏差应随时间压力增加而增大，但随误差成本增加而减小。第一项实验在人们自行生成锚点的任务中证实了这一预测；第二项实验在锚点由引导性问题提供的任务中再次确认了该预测。

13.2.2 一个例子：不确定性下的决策

在我们的第二个案例研究中，Lieder、Griffiths、Huys和Goodman（2018a）应用资源合理性分析来阐明人们如何在不确定性下做出决策。为了说明方法，我们根据图13.1中显示的资源合理性分析的四个步骤总结他们的工作。

步骤1：计算层面分析

通常情况下，计算这个积分的确切值是不可行的。因此，决策者必须以某种方式近似它。

步骤2：假设一类可能的算法

在资源合理性分析的第二步中，Lieder等人（2018c）探讨了资源约束对不确定性下决策的影响。为此，他们基于人们可以从概率分布中生成样本的假设，对决策过程中可用的认知资源进行建模。采样方法可以为积分（如方程（13.7）中的期望效用）提供有效的近似。Lieder等人（2018c）然后将人们的时间和资源约束表示为样本数量的限制，其中每个样本是一个模拟结果。因此，决策者的主要认知资源是环境的概率模拟器。决策者可以使用这种资源来预测采取一种行动与另一种行动相比可能产生的许多潜在未来结果，但每次模拟都需要花费相当多的时间。由于时间宝贵且模拟器一次只能执行一个模拟，因此使用这种认知资源的成本与模拟次数（即样本数）成正比。

重要性采样是计算机科学和统计学中一种流行的采样算法（Hammersley & Handscomb 1964；Geweke, 1989；另见第6章），它与心理过程模型（Shi、Griffiths、Feldman和Sanborn, 2010；另见第11章）和神经网络（Shi & Griffiths, 2009；另见第12章）都有联系。它通过从重要性分布 q 中采样并纠正 p 和 q 之间差异来估计函数相对于概率分布 p 的期望值。具体来说，

请注意，重要性采样是一类算法：每个重要性分布 q 产生不同的估计器，两个估计器可能会推荐相反的决策。因此，在他们资源合理性分析的第三步中，Lieder等人（2018c）研究了哪种分布 q 能产生最佳决策。

步骤3：找到资源合理算法

该分布根据每个结果效用的极端程度对其概率进行加权。因此，平均而言，极端事件将比其他效用适中但概率相等的结果被模拟得更频繁。因此，我们将从该分布中抽样以模拟潜在结果的方式称为“效用加权采样”（UWS）。

步骤4：评估并优化模型在分析的第四步也是最后一步中，Lieder 等人（2018c）将其资源-理性模型与实证数据进行了对比验证。UWS 模型预测，人们会高估极端事件的发生频率。Lieder 等人（2018c）通过实验检验了这一预测——他们要求参与者判断平凡事件、压力性生活事件和致命事件的极端程度及其相对发生频率。参与者对事件极端性的判断与其高估各事件频率的程度之间存在显著的等级相关性，从而证实了这一预测（见图13.7）。UWS 还预测，人们在决策中应过度重视极端事件。此前报告的大量关于经验决策和描述性决策中的偏差，与此预测一致（Lieder 等人，2018c）。最后，最近发现人类记忆中存在偏向极端事件的偏差（Madan, Ludvig, & Spetch, 2014），进一步佐证了 UWS 是一种心理上合理的机制。

13.3 作为序贯决策问题的认知

在前面的章节中，我们看到了资源-理性模型如何预测人们在做出判断或决策前会思考什么以及思考多长时间。然而，这两个模型都隐含地假设：关于“思考什么”的决策必须在开始任何思考之前预先做出。相反，直觉表明，我们关于“思考什么”的决策是动态的，会根据我们先前所思考的内容而不断变化。例如，在选择度假目的地时，我们可能会先粗略考虑许多国家以确定几个主要候选对象，然后再更详细地考虑这些候选对象。

这一观察——即当前所思考的内容可以影响接下来将要思考的内容——表明，高效思考需要解决一个序贯决策问题。认知（或更广义地说，计算）可以被建模为序贯决策问题的思想，最早由 Russell 和 Wefald（1991）在其关于人工智能系统“理性元推理”（rational metareasoning）的研究中提出。他们致力于构建能够根据程序当前状态决定下一步执行何种计算的计算机程序。作为认知科学家，我们面临类似的问题：识别那些基于当前心智状态来决定下一步执行何种认知操作的认知过程。这表明，我们可以利用理性元推理中开发的形式化工具来识别资源-理性的认知过程。

其中一种工具是元层级马尔可夫决策过程（meta-level Markov decision process），如图13.8所示。回顾第7章可知，马尔可夫决策过程（MDP）是建模智能体与环境进行长期交互的序贯决策问题的标准方法。MDP 由一组可能的环境状态 S、一组智能体可执行的动作 A、一个智能体试图最大化的奖励函数 R，以及一个描述动作如何改变状态的转移函数 T 所定义。元层级 MDP（或 meta-MDP）将相同的框架应用于智能体与其自身内部环境——即其计算架构——进行交互的情形（Hay, Russell, Tolpin, & Shimony, 2012）。

在元-MDP 中，状态对应于智能体对世界的信念。形式上，信念状态 b ∈ ℬ 是对世界状态的一个分布。动作对应于计算操作。计算操作 c ∈ 是智能体计算架构所能提供的基本操作；它更新智能体的信念的方式，与外部（或“对象层级”）动作更新状态的方式相同。元层级转移函数 T_meta 精确描述了计算如何更新信念。通常，转移函数是通过假设计算生成关于世界状态的信息，并通过贝叶斯推理将其整合到新信念中而推导出来的。元层级奖励函数 R_meta 描述了计算的成本与收益。对于前者，R_meta 为所有计算操作分配一个严格的负奖励，但有一个特殊操作除外，记作 ⊥。该操作称为“终止操作”；当它被执行时，智能体采取能产生最大期望奖励的对象层级（外部）动作：

直观上，当你已经识别出一个你认为会带来高回报的行动时，停止评估选项就是有益的。

在接下来的几节中，我们将展示如何应用这一框架来理解人类决策策略的动态过程，首先从简单的单步选择开始，然后逐步扩展到更复杂的规划问题。

13.3.1 一个例子：偏好选择中的注意

考虑自助餐厅中用餐者面对餐台，或超市货架前购物者所面临的问题：他们面前呈现了若干备选项，必须从中选出自己最喜欢的一个，即能带来最大效用的那个。然而，每个选项的效用通常并非一目了然。相反，决策者必须花时间对各个选项进行评估，以确定自己更偏好哪一个。鉴于这种时间是有成本的，一个资源-理性的智能体应当评估哪些选项、评估多久，然后才做出选择？

在此，我们将该问题构建成一个元马尔可夫决策过程（meta-MDP），并证明该 meta-MDP 的最优策略能够捕捉人们在从零食中做选择时注视模式（即关注哪些选项）的经验规律。

我们考虑简单的选择问题：智能体面对一组物品（例如零食），必须从中选择一个。每个物品 i都关联着某个真实但未知的价值 u(i)，即智能体选择该物品所能获得的效用。借鉴心理学与神经科学领域的先前研究（Krajbich, Armel, & Rangel, 2010），我们假设智能体通过收集关于各物品真实价值的含噪声样本来指导其选择——每个样本提供少量信息，但同时带来微小的成本。

我们通过假设智能体在每个时间点只能对一个物品进行采样来建模注意。这引出了一个根本性问题：如何分配自己的注意力（即采样）才能在不过度增加成本的前提下做出良好决策？重要的是，智能体不能简单地关注真实价值最高的物品，因为他们并不知道这些真实价值。相反，他们必须基于当前的价值估计及其不确定性，决定应关注哪个物品。

如图13.9所示，该问题自然可被建模为一个元马尔可夫决策过程（meta-MDP），其中信念对应于价值的估计分布，而计算操作则对应于关注某个物品并更新其价值估计。形式上，一个信念 b ∈ ℬ 对应一组关于每个物品价值的后验分布。由于这些分布是高斯分布，信念可用两个向量 μ 和 λ 表示，分别指明每个分布的均值和精度（精度是方差的倒数）。也就是说，

方程（13.18）的第一行定义了含噪声的价值样本，接下来两行指定了在给定该样本条件下的贝叶斯信念更新，最后一行说明未被关注物品的信念保持不变。用于更新均值和精度的规则，正是第3章中为均值与方差所引入的贝叶斯推断所导出的那些规则。

最后，元层级奖励函数同时包含了采样的成本与所选物品的效用。采样的元层级奖励为：

近似求解此处定义的元马尔可夫决策过程（meta-MDP）的最优策略，可得出在做选择时分配注意力的最优策略。为提供对该策略的直观理解，我们聚焦信念状态的两个关键属性：（1）对真实价值的不确定性；（2）价值估计之间的差异。图13.10a展示了最优策略采样某一物品的概率如何随这两个维度变化。我们看到，最优策略倾向于关注那些不确定性高、且价值估计与其他物品相近的物品。在三选一（而非二选一）的情况下，我们还额外观察到相对价值估计影响的显著不对称性：当某物品的价值估计明显高于竞争对手时，策略更可能对其采样；但若其价值远低于竞争对手，则几乎不会对其进行采样。特别是，该策略强烈偏好采样价值估计最高或第二高的物品。直观而言，这是因为采样这些物品最有可能通过改变前两名竞争者之间的排序，从而改变最终的选择。

人们在做选择时是否使用类似的策略来分配注意力？为回答这一问题，我们使用 Krajbich、Armel 和 Rangel 收集的两组数据——参与者在眼动追踪设备记录下，在垃圾食品零食中进行选择（每次试验2个或3个选项）（Krajbich 等，2010；Krajbich & Rangel, 2011）。我们可以假设被关注（采样）的物品即为注视对象，且每次采样耗时100毫秒，从而从模型中模拟此类数据，并将其与实际记录的数据进行比较。Callaway、Rangel 和 Griffiths（2021）正是进行了这样的比较，结果表明，最优策略能捕捉人类注视数据中的许多模式，有时甚至非常吻合。

在此，我们仅关注模型的一个关键预测——即注意力应分配给价值估计最高的两个物品。虽然我们无法直接测量参与者的动态价值估计，但可以使用他们对每种零食给出的评分作为代理指标。具体而言，我们可以考察人们注视当前选择集中评分最低物品的倾向如何随时间变化。在二选一情况下，两个物品必然都属于“前两名”，因此我们不应观察到任何效应（表现为50%的水平线）。但在三选一情况下，我们应看到人们越来越不愿意注视评分最低的物品。这是因为，随着价值估计逐渐变得精确，评分最低的物品也越有可能拥有最差的估计值。如图13.10b所示，这正是我们所观察到的结果。

13.3.2 一个例子：规划

在第13.3.1节的例子中，我们将元马尔可夫决策过程（meta-MDP）框架应用于一个简单的单步决策问题。不幸的是，人们在现实世界中面临的许多问题并非如此简单；它们需要按顺序执行多个动作。回到我们的度假例子，在选定一个国家之后，我们还需要决定具体访问哪些城市和景点。为了最小化旅途中的交通时间，我们希望选择彼此邻近的目的地。这意味着在规划旅程的每一段时，我们都必须思考最终希望到达的位置。如果某个特别美丽的海滨小镇会使我们远离其他理想目的地，我们或许最好跳过它。这种制定一系列相互依赖选择的过程被称为“规划”（见第7章）。更广义地说，规划涉及利用对世界的模型来模拟、评估并从可能的行动方案中进行选择。

一种经典的规划形式化方法是“决策树搜索”。如图13.11所示，决策树代表了一组假设性的未来状态与行动。每一个分支点对应于一个可能需要做出的决策。原则上，通过考虑每一个可能的决策点，可以识别出最优计划。然而，遍历整棵决策树是不可行的，因为树的规模会随着前瞻步数呈指数级增长。在人工智能研究的早期，Newell 和 Simon（1956）就认识到，人类规划者（以及任何人工规划者成功的希望）的成功关键在于使用启发式方法来规避这种指数增长。近期关于人类规划的研究大体上延续了类似的思路，提出并检验人们可能用于降低规划成本的各种启发式方法（Huys 等，2015）。

尽管有用，但提出并检验特定启发式的方法面临两大主要挑战。首先，它受限于研究人员的创造力——他们必须生成关于人们可能使用的不同启发式的假说。其次，它无法提供一种直接的方式来预测在新情境下将采用哪些启发式。为应对这些挑战，我们可以将规划建模为一个元马尔可夫决策过程（meta-MDP）。通过以不同的环境结构假设求解该元-MDP，我们可以看到在每种情况下哪种规划启发式是最优的，并探讨人们是否以类似方式调整其规划策略。

如图13.11所示，规划可被建模为一个元-MDP，其中信念对应于部分构建的决策树，而计算操作则对应于扩展树的运算。决策树表示一组可能的行动序列，表现为树状结构的有向图，其中节点对应于假设的未来状态，边对应于使智能体从一个状态转移到另一个状态的行动。树的内部节点标注着智能体若访问该状态所能获得的奖励。树的叶节点称为“搜索前沿”（search frontier），即智能体尚未考虑但接下来可以考虑的状态。一个信念 b ∈ ℬ 定义了这棵树的一种可能构型。如果我们假设转移结构恒定，则该信念可表示为一个向量，其中 bᵢ 要么是状态 i 的奖励值（若该状态已被考虑），要么为空值（null value）。

一个计算操作 c ∈ 对应于“节点扩展”（node expansion）。该操作确定访问某一状态的成本或收益，将该值整合进通向该状态路径的总价值中，并将目标状态的直接后继节点添加到搜索前沿——即下一迭代中可扩展的节点集合。这些动态（包括每个节点处可能揭示的奖励分布）被编码在元层级转移函数 Tmeta 中。除了扩展节点外，智能体还可以执行 ⊥ 操作。

智能体随后停止规划，并根据其迄今为止所构建的决策树，执行具有最大期望价值的行动序列。

最后，元层级奖励函数同时包含节点扩展的成本以及最终执行计划的质量。对于前者，我们假设每次扩展都有一个固定成本。对于后者，一个计划的期望价值是截至并包括相关节点为止的所有奖励之和，再加上（对于不完整计划而言）未知未来奖励的期望值。所选计划即为最大化这一期望价值的计划。因此，终止操作的奖励等于所有计划中最大的期望价值：

求解本讨论中定义的元层级马尔可夫决策过程（meta-level MDP），可得到一个针对该元-MDP所描述环境（特别是奖励分布与对象层级转移结构）的最优规划算法。这些最优规划算法是否类似于人类的规划方式？回答这一问题颇具挑战性，因为规划通常完全在人的头脑内部进行。为绕过这一难题，Callaway 等人（2022b）设计了一项任务，使人们的规划过程可以直接被观察到（见图13.12）。具体而言，该任务要求参与者点击未来状态，以查看若访问该状态将获得何种奖励。点击的顺序因此揭示了参与者考虑各个状态的先后次序。在模型中，这对应于一系列节点扩展计算。

一个规划算法可从两个主要组成部分来描述：一是选择规则，决定下一步应扩展哪个节点；二是停止规则，决定何时停止规划并采取行动。Callaway 等人对这两者均进行了详细考察，发现最优模型与人类规划在这两个维度上均表现出定性一致性。在此，我们聚焦于选择规则。在图13.12所示环境中（每个状态的价值以相等概率取 −10、−5、5 或 10），最优选择规则与人工智能中常用的一种算法——“最佳优先搜索”（best-first search）非常相似。该算法会扩展那些位于期望价值最大计划前沿的节点；也就是说，它将注意力集中于当前看起来最优的计划。与最优规划算法一致的是，参与者平均有81.5%的时间会选择扩展期望价值最高的路径。

然而，“最佳优先搜索”并非总是最优的规划算法。事实上，资源-理性分析的一个关键假设是：人们的心智策略会根据环境结构进行适应。为了探究环境结构对人类规划策略的影响，我们构建了三个具有不同奖励分布的新实验环境（见图13.13a），每个环境都旨在使一种不同的规划算法表现更优。在“恒定方差”环境中，所有状态具有相同的奖励分布，与先前实验相同；在此环境下，“最佳优先搜索”表现良好。在“递减方差”环境中，大多数状态的奖励较小（−1 或 1），只有树的第一层节点才拥有较大奖励；在此环境下，“广度优先搜索”（breadth-first search）——即在进入下一层之前先扩展当前层的所有节点——表现良好。最后，在“递增方差”环境中，大额奖励仅存在于树的最后一层；在此环境下，“深度优先搜索”（depth-first search）——即在转向其他方向前尽可能向一个方向深入扩展树——表现良好。

为了检验人们是否会根据环境结构调整其规划策略，我们可以观察每次试验中的第二次点击——这为判断其整体策略提供了一个简单的诊断指标。具体而言，我们可以考察：在第一次点击揭示了某个价值后，人们有多频繁地用第二次点击继续沿着第一次所选的路径前进。总体上倾向于沿同一路径继续前进，与“深度优先”策略一致；相反的趋势（即倾向于转向其他分支）则与“广度优先”策略一致；而对首次揭示的价值高度敏感，则与“最佳优先”策略一致。如图13.13b所示，人们的第二次点击行为与各环境所对应的最优搜索顺序一致。然而，尽管这些人为指定的搜索算法各自在某一环境中能很好地捕捉参与者的行为，但只有最优模型能在所有环境中都良好地拟合参与者的行为。

13.4 未来方向

资源-理性分析通过提供一种方法，能够从环境所提出的问题描述以及智能体可用的计算操作集合出发，推导出最优的认知操作序列，从而为认知心理学中的许多经典问题提供了全新的视角。在本章中，我们聚焦于决策相关的问题，部分原因在于该领域中人类偏离经典理性的方式，以及人们所遵循的启发式和策略，已被广泛研究。然而，资源-理性分析最大的潜力或许在于将其应用于认知心理学核心的其他现象，有望深入揭示人类如何管理记忆（Dasgupta & Gershman, 2021；Berg & Ma, 2018；Yoo, Klyszejko, Curtis, & Ma, 2018；Gershman, 2021；Sims, Jacobs, & Knill, 2012；Suchow & Griffiths, 2016a）、注意（Gabaix, 2014；Callaway et al., 2021；Wiederholt et al., 2010）和认知控制（Lieder, Shenhav, Musslick, & Griffiths, 2018；Lieder & Griffiths, 2017；Lieder & Iwama, 2021；Shenhav et al., 2017）等有限资源，以及这些资源约束如何塑造人们的心理表征（Ho et al., 2022）、推理（Dasgupta, Schulz, & Gershman, 2017；Icard & Goodman, 2015；Dasgupta, Schulz, Tenenbaum, & Gershman, 2020）、学习（Bramley, Dayan, Griffiths, & Lagnado, 2017）、目标设定（Correa, Ho, Callaway, & Griffiths, 2020）以及目标追求（Prystawski, Mohnert, Tošić, & Lieder, 2020）。

未来研究的另一个重要方向是理解人们如何发展出有效的资源-理性策略（He & Lieder, 2022；Jain et al., 2022；Rule, Tenenbaum, & Piantadosi, 2020）。在本章所呈现的例子中，我们展示了人们所采用的策略与有限认知资源的理性使用是一致的。但人们是如何获得这些策略的呢？与理性分析类似，资源-理性分析诉诸于多种可能使人们逼近理想解的适应性机制，例如进化压力、个体一生中的学习过程，或在特定任务情境下对有效策略的推理。然而，通过将这些认知策略视为求解一个序贯决策问题的结果，资源-理性分析与关于人类强化学习的大量文献建立了联系（Niv, 2009），从而提供了多种可探索的潜在学习机制。这些学习机制还具有明确的神经关联基础，这引出了一个诱人的可能性：我们或许能够借助已知的神经机制来理解元层级的强化学习过程（Krueger, Lieder, & Griffiths, 2017；He, Jain, & Lieder, 2021）。

最后，资源-理性分析为人类为何系统性地偏离经典理性行为提供了一种特定的解释：在人们的行为与资源-理性模型一致的程度上，我们可以将这些行为理解为他们对有限认知资源进行智能利用的结果。这表明，那些专注于教导人们“正确”的思维方式和决策方法、却忽视相关计算成本的干预措施，很可能是无效的。相反，我们应当聚焦于识别那些人们能够实际执行且能提升其表现的资源-理性策略（Becker 等，2022；Callaway 等，2022a；Consul, Heindrich, Stojcheski, & Lieder，2022；Mehta 等，2022；Skirzyński, Becker, & Lieder，2021；Becker, Skirzynski, van Opheusden, & Lieder，2022），或者致力于改造人们进行决策的环境，使相关计算变得更简单（Callaway, Hardy, & Griffiths，2020，2023）。我们在这两个方向上已迈出初步步伐，但在如何支持资源-理性智能体进行决策方面，仍有大量工作亟待开展。

13.5 结论

认知的概率模型通常在计算层面（computational level）上构建，这引发了一系列批评：那些希望理解人类行为背后认知机制的心理学家，为何要在意行为是否“理性”？此外，面对大量文献表明人类系统性地偏离概率论和期望效用最大化所规定的规范，这些模型又如何解释此类偏差？

我们认为，资源-理性分析为回应这些批评提供了一条可行路径。通过以强调认知受限智能体内部计算的方式来重新定义理性行为，该方法使得我们能够构建具有与概率模型同样吸引力的最优性假设的认知过程理论。遵循这一准则的智能体将偏离经典理性；而通过本章所呈现的多个例子，我们已表明，这些偏离在诸多情形下与人类行为是一致的。

我们满怀期待——尽管受限于我们自身有限的规划视野——想看看这一方法接下来将引领我们走向何方。

14 思维理论和逆向规划

为了有效地与他人互动，我们必须持续地推断并监控他们的心理状态：他们所想、所欲、所知——以及他们对我们自身心理状态和他人心理状态的想法、愿望与认知。即使作为被动的观察者，能够从心理状态的角度理解他人的行为，也为我们提供了一种强大的社会学习工具。观察一个比我们更了解世界的人的行为，可以让我们领悟世界的运作方式；观察一个更有经验的人，可以教会我们何时坚持或练习是有益的，何时则不然；关注人们如何对待他人，能帮助我们判断谁是友善的、机会主义的或刻薄的，以及我们自己应如何行动，才能成为（并被他人视为）积极的社会伙伴。

每当我们解释、预测或评判他人的行为时，我们都是通过思考他们的心理来进行的。然而，他人的心理是不可直接观察的，因此，从可观察的行为中推断心理状态的能力，是类人社会智能的先决条件。这种能力被称为心理理论（Theory of Mind）。本章的核心假设是：人类的这些能力可以被理解为对一个关于人们如何思考和行动的心理模型所进行的近似贝叶斯推理。我们将展示，用于建模理性行动规划的同一贝叶斯框架（见第7章），也可用于建模他人的心理过程，并作为逆向规划（inverse planning）的一种形式，推断其潜在的心理状态。与第7章聚焦于在给定世界模型和效用函数下生成高价值行动不同，本章聚焦于将世界模型和效用函数归因于其他智能体，目标是在假设对方理性规划的前提下解释其行为——即假设他们选择的是在自身世界模型和效用函数下预期具有高价值的行动，而这些模型和效用函数正是我们试图推断的对象。

14.1 表征与推理欲望

我们首先考虑一种最简单的社交情境：观察一个拥有完全知识的人从一组有限选项中做出选择。（本章后续将探讨更复杂的情形，例如知识不完全、选择涉及一系列连续动作，以及其他现实世界的复杂因素。）

例如，想象你正在观察一位朋友在巧克力蛋糕和冰淇淋之间选择甜点。直观上，你朋友的选择（一个可观察的行为）揭示了他们的偏好（一种心理状态）。在此情境下，逆向规划简化为一种更简单的逆向决策（inverse decision-making）形式。

此处，p(R) 是观察者对可能奖励函数的先验分布，反映了观察者对他人通常喜好的预期；而 p(a|R) 是在假设朋友的偏好由奖励函数 R 正确表征的前提下，朋友采取动作 a 的概率。如果我们假设朋友对蛋糕的态度独立于其对冰淇淋的态度，那么我们可以将奖励函数的每个组成部分视为相互独立。也就是说，任何一组关于蛋糕和冰淇淋偏好的组合的先验概率，等于冰淇淋奖励的先验概率乘以蛋糕奖励的先验概率。形式上：

为了计算在给定奖励函数 R 的前提下，观察到某一动作 a 的概率 p(a|R)，我们需要一个关于人们如何行动的模型。来自儿童和成人的实证数据表明，在类似本例的情境中，人们预期智能体会采取能带来最高可能回报的行动（Lucas 等，2014b；Lucas & Kemp，2017）。这可以通过一个简单的决策模型来捕捉，其中：

在此模型下，当动作 a 选择了具有最高奖励的状态时，p(a|R) 为 1；当未选择最高奖励状态时，p(a|R) 为 0；当两个奖励值相同时，p(a|R) 为 0.5。图14.1a 展示了在使用该简单决策模型、并对奖励值在区间 [0, 1] 上采用均匀先验分布的前提下，朋友执行动作 a = “点冰淇淋”后，其偏好的后验分布。

Jern等人（2017）展示了这种转换如何产生类似人类的偏好推断。在他们的任务之一中，参与者观察代理在不同菜单中选择，每个菜单包含多种食物。例如，在图14.2a中，代理可以从华夫饼和饼干、鸡盘和蛋糕片或鱼盘和苹果中选择。在观察代理选择华夫饼和饼干后，参与者被要求推断代理对不同食物的偏好。如图14.2b所示，人们的推断与贝叶斯框架高度相关（其中每种食物选项的奖励是每个项目的奖励之和；见图14.2c中刺激的完整空间示意图）。此外，该模型统一了年轻人做出的各种推断（Lucas等人，2014b），表明这些推断从儿童早期就开始工作。

人们的行为通常会产生成本（在时间和体力努力方面），人们的心理状态推断考虑了这些成本如何影响代理的选择（Jara-Ettinger, Gweon, Schulz, & Tenenbaum, 2016）。我们可以通过扩展我们的框架来包含成本函数和效用函数来捕捉这一点。成本函数是从行为到正标量的映射，代表与采取不同行为相关的负面后果。正如我们将在第14.4节中看到的，这个术语可以捕捉高度抽象的成本方面，但也可以开始考虑金钱（在经济背景中）或能量（在生物学背景中）的成本。

该效用函数体现了这样一种预期：智能体倾向于选择那些在获得高回报的同时，尽可能降低行动成本的行动方案（Jara-Ettinger 等，2016；Liu、Ullman、Tenenbaum 与 Spelke，2017；Csibra、Bíró、Koós 与 Gergely，2003）。
如果行动成本已知，我们便可以通过假设智能体以概率方式最大化其效用（而不仅仅是回报），利用似然函数来推断智能体不可观测的奖励：

其中，等式左侧是在给定特定奖励函数和成本函数的条件下选择某一行动的概率，右侧则是效用函数的 softmax 形式（而该效用函数本身仅等于奖励减去成本）。

图 14.3a–b 展示了当你朋友在不同选项具有不同成本的情境下选择冰淇淋时，对奖励函数的后验分布。当蛋糕的成本更高时，看到你朋友选择冰淇淋不再意味着冰淇淋的奖励一定高于蛋糕（图 14.3a）；他可能只是因为冰淇淋的成本更低（从而效用更高）才做出该选择。相反，当冰淇淋的成本更高时，看到你朋友仍然选择它，就提供了更强的证据表明他更偏好冰淇淋而非蛋糕——毕竟，冰淇淋的奖励必须足够高，才能抵消其额外的成本。这种推断体现在图 14.3b 中，此时后验分布将概率集中在冰淇淋奖励远高于蛋糕奖励的区域。

正如我们所见，这里的“成本”未必是金钱——该概念代表任何行动者可能觉得不利的因素。

然而，在许多情况下，我们并不了解他人的成本。在这种情形下，可以通过贝叶斯推断，从他人的选择中同时推断出其成本和奖励：

其中，对成本和奖励的先验可假设为相互独立，即 p(R, C) = p(R)p(C)，而似然函数由公式 (14.6) 给出。原则上，任何一系列行动都可以由许多（实际上是无限多个）不同的成本与奖励组合来解释。我们将在第 14.3 节中重新讨论这一点，届时将展示空间信息、对成本和奖励的先验，以及获取多个观测数据如何约束这些推断，并使问题变得可处理。

14.2 表征与推断信念
许多情境涉及对在信息不完整或错误知识下行动的智能体进行推理，而解释其行为则需要推断他们知道什么或相信什么。

14.2.1 关于成本与奖励的信念

继续以甜点选择的例子（是点蛋糕还是冰淇淋）为例，假设你的朋友并不确定自己会有多喜欢每种选项。在这种情况下，我们不能将智能体表示为对每种甜点仅具有单一的奖励值。相反，我们可以使用概率分布来刻画他们对奖励的不确定性。

为了说明这一点，我们首先假设可能的奖励范围是有限的，落在 [0, 1] 区间内（尽管该框架可以轻松扩展到无限的奖励范围）。在这个奖励范围内，大量可能的信念可以通过 beta 分布来表示（参见第 3 章；此处提出的逻辑可应用于任何参数化概率分布）。由于 beta 分布的形状完全由两个参数——α 和 β——决定，因此推断你朋友的信念等价于推断这两个参数。形式上，若 bic = {αic, βic} 和 bc = {αc, βc} 分别代表你朋友关于他们将有多喜欢冰淇淋（bic）和蛋糕（bc）的信念，则他们对自身奖励信念的后验分布由贝叶斯定理给出：

为了设定先验分布 p(bic, bc)，我们可以假设你的朋友对冰淇淋的喜爱程度的信念独立于他们对蛋糕的喜爱程度的信念，因此 p(bic, bc) = p(bic)p(bc)。请注意，尽管 bic 和 bc 代表概率分布（虽然每个分布从技术上讲由两个参数 α 和 β 构成），但它们的先验分布实际上是为每一个可能的概率分布分配一个概率的映射。也就是说，这些先验捕捉了我们对朋友可能持有的不同类型的奖励信念的预期（例如，我们可能会给那些反映“甜点回报较低”信念的分布赋予较低的先验概率，而给那些反映“甜点回报较高”信念的分布赋予较高的先验概率）。每个这样的先验分布都可以通过为参数 α 和 β 分配一个先验分布来设定。由于这两个参数可以在 (0, ∞) 范围内取任意值，因此该先验可以用定义在正实数上的任何概率分布来表示，例如指数分布或伽马分布（参见第 3 章）。

然后，似然函数可以通过对你朋友预期获得的可能奖励进行积分来计算：

在包含 m 个选项的一般情形中，计算后验分布会变得计算代价过高，但可以通过基于采样的方法加以求解（见第 6 章）。该框架可以很容易地扩展到对成本信念的推断（参见 Jara-Ettinger、Floyd、Tenenbaum 与 Schulz，2017 年的一项应用模型，该模型表明，年幼儿童对他人心智状态的推断，可以通过一种考虑行动者可能对自己的成本和奖励存在不确定性的模型来解释）。

14.2.2 对世界状态与世界动态的不确定性

到目前为止，我们假设每个行动都确定性地对应一个相应的状态（例如，“点蛋糕”这一行动会导致“得到蛋糕”的状态）。但这种情况很少发生，因为人们的行为未必能产生预期的结果。如果人们在决定做什么时会考虑其行为成功的可能性，那么我们对他们的行为推断就必须考虑到这一点。为实现这一点，我们可以通过一个转移函数 T: S × A × S → [0, 1] 引入一个不确定性模型，其中 T(s, a, s′) 表示智能体相信在状态 s 下采取行动 a 将使状态变为 s′ 的概率。请注意，该转移函数既可以表达环境真实的概率结构，也可以仅仅表达智能体对环境结构的不确定性。

回到我们的甜点例子，假设你的朋友注意到服务员非常忙碌，可能会忘记他们的订单。由于蛋糕需要更长时间准备，选择它会增加服务员忘记订单的可能性。如果服务员有 20% 的概率忘记上冰淇淋、40% 的概率忘记上蛋糕，我们可以用以下转移函数 T 来表示你朋友的预期：

在每个矩阵中，元素 (i, j) 表示在采取“点冰淇淋”动作（左矩阵）或“点蛋糕”动作（右矩阵）时，从状态 i 转换到状态 j 的概率。例如，第一个矩阵的第一行表明：如果你的朋友尚未获得甜点（s = ∅）并点了冰淇淋，则有 20% 的概率他们将得不到任何甜点，0% 的概率会得到蛋糕，80% 的概率会得到冰淇淋。类似地，第二行表明：如果你的朋友已有蛋糕并要求将其换成冰淇淋，则有 0% 的概率他们会没有甜点（因为他们已拥有蛋糕），20% 的概率服务员会忘记更换而他们仍保留蛋糕，80% 的概率服务员会将蛋糕换成冰淇淋。

在此世界模型下，你的朋友可能会选择点蛋糕，因为他们不想冒没有任何甜点的风险。为了形式化这一直觉，我们可以假设其他人是在一个期望效用函数下行动的，该函数由以下给出：

公式（14.11）是公式（14.5）的一个简单扩展，它将确定性的奖励替换为期望奖励，该期望奖励通过积分所选行动可能产生的结果的不确定性来计算。利用这一新的期望效用函数，我们可以使用公式（14.6）中给出的相同似然函数，在概率性环境中推断智能体的偏好。

14.3 时空中的动作理解

到目前为止，我们关注的是智能体通过单次选择达成单一结果的简单情境。在更现实的情境中，动作理解涉及对智能体在空间中长时间移动行为的解释。为了在这种情境下推断他人的信念与偏好，我们需要一个能够刻画序列规划（sequential planning）而非一次性决策（one-shot decision-making）的决策模型。马尔可夫决策过程（Markov Decision Processes, MDPs）的框架（第7章已介绍，并在图14.4a中展示）实现了这一目标（Sutton & Barto, 2018）。为简化起见，我们聚焦于智能体任务是在二维（2D）网格世界中导航与探索的领域（类似于从鸟瞰视角观察智能体），因为这些领域中的动作足够丰富，足以让人推断出信念、欲望、情绪，甚至社会关系（Heider & Simmel, 1944）。

MDP将世界表示为来自所有可能世界状态集合 S 中的一个状态 s。例如，在图14.5所示的地图中，世界共有20个可能的世界状态，每个状态对应智能体在空间中的位置（该世界是一个5×5的网格世界，但其中5个位置被墙占据）。在每个状态中，智能体可以从一组可能的动作 A 中选择一个动作 a，例如 A = {向北移动、向南移动、向东移动、向西移动、进食}。当智能体执行一个动作时，世界状态会根据转移函数 T: S × A × S → [0, 1] 发生变化。为简化起见，假设智能体的动作以确定性方式改变世界状态（尽管这一假设可以轻松放宽；参见14.2.2节）：智能体会成功地朝预期方向移动，除非其试图穿越地图边界或墙壁（此时将停留在原状态）；而“进食”动作不会改变世界状态（但可能产生奖励，具体取决于执行该动作时所处的状态）。

状态空间、动作空间和转移函数共同规定了智能体在世界中可能采取的行为方式。接下来，为了刻画智能体如何选择行为，我们可以使用一个效用函数 U(s, a) = R(s, a) − C(s, a)。注意，此时的成本和奖励同时依赖于状态和动作，这相比公式（14.5）中更简单的效用表达形式具有更强的表达能力。例如，在空间导航情境中，奖励可能取决于在合适的状态（即智能体可以直接获取食物的位置）执行正确的动作（“进食”）；而成本则可能因所选动作不同而不同（“进食”的成本可能与四种物理移动动作不同），也可能因状态不同而不同（例如，尝试穿越墙壁可被设定为不产生成本，因为智能体实际上并未朝任何方向移动）。

在第7章中，我们学习了如何计算MDP的最优策略——一个将世界每个状态与某个动作相关联的函数，该动作能保证智能体在长期中最大化其效用。这是通过选择具有最高最优价值 V∗U(s, a) 的动作来实现的，其中 V∗U(s, a) 由以下公式给出：

其中，V∗U(s, a) 表示智能体在状态 s 下采取动作 a 所获得的即时效用 U(s, a)，加上如果智能体继续采取能最大化该价值函数的动作所获得的期望值，该期望值由未来折扣参数 λ ∈ (0, 1) 进行加权。该参数直观地捕捉了这样一个观念：智能体可确保获得即时回报，但未来的预期回报可能因意外事件或未预料到的世界变化而永远无法实现。

在经典的 MDP 中，最优策略是通过最大化价值函数构建的。因此，最优策略 π: S → A 将每个状态与最大化价值函数 V∗U(s, a) 的动作相关联。然而，从动作理解的角度出发，我们需要考虑规划错误的可能性。智能体有时会因失误或意外而做出次优选择。这可以通过对 MDP 的价值函数进行 softmax 处理来得到一个概率性策略，即：

图14.5b展示了该模型的一个推断示例。在此，一个智能体从网格世界的左下角出发，可朝任一基本方向移动。地图包含两堵墙——一堵横跨 (b, 1–3)，另一堵横跨 (d–e, 2)——以及两个奖励来源：冰淇淋位于状态 (a, 1)，蛋糕位于状态 (e, 5)。为简化起见，我们可以假设所有动作，无论在何种状态下执行，均产生成本1（形式上，C(a, s) = 1，∀(a, s) ∈ A × S），而奖励始终为0，除非在位置 (a, 1) 或 (e, 5) 执行“进食”动作。

图14.5显示了随着观察到的动作数量增加，所推断出的与吃蛋糕和冰淇淋相关的奖励。前四个动作并未揭示智能体的奖励偏好，因为无论其偏好如何，智能体的行为都相同。第五个动作——向东移动——仍与追求蛋糕或冰淇淋一致。然而，此时模型开始推断智能体更偏好冰淇淋。这是因为在状态 (c, 3)，一个奖励函数满足 R(冰淇淋) > R(蛋糕) 的智能体将总是选择“向东移动”的动作。相反，一个奖励函数满足 R(冰淇淋) < R(蛋糕) 的智能体则应同等可能地选择“向东移动”或“向南移动”。最终，当智能体执行第六个动作——向北移动——时，该动作仅在 R(冰淇淋) > R(蛋糕) 时才可能发生，从而使模型能够推断出对冰淇淋的偏好。

这种建模人类目标推断的方法已通过多项行为研究得到实验验证（Baker, Saxe, & Tenenbaum, 2009），这些研究呈现了类似图14.6中的场景。参与者被要求在智能体绕过障碍物朝多个标记位置行进的过程中，在若干时间点做出目标推断（详见图注）。图14.6(a)、(b) 和 (c) 中的条件展示了相同的智能体路径，但它们在障碍物是否存在缺口（a）或目标物体的位置（c）方面有所不同。环境中的这些细微差异会对人们的目标推断产生重大影响：在图14.6(a)中，仅经过三步后，人们便立即推断目标A比B或C更有可能。图14.6(b) 和 (c) 增加了模糊性，在 (b) 中目标A和B被赋予相似的概率，在 (c) 中目标A、B和C在智能体经过11步接近目标A之前被评定为相似的可能性。

同一框架可轻松扩展，以将推断出的效用函数分解为潜在的成本和奖励。为实现这一点，只需将成本函数视为不可观测且在不同智能体和地形类型间可变，并使用公式 (14.7) 结合 MDP 作为生成模型。考虑图14.7所示事件。如果我们假设在同一地形中所有动作必须具有相同的成本，则成本推断可简化为通过贝叶斯推断推断两个成本值和两个奖励值，其中似然项通过公式 (14.14) 计算。图14.7展示了根据观察到的动作推断出的期望成本和奖励。

14.3.1 区分决策与行动规划

当存在多种成本和奖励来源时，MDP提供了一种规范性解决方案。但这一表述隐含地将决策（智能体试图收集哪些奖励？）与行动规划（智能体需要采取哪些行动来收集它们？）混为一谈。然而，行动规划是一个层级过程，其中智能体必须首先选择一个目标（决策），然后采取行动去实现它（行动规划）。将这两个过程合并为单一计算（公式14.13）也限制了我们区分次优选择与次优行动规划的能力：高噪声（β较低）的softmax模型假设智能体做出糟糕的选择并采取糟糕的行动，而低噪声（β较高）的softmax模型则假设智能体做出最优选择并采取最优行动。然而，直观上，这些过程是可分离的，且可能受到不同程度的次优性影响（参见图14.8）。

为了区分决策与行动规划，我们可以构建一个层级模型，其中基于效用的模型识别要追求的目标（如公式(14.5)-(14.7)及第14.1节所述），而MDP则计算实现每个目标的行动方案。更正式地说，考虑一个具有 n 个奖励来源的事件，每个奖励源位于空间中的不同位置（即，一个散布着 n 个物体的物理环境）。令 G 表示可能目标的集合——定义为至少有一个动作能带来正奖励的状态（即，若存在某个动作 a 使得 R(s, a) > 0，则状态 s 是一个可能目标）——Ug 表示智能体在追求目标 g 时获得的效用（由公式 (14.5) 确定）。那么，智能体选择目标 g 的概率由以下公式给出：

其中，βD 是调节智能体选择最高效用目标能力的 softmax 参数。与每个目标相关的效用 Ug 由抵达该目标的最终状态所关联的奖励减去抵达该目标的预期成本给出。请注意，这意味着每个目标的成本将取决于智能体的初始位置和目标的位置。我们可以通过求解一个 MDP 来计算这一成本，该 MDP 的目标是最大化特定于该目标的奖励函数 Rg，其定义如下：

也就是说，这个特定于目标的奖励函数将环境中所有可能状态的奖励都设为0，除了在目标g中所标识的那个状态。该奖励函数Rg，结合模型的一般成本函数（该函数决定了不同动作的成本），使得MDP能够生成一个行动方案，可用于估算实现目标g的成本。至关重要的是，构建概率性行动策略πg也涉及对行动方案进行softmax处理（公式14.13），这可以通过使用另一个独立的softmax参数βA来完成，该参数用于捕捉智能体高效朝其目标导航的能力。

请注意，由于MDP策略是概率性的，确切的成本将取决于智能体在规划过程中是否犯错。因此，与每个目标相关的效用Ug使用的是预期成本。

其中，p(t|g) 是在给定目标 g 的情况下（结合公式 14.13 和奖励函数 14.17）的行动规划模型，而 p(g|U) 是在给定一组奖励 U 的情况下（公式 14.16）的决策模型。最后，该似然函数再乘以关于效用函数的先验分布 p(U)，从而得出对智能体潜在效用的后验分布。

Jara-Ettinger、Schulz 和 Tenenbaum（2020）表明，该模型能够捕捉人们根据他人行为联合推断其成本与奖励的能力，所使用的场景如图14.9a所示。在此场景中，一个智能体必须从起点（左中）移动到目标位置（右中），但在途中可以选择收集两个物体中的一个（一个白色立方体或一个橙色圆柱体）。智能体的路径立即揭示出：穿越蓝色地形比穿越紫色地形成本更低（否则，为何选择更长的路径？）。模型和人类都推断出，智能体不喜欢橙色容器，因为智能体本可以通过一条成本相同的路径获得它。相比之下，模型和人类对于白色盒子则更为不确定。

尽管智能体没有选择获取该白色盒子，但它位于我们推断为“穿越成本较高”的区域中央，这使得智能体可能喜欢这个盒子，但因涉及的成本而选择不追求它（图14.9b）。如图14.9c所示，该模型能够捕捉人们在广泛事件中的推断。

14.3.2 不确定性下的规划

智能体常常面临不知道世界确切状态或各个目标位置的情况。在这些情境下，MDP不再适用，因为它们假设信息是完全的。MDP的一种扩展形式，称为部分可观测马尔可夫决策过程（Partially Observable Markov Decision Processes, POMDPs），有助于在这些情境下建模智能体的行为。

为了对不确定性下的规划进行建模，我们首先需要扩展状态空间，以包含智能体可能认为合理的各种世界状态，即使这些状态实际上永远不会发生。在图14.5所示的例子中，状态空间由20个可能的状态组成，每个状态捕捉智能体在空间中的位置。若要建模一个可能不知道冰淇淋位于左上角还是右下角的智能体，我们需要将状态空间扩展至40个状态，其中每个状态同时捕捉智能体在空间中的位置以及冰淇淋和蛋糕的位置。在这一扩展的状态空间中，世界始终处于原始20个状态之一（冰淇淋总是在左上角），但智能体可能相信自己处于与现实不符的世界状态（例如，相信蛋糕位于左上角）。在这一扩展的状态空间下，我们可以将智能体的信念 B: S → [0, 1] 定义为关于世界状态的概率分布。

当智能体根据其对世界状态的信念（而非基于世界的真实状态）采取行动时，其策略现在必须将信念映射到动作（而非将状态映射到动作）。形式上，我们需要一个策略 πU: B × A → [0, 1]，使得对于任何信念 b 和任何效用函数 U，都有 ∫a∈A πU(b, a) = 1（即，对于任何信念，所有动作的概率之和必须等于1，以确保它们构成一个合适的概率分布）。

此外，我们需要明确说明智能体的信念如何随着他们与世界的互动而发生变化。为实现这一点，POMDP假设每一种状态与动作的组合都会产生关于世界的观测，智能体可以利用这些观测来推断真实的世界状态。例如，一个走进房间的智能体可能会收到一个揭示房间内部情况的观测。

形式上，令 Ω 表示智能体可能接收到的所有可能观测的集合（即，智能体在与世界互动过程中可能获得的全部可能信息）。在 POMDP 中，智能体在每个时间步接收一个观测 o ∈ Ω，该观测由观测函数 O: A × S × Ω → [0, 1] 决定，其中 O(a, s, o) 表示在状态 s 下执行动作 a 后获得观测 o 的概率。随着智能体接收到观测，他们会通过以下方式更新其信念：

等式左侧表示智能体在执行动作 a 并接收到观测 o 后，相信自己处于状态 s 的信念，前提是他们先前的信念为 b。右侧通过考虑智能体之前可能处于的所有状态（so ∈ S）来计算这一项。对于每一个可能的先前状态，b(so) 是智能体相信自己曾处于该状态的信念，T(so, a, s) 是在状态 so 下执行动作 a 会转移到状态 s 的概率。s，而 O(a, s, o) 是在执行动作 a 到达状态 s 后接收到观测 o 的概率。

为了说明 POMDP 中的动态过程，考虑一个蒙眼在 5×4 网格世界中移动的智能体（图14.10）。状态空间 S 包含20个状态，每个状态指示智能体在空间中的位置。假设该智能体什么都看不见，但每当试图穿越墙壁时能感觉到墙壁（并因此撞上它）。此时，观测空间为 Ω = {∅, wall}。地图中任何动作-状态对都会产生观测 ∅，而智能体在任何状态下执行动作并撞到墙时会产生“wall”观测。一个具有完全不确定性的智能体（对所有 s ∈ S，b(s) = 1/16）可以通过向南移动直到碰到“wall”观测（此时他们将知道自身必定位于底部四个状态之一），然后向东移动直到再次碰到“wall”观测（图14.10中的红色路径）来确定自己在空间中的位置。此时，智能体将知道自己必定位于右下角。如果动作以确定性方式改变世界状态，智能体则可通过简单追踪所采取的动作，在每个时间点了解世界的精确状态，从而朝奖励方向导航。然而，更好的策略是先向北移动直到撞到墙，然后再向西移动直到再次撞到墙（图14.10中的黑色路径）。这是因为左上角不仅揭示了世界的状态，还使智能体停留在拥有奖励的状态。POMDP 的解决方案自然会产生结合两种行动的策略：一类行动服务于减少不确定性，另一类行动服务于获取奖励，这使其成为理解行为兼具探索与利用特征的智能体的自然框架。

在部分知识条件下，我们可以从智能体主观视角出发，定义在信念 b 下执行动作 a 的效用为：

公式（14.24）等价于公式（14.12），但扩展以纳入智能体的不确定性。此处，信念 b 的最优价值通过考虑能产生最高效用的动作来计算，再加上对未来价值的期望（由时间折扣参数 λ 折现），该期望通过对智能体可能接收到的信息以及在初始信念为 b、执行动作 a 并接收到观测 o 后更新的信念 b′(a, o, b) 进行积分得到。这些更新后的信念通过公式（14.22）计算。

与 MDP 类似，我们可以通过对该价值函数（公式（14.24））进行 softmax 操作来构建一个概率性策略。将由此得到的策略作为生成模型，便可借助贝叶斯推断，联合推断出信念（即对状态的概率分布）、欲望（潜在的奖励函数）和能力（底层的成本函数）。具体而言，给定一条观测到的轨迹 t，

Baker 等人（2017）开发并测试了我们刚刚介绍的模型，要求成年参与者根据智能体如何在环境中导航，对其信念和欲望做出联合推断。图 14.11 展示了该实验中的几个场景：一位饥饿的研究生离开办公室，步行前往三家餐车之一吃午餐——韩式（K）、黎巴嫩式（L）或墨西哥式（M）。餐车有两个停车位（用黄色标记），餐车每天可能停在不同位置，也可能根本不出现，因此学生可能不知道每辆餐车停在哪里，必须仔细规划路线，以便尽快从当天可用的最佳餐车获取午餐。

使用 POMDP 作为生成模型，智能体的欲望可通过一个代表其对餐车偏好的奖励函数来捕捉；智能体的初始信念可表示为三个部分可观测世界状态上的概率分布：东北停车点被（1）黎巴嫩餐车（L）占据、（2）墨西哥餐车（M）占据，或（3）空置（N 表示无车）。最后，对餐车的观测由视线决定，并带有少量观测失败的概率。

考虑图 14.11c 的情形：学生最初可以看到西南停车点的韩式餐车，但由于建筑物遮挡视线，无法看到停在东北停车点的黎巴嫩餐车。学生走过韩式餐车，继续绕过建筑物，发现黎巴嫩餐车确实在东北停车点，然后转身走回韩式餐车用餐。基于这些信息，他们最想要的是哪一辆餐车？他们最初认为东北停车点停的是哪一辆餐车？参与者的推断是：学生最想吃墨西哥菜，最不想吃黎巴嫩菜。参与者还赋予学生一种乐观的初始信念，即墨西哥餐车在东北停车点。

该模型成功捕捉到人们的推断：墨西哥菜最受欢迎，黎巴嫩菜最不受欢迎；同时，人们也推断学生持有“墨西哥餐车在东北停车点”的错误信念。POMDP 模型自然地解释了绕...