贝叶斯优化LLM提升概率推理|bayesian|定理|推理|显式|贝叶斯

Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models

贝叶斯教学助力大型语言模型中的概率推理

https://arxiv.org/pdf/2503.17523

基于大型语言模型（LLM）的人工智能系统正越来越多地被用作与用户及世界交互的代理。为了成功实现这一点，LLM 需要构建世界的内部表征，并形成关于这些表征的概率信念。例如，为了向用户提供个性化推荐，LLM 需要在多次交互过程中逐步推断用户的偏好。为了评估当代 LLM 是否具备这种能力，我们采用了概率论中的贝叶斯推理框架，该框架阐述了智能体在接收新信息时更新信念的最优方式。我们首先发现，LLM 并未按照贝叶斯框架的预期更新其信念，因此其预测并未随着信息的增加而如预期般改善，甚至比我们发现的人类表现更差。为解决这一问题，我们通过训练 LLM 模仿最优贝叶斯模型的预测，来教其以贝叶斯方式进行推理。我们发现，这种方法不仅显著提升了 LLM 在其训练的特定推荐任务上的表现，还使其能够泛化到其他任务。这表明该方法赋予了 LLM 更广泛的贝叶斯推理技能。更广泛地说，我们的研究结果表明，LLM 能够有效学习推理策略，并将这些技能泛化到新领域，这在一定程度上解释了 LLM 在实际应用中的成功。

1. 引言

人类基于对世界的信念与世界互动。为有效支持决策，我们的信念需要尽可能与世界结构相符，换言之，信念需要由恰当的 “世界模型” 支撑（Ha 和 Schmidhuber，2018；Johnson-Laird，1980；LeCun，2022；Wong 等人，2023）。我们通常无法完全知晓外部世界，当对环境存在不确定性时，信念需以概率形式呈现，反映这种不确定性。最后，为使信念随世界变化或新信息出现而保持有效性，我们需要更新信念以反映新信息。贝叶斯推理框架描述了新信息触发信念更新的最优方式，从而最大化信念作为世界行动基础的有效性（Chater 等人，2006）。该框架基于贝叶斯定理，即智能体的后验概率与先验概率和新信息似然的乘积成正比。贝叶斯框架为认知科学诸多研究提供了理论基础，这些研究既发现了人类符合该框架预测的领域，也指出了偏差（Baker 等人，2011；Chater 和 Manning，2006；Griffiths 等人，2007，2024；Jern 等人，2017；Tenenbaum 等人，2006，2011；Xu 和 Tenenbaum，2007）。

近年来，基于大型语言模型（LLM）的人工智能系统能力显著提升（Achiam 等人，2023；Anthropic，2024；Guo 等人，2025；Team 等人，2024a,b；Touvron 等人，2023）。这些系统远超最初用于估计不同词序列概率的初衷，现被用于与用户及外部世界交互的场景。与人类类似，LLM 要实现有效交互，其信念需反映与用户的交互经验，并随新信息持续更新。贝叶斯推理是描述实现这一目标的最优规范标准。LLM 的行为是否表现为具有按最优贝叶斯推理预期更新的概率信念？若 LLM 行为偏离最优贝叶斯策略，如何最小化这些偏差？

我们通过一个简单可控的场景开始研究这些问题：如图 1 所示的航班推荐任务（Lin 等人，2022）。该任务涉及用户与 LLM 的多轮交互，LLM 充当机票预订助手。每轮中，助手获得少量航班选项，并需基于用户偏好推荐其中一个。用户偏好不直接传达给 LLM，它仅观察用户在航班选项中的选择。因此，为做出最优推荐，LLM 必须构建影响用户偏好因素的隐式模型，并在了解用户多组航班选择时对这些因素进行概率推理。

我们将 LLM 的行为与遵循最优贝叶斯策略的模型（称为贝叶斯助手）进行比较。该模型维持反映其对用户偏好信念的概率分布，并使用贝叶斯规则随用户选择的新信息更新此分布。与许多难以指定和计算实现最优贝叶斯策略的现实场景不同，在我们使用的可控场景中，该策略可直接计算。

我们用此框架评估了多个前沿 LLM，发现它们的表现显著差于最优贝叶斯助手（图 2a，原始 LLM 面板）。最重要的是，与贝叶斯助手随用户选择信息增加逐步改进推荐不同，LLM 的表现在单次交互后趋于稳定，表明其适应新信息的能力有限。

随后我们介绍贝叶斯教学法，这是一种旨在教导大型语言模型（LLM）以贝叶斯方式进行推理的策略。我们为 LLM 提供用户与贝叶斯助手之间的互动示例，并让 LLM 模仿这些互动。该方法显著提升了 LLM 在航班推荐任务上的表现，促使 LLM 在互动过程中逐步适应用户。至关重要的是，教导 LLM 在特定场景中模仿贝叶斯助手，能使其将能力泛化到其他同样需要在不确定性下做出决策的任务中；这些任务不仅包括航班推荐任务的不同变体，还涵盖相关的酒店推荐任务，以及涉及真实商品的网络购物任务（如图 1 所示）—— 这是一个更为复杂的任务，要为其指定并实现完整的贝叶斯模型颇具难度。值得注意的是，尽管贝叶斯助手在不确定性下进行推理时（尤其是在互动的早期阶段）常常会做出错误预测，但我们发现，相较于直接向 LLM 提供用户选择的 “.oracle 教师”（我们对这种教师的称呼），它是更有效的教学者；换句话说，贝叶斯模型经过 “思考” 得出的猜测，比实际结果更能成为强大的学习信号。总体而言，我们的结论是，通过观察贝叶斯助手执行特定任务，LLM 能够获得可泛化的概率推理技能。

总结我们的贡献：首先，我们指出了现成 LLM 在需要形成和更新概率信念的任务中存在的显著局限性。接着，我们证明了通过让 LLM 模仿最优贝叶斯模型，能够有效地向其传授概率推理技能，并且这些概率推理技能可以泛化到新环境中。这些发现表明，LLM 可用于信息逐步提供的交互场景，包括难以实现精确贝叶斯模型的复杂应用领域。更广泛地说，我们的研究结果凸显了像 LLM 这样的深度学习模型的独特优势：它们能够学习模仿符号模型，并将符号模型的策略泛化到过于复杂而无法用经典符号模型进行规范的领域。

2. 通过航班推荐任务评估信念更新

我们首先介绍航班推荐任务，该任务用于评估 LLM 形成并适当更新概率信念的能力。随后将描述定义此任务最优执行方式的贝叶斯模型。

2.1 任务设定

我们的航班推荐任务源自 Lin 等人（2022）的研究。助手（LLM）需与用户进行 5 轮互动。每轮会向用户和助手展示 3 个航班选项，每个航班包含出发时间、飞行时长、经停次数和费用（见图 1）。每个用户由一组偏好特征刻画：对于每个航班属性，用户可能对该属性的高 / 低取值有强 / 弱偏好（例如偏好长 / 短航班），或无偏好。我们将这组偏好称为用户的奖励函数，共有 624 种可能的用户类型（见附录 A）。这些决定用户选择的偏好不会直接透露给助手，助手的目标是推荐与用户选择匹配的航班。每轮结束时，用户会告知助手推荐是否正确，并提供正确答案。

每轮结束后，我们会使用 100 组未提供过反馈的新航班组合评估助手的推荐准确性（评估工作流程见图 3），且不对这些新组合提供任何反馈。

2.2 贝叶斯助手

贝叶斯助手实现了一种策略，该策略能最优地整合多轮互动中积累的用户偏好证据。当证据不完整时，助手会维持对用户偏好的不确定性 —— 不局限于单一最可能的奖励函数（避免未来轮次被证伪），而是在可能的奖励函数上维持概率分布。每轮后，贝叶斯助手会使用贝叶斯规则更新奖励函数的分布：本轮后的后验概率基于轮次前的先验概率，以及该奖励函数是否与用户选择兼容（似然）。此最优模型代表了任何系统可达到的最佳性能。由于可能的奖励函数数量较少，我们能执行精确的贝叶斯推断（见附录 A）。

该方法需要预先定义贝叶斯助手的初始先验分布，即其对用户偏好的概率假设。我们通过让 LLM 在无任何先验互动的情况下预测用户偏好来实现（见第 4 节），附录 C.4 中考虑了其他先验设定。此分布旨在捕捉人们典型的航班偏好 —— 例如，在其他条件相同的情况下，多数人更可能偏好短航班而非长航班。

2.3 评估的大型语言模型

我们评估的大型语言模型（LLM）与大多数当代 LLM 一样，首先经过训练以预测大量文本中的后续词汇，随后通过微调来遵循自然语言形式的用户指令（Sanh 等人，2022；Wei 等人，2022a）。我们评估了 Gemini 1.5 Pro（Team 等人，2024a）以及参数规模为 90 亿和 270 亿的 Gemma 2 系列模型（Team 等人，2024b）。选择 Gemini 1.5 Pro 是因为其在撰写本文时属于前沿模型（Chiang 等人，2024），而选择 Gemma 模型则因其性能具有竞争力，且与大多数商用模型不同，其权重公开可用，这使得通过下一节所述的监督微调方法进行额外训练成为可能。

我们为这些 LLM 提供了英文指令，说明如何扮演航班预订助手的角色（示例见图 1，详细互动流程见附录表 1）。实验采用 “上下文学习” 模式进行，即每次互动后不更新 LLM 的参数。

2.4 实验结果

总体而言，LLM 的表现显著低于贝叶斯助手（图 2a，“原始 LLM” 板块）。更强的模型（Gemini 1.5 Pro）比 Gemma 2 模型表现更好，但两类模型在第一轮互动后均未显示出显著提升（图 2a 展示了第一轮和第五轮后的结果；每轮详细结果见附录图 19，不同奖励函数下的性能差异见附录图 10）。

一系列后续实验也未能显著改善 LLM 的表现（详情见附录 B.1），包括：

“思维链提示” 实验（Kojima 等人，2022；Nye 等人，2021；Wei 等人，2022c），即通过指令鼓励 LLM 更明确地推理（附录图 6a）；
使用纯数值形式表示航班选项（可能更易被 LLM 解析）的实验（附录图 6b）；
将互动轮次从 5 轮增加到 30 轮的设置（附录图 6c）；
采用 270 亿参数的 Gemma 2 模型变体的实验（附录图 6d）。

2.5 人类助手

当人类被要求扮演助手角色时，是否会采用最优贝叶斯策略？为解决这一问题，我们招募了人类标注员，要求他们为 123 个模拟用户的随机子集提供推荐。我们重复了三次实验，每个模拟用户由三位不同的标注员独立完成（人类实验详情见附录 A）。

人类参与者的表现显著优于 Gemma 2 模型（无论是 90 亿还是 270 亿参数版本；见图 2a 和附录图 6d），略优于 Gemini 1.5 Pro。特别是，随着在第一轮至最后一轮中获取更多用户信息，他们展现出更明显的进步（各轮次表现见附录图 19）。尽管如此，与 LLM 类似，人类的准确率也大幅低于最优贝叶斯策略的预期水平。

3. 教大型语言模型进行概率推理

在证明大型语言模型（LLM）的表现显著低于最优模型后，我们现在探索向 LLM 传授更强概率推理能力的策略。我们将描述用于教导 LLM 模仿最优贝叶斯模型的监督微调技术，并表明该方法能显著提升 LLM 正确更新其信念的能力。

3.1 监督微调

为了教导大型语言模型（LLM）进行概率推理，我们采用了监督微调这一在 LLM 训练中广泛使用的标准技术。从技术角度看，该方法与大多数 LLM 初始训练阶段的方法类似：模型接收一段文本的起始部分，并通过训练预测后续词汇。每个样本输入后，LLM 的权重会被调整，以提升相同样本再次出现时正确预测的概率。主要区别在于：初始训练阶段的文本通常取自互联网等资源，而监督微调阶段的文本则通过目标化方式构建（自动生成或人工撰写），以教导 LLM 特定技能（如 Sanh 等人，2022；Wei 等人，2022a）—— 例如，为提升算术能力，模型可能会被输入文本 “1 + 1 = … 的结果是 2”。在本文描述的主要实验中，我们对 Gemma 2 9B 模型应用监督微调并更新其全部权重。附录 B.2 表明，不同的训练目标（直接偏好优化，Rafailov 等人，2023）以及计算成本更低的微调方法 LoRA（Hu 等人，2022，仅更新少量权重）均能产生相似结果。

我们探索了两种创建监督微调数据的策略：

第一种策略
：向 LLM 提供模拟用户与 “先知” 助手的互动数据。该助手完全知晓用户偏好，因此总能推荐与用户选择一致的选项。我们为每个用户构建了 10 组五轮互动，互动格式与前文一致（附录表 1）。
第二种策略
：向 LLM 提供贝叶斯助手与用户的互动数据。在此场景中，助手常选择与用户偏好不符的航班，尤其是在早期轮次（此时用户偏好的不确定性较高）。然而，我们假设模仿贝叶斯助手的 “最佳猜测”，比第一种基于正确选择的训练策略，更能教导 LLM 维持不确定性并有效更新信念。这种方法可视为一种知识蒸馏（如 Chen 等人，2024b；Deng 等人，2023；Hinton 等人，2015 等）。由于监督微调需要访问模型权重，我们仅对开源的 Gemma 2 9B 模型应用该技术，而未用于 Gemini 1.5 Pro（实验细节见附录 A）。

3.2 微调显著提升 LLM 性能

我们发现两种监督微调策略均显著提升了 Gemma 模型在航班推荐任务中的表现（图 2a，“微调后 Gemma” 板块）。关键在于，微调后的 LLM 能随信息增加逐步提升性能 —— 与原始 Gemma 模型首轮后表现停滞不同（图 2a 中首轮与末轮的显著提升，各轮详细结果见附录图 19）。尽管微调后 LLM 与最优贝叶斯模型仍存在性能差距，但该差距已远小于原始 Gemma 模型（图 2a）。总体而言，微调前表现逊于 Gemini 和人类参与者的 Gemma 2 9B，微调后性能显著超越二者。

贝叶斯助手比先知更有效：对比两种监督微调数据生成策略，我们发现贝叶斯教学比先知教学实现了更高准确率（图 2a），且实验三次重复结果的波动性更小（误差条更窄）。此外，贝叶斯教学成功使 LLM 更接近贝叶斯推理：Gemma Bayesian 的预测与贝叶斯助手的一致性达 80%，显著高于原始 Gemma 和 Gemma Oracle（图 2b）。后续还将证明，基于贝叶斯预测的训练能让 LLM 在跨任务中更好地泛化。附录 C.4 排除了两种潜在混淆因素（训练数据中引入错误预测、贝叶斯助手先验与 LLM 对齐），证实贝叶斯教学的有效性确实源于其提供的贝叶斯信号。

对选项集信息性的敏感性：特定选项集能从用户选择中揭示的信息量因集合而异。例如，仅在单一特征上有差异的两个航班选项，比多维度差异的选项更具信息性 —— 单一特征差异可直接反映用户对该特征的偏好。我们预期强概率推理者应能感知这一因素：当用户在某组选项中的选择提供了更多偏好信息时，系统应更显著地更新信念。附录 D 显示，原始 Gemma 模型对选项集信息性无敏感性，而两种微调模型均具备该能力，且 Gemma Bayesian 的敏感性显著高于 Gemma Oracle。这进一步证明贝叶斯教学成功教会了 LLM 以贝叶斯方式推理。

4. 微调后的 LLM 能准确表达其信念

我们已证明，微调后的大型语言模型（LLM）在与用户的互动中准确率显著提升，这表明它们至少在隐性层面上在推断用户偏好。接下来，我们测试 LLM 是否能基于作为上下文提供的用户历史预订记录，将其对用户偏好的信念转化为语言表达。

4.1 引出对用户偏好的信念

我们通过两种方式引出信念：

针对开源的 Gemma 2 模型：由于我们可以访问其对后续词汇的概率分布，因此采用续接评分法。在与 LLM 进行一轮或多轮互动后，用户会询问 LLM 对其偏好的看法，例如 “在 1 到 5 的量表上，你认为我对价格的偏好是多少？”，其中 1 表示强烈偏好更便宜的航班，3 表示没有强烈偏好，5 表示强烈偏好昂贵的航班。我们将数字 1、2、3、4 和 5 作为当前文本可能的续接进行评分，并对其重新归一化，以形成这五个数字上的概率分布（详细示例见附录表 2）。
针对 Gemini 模型：由于研究人员无法访问该 LLM 对后续词汇的底层概率分布，我们要求 LLM 明确提供量表上每个五分点的概率分布（见附录表 5；关于 Gemma 2 中评分法和显式概率判断法的比较，发现评分法能产生更准确的估计，见附录 B.3 节）。
针对人类参与者：我们使用与 Gemini 类似的调查方法。

这两种方法都做了独立性假设，即一个特征的偏好不与另一个特征的偏好相互作用。由于这一假设相当严格，我们无法保证它能完整描绘 LLM 对所有可能奖励函数的信念。

4.2 评估 LLM 的语言化信念

为了确定 LLM 是否对用户偏好持有准确信念，我们从这些信念中推导出航班推荐，并评估信念的准确性。除了在每轮结束时查询 LLM 对用户偏好的信念外，其余评估设置与主实验一致。重要的是，该过程从主对话中分支进行，确保互动不受影响（图 3）。基于从 LLM 获得的概率分布，我们应用贝叶斯助手用于根据显式信念生成推荐的流程，并检查以此方式产生的推荐是否与 LLM 直接给出的推荐一致。若这两种方法的一致性高，则表明 LLM 语言化的信念与其在原始设置中用于预测的隐性内部信念一致。

4.3 结果

对于原始 LLM，我们发现本节描述的方法（先通过显式查询估计 LLM 对用户偏好的信念，再使用 LLM 外部的决策组件生成推荐）比直接使用 LLM 的预测表现更好（图 4a，“原始 LLM” 板块），且 Gemma 模型的性能差距比 Gemini 更显著。此外，原始 LLM 的直接预测常与从其信念中推导出的预测不一致，两组预测的一致性仅为 50%（图 4b），而人类参与者的一致性接近 70%。

基于微调后 LLM 语言化信念的预测，其准确性显著高于原始 Gemma 的信念预测（图 4a，“微调后 Gemma” 板块）。这表明两种训练方法均能教会 LLM 推断用户偏好并随信息增加更新信念，尽管训练中未直接提供用户偏好。Gemma Bayesian 对用户信念的估计比 Gemma Oracle 更准确，使基于信念的预测准确率达 71%（Gemma Oracle 为 64%）。同样，与 Gemma Oracle 相比，Gemma Bayesian 在 LLM 直接预测与信念推导预测之间的一致性更高（79% vs. 71%）。这两种模型的直接预测与信念推导预测在整体准确性上的差异极小（Gemma Oracle）或几乎为零（Gemma Bayesian）。

5. LLM 学习可泛化的概率推理技能

此前的实验表明，通过向 LLM 提供用户互动示例，能够提升其概率推理能力 —— 包括适应新用户、提供准确推荐，以及以可语言化的方式推断用户偏好。在此，我们探究这些技能是否仅局限于模型训练的特定任务，还是 LLM 已学会更广泛的概率推理能力。我们在一系列与原始航班推荐任务差异程度不同的任务上评估微调后的 LLM（任务概览见图 1 右侧），这些任务的共同点是：成功完成任务需要 LLM 从用户选择中推断偏好，并随信息增加对偏好进行概率推理。

5.1 LLM 对复杂航班属性的泛化能力

我们首先在航班推荐任务的变体上测试 LLM，这些变体与原始任务的区别在于航班特征数量：微调阶段的航班包含 4 个特征，而评估时航班特征数量为 2 至 8 个。当特征数量超过 4 个时，LLM 必须泛化到微调阶段未涉及的新特征（例如机票包含的托运行李数量）。

由于可能的奖励函数空间随特征数量呈指数增长，任务难度也随之提升。甚至贝叶斯助手的性能（作为所有模型的理论上限）也会随特征数量增加而下降（附录图 8b）。因此，我们计算每个微调 LLM 相对于原始 Gemma 的性能提升，并与贝叶斯助手的上限提升进行对比（绝对准确率见附录图 8b）。结果显示，两种微调 LLM 均大幅优于原始模型（图 5a）：

Gemma Bayesian 始终保持最佳性能，准确率显著高于 Gemma Oracle，且标准差更小。
当特征数量从 4 增加到 8 时，两种微调方法的性能相对于上限的下降幅度极微（甚至无下降）。

总体而言，在 4 特征任务上的微调可泛化至更少或更多特征的任务，包括微调中未接触过的新特征。

5.2 LLM 对真实人类用户的泛化能力

此前使用的合成数据基于简化假设：模拟用户的选择完全反映其偏好奖励函数。但在现实中，人类行为可能因注意力不集中或偏差而与偏好不一致。为评估更真实的场景，我们招募人类参与者作为用户：

每位参与者先对各航班特征的偏好进行评分，然后从每组 3 个航班中选择偏好选项，共完成 5 组选项。
我们构建 10 组此类选项列表，每组由 3 名标注员完成，共收集 30 组五轮互动数据（附录 A）。

图 5b 显示了 LLM 在人类标注数据上的表现：

微调后性能显著提升，尤其在后续轮次。
Gemma Bayesian 比 Gemma Oracle 更接近贝叶斯模型的表现。
实验最后一轮出现性能下降（包括贝叶斯模型），这归因于人类选择与初始声明偏好的不一致性增加（首轮一致性 90%，末轮 70%，见附录 F.1），可能与实验开始时的问卷到最后一轮互动的时间间隔有关。

5.3 LLM 对新推荐领域的泛化能力

此前的泛化实验聚焦于航班推荐任务的变体，此处我们评估 LLM 能否将微调中习得的概率技能迁移至其他领域，包括：

酒店推荐任务：合成任务，结构与微调中的航班推荐相似。
网络购物任务：使用真实商品，与微调任务差异更大，需更强泛化能力。

由于网络购物等自然场景的用户偏好空间庞大且难以形式化定义，构建最优贝叶斯助手较为困难。因此，从航班推荐等合成任务成功迁移至自然场景，是贝叶斯教学的重要应用体现。

酒店推荐任务

我们以与航班推荐任务相似的方式构建酒店推荐任务。每家酒店由四个特征定义：距市中心的距离、价格、评分和设施。与航班推荐任务一致，我们通过从特征值确定性生成的简短文本向 LLM 描述每家酒店（示例见附录表 8）。

网络购物任务

网络购物任务使用来自模拟环境的真实商品（Yao 等人，2022）。在此任务中，每个用户由一组随机采样的目标定义，这些目标描述了他们感兴趣的商品特征 —— 例如，用户可能在寻找可机洗的衬衫或 XL 码衬衫。与航班领域类似，助手与用户进行多轮互动：

每轮从商品类别（如衬衫）中随机采样一组商品选项，助手需推荐最佳选项。
每个商品由简短标题和详细描述表示（示例见附录表 9）。
每轮结束时用户提供反馈，指示推荐是否正确。用户偏好的选项由 Yao 等人（2022）定义的最高奖励函数确定。

由于该问题的奖励空间庞大，我们未构建贝叶斯助手。作为更保守的泛化性能上限，我们直接使用与评估数据相同生成方式的购物任务数据对 LLM 进行微调（即与航班推荐任务微调数据量相当）。

实验结果

我们发现，在航班推荐任务上微调的 LLM 可泛化至上述两个领域，且性能显著优于原始 Gemma 模型（图 5c）：

泛化任务准确率仅略低于航班推荐任务
（如 Gemma Bayesian 在网络购物中准确率 64%，航班任务为 71%）。
Gemma Bayesian 持续优于 Gemma Oracle
，但网络购物任务中的差距小于酒店推荐任务。
尽管如此，在航班推荐任务上微调的 LLM 与直接在网络购物互动数据上微调的 LLM 之间仍存在差距（图 5c 右侧绿色虚线）。

总体而言，微调（尤其是贝叶斯教学）赋予了 LLM 可显著迁移至微调场景之外的概率推理技能。

6. 讨论与结论

在本研究中，我们评估了大型语言模型（LLM）在交互式场景中应用概率推理的能力，并提出了贝叶斯教学法 —— 让 LLM 模仿实现最优概率推理的贝叶斯模型。过往研究主要通过要求 LLM 显式计算统计量（Nafar 等人，2024；Paruchuri 等人，2024）或给出概率判断（Belem 等人，2024；Zhu 和 Griffiths，2024）来衡量其概率推理能力。相比之下，我们模拟的是真实用户与助手之间的交互式对话 —— 助手不直接提问澄清，而概率推理虽与显式推理任务同等重要，却隐含在任务中。不同于近期一些研究中助手通过直接提问获取用户偏好（Aliannejadi 等人，2021；Andukuri 等人，2024 等），我们的设定要求助手从多轮互动中逐步推断用户偏好，并提供与偏好愈发一致的推荐。

我们测试了两种典型 LLM，发现它们无法充分完成航班推荐任务，表明其在形成和更新概率信念上存在困难（附录 E 通过与航班任务结构相同的简化回归任务，分析了任务中最具挑战性的环节）。尽管 LLM 的训练数据可能赋予其诸多技能，但稳健的概率推理能力显然不在其中（至少在无需额外任务说明即可应用的层面）。然而，通过让 LLM 接触用户与最优贝叶斯助手的互动数据并继续训练，其概率推理能力显著提升。关键在于，这种提升不仅适用于训练的航班推荐任务，还能泛化至未遇过的任务变体及其他领域。

我们的发现与同期研究（Zhao 等人，2025）一致，该研究也探讨了 LLM 从不同对话类型中推断用户偏好的能力，包括与我们设定相似的基于隐式选择的对话。相比之下，我们的工作通过贝叶斯推理视角分析 LLM 行为，并证明了在微调中模仿贝叶斯模型的优势 —— 相较于始终提供正确答案的标准微调策略（即本文所称的 “先知教学”）。

此外，我们发现贝叶斯教学比 “提示方法” 更有效，例如指示 LLM verbalize 推理过程的 “思维链”（Kojima 等人，2022 等）或系统引导其行为的方法（Dohan 等人，2022 等）。附录 B.1 表明，此类方法在难以语言化的概率推理步骤（如更新概率分布）中效果较差。

我们的方案与将 LLM 嵌入 “神经 - 符号” 概率推理框架的方法（Ellis，2023；Feng 等人，2024 等）相关但不同。在这些方法中，LLM 用于将自然语言输入转化为形式化表示，作为符号模型的输入以按贝叶斯框架更新信念（Wong 等人，2023）。这与我们的方法类似 —— 先让 LLM verbalize 对用户偏好的信念，再用外部符号系统基于这些信念预测。我们发现，在偏好可映射至预测的简单任务中，这种混合方法确实优于直接查询 LLM，与神经 - 符号方法的动机一致。

核心结论

LLM 的概率推理缺陷
：现成 LLM 在需动态更新概率信念的任务中表现不佳，表明其缺乏内生的概率推理能力。
贝叶斯教学的有效性
：通过模仿贝叶斯模型的互动数据微调，LLM 可显著提升概率推理能力，且该能力可泛化至新特征、真实用户场景及跨领域任务（如酒店推荐、网络购物）。
泛化机制的独特性
：LLM 能通过模仿符号模型（贝叶斯助手）习得可迁移的概率策略，甚至适用于难以形式化定义的复杂场景，凸显深度学习模型在融合符号推理上的潜力。

本研究为 LLM 在不确定性场景中的应用提供了新路径 —— 通过贝叶斯教学赋予其概率推理泛化能力，推动其在交互式推荐、复杂决策等领域的实际应用。

重要的是，这些神经符号方法仅限于那些可以在系统的符号组件中明确表示结构的问题。相比之下，我们提出的方法赋予了大型语言模型（LLM）自行进行概率推理的能力，使其能够将这种技能应用于难以在符号系统中明确编码的领域，例如我们研究过的网络购物任务。这使得利用LLM通过自然语言泛化到新问题的卓越能力变得简单直接。

话虽如此，尽管微调有效地提高了LLM的分布外泛化能力，但在我们可以为此创建贝叶斯助手模型的简单领域中，微调后的模型与贝叶斯助手之间仍然存在一定的性能差距。因此，当可以构建此类模型时，神经符号方法仍然具有价值。

最后，尽管我们观察到从合成的航班推荐任务到更自然的网络购物任务的稳健泛化，但当我们直接在该任务的交互上对LLM进行微调时，性能甚至更强（如图5c中的绿色虚线所示）。然而，在实践中，收集此类数据可能很困难；我们的合成微调策略提供了一种替代方案，可以在不生成额外数据和重新训练模型的情况下，提升LLM在不同任务中的概率推理能力。

总体而言，尽管我们最初的发现指出了特定LLM的局限性，但微调的积极结果可以被视为展示了LLM范式的更一般优势：通过在执行任务的最优策略的示范上训练LLM，我们能够显著提高它们的性能，这表明它们获得了概率推理策略，或者至少是该策略的近似。重要的是，它们能够将这种策略泛化到难以在符号模型中明确编码的领域，展示了将经典符号模型提炼到神经网络中的强大能力。我们假设这种泛化能力在一定程度上是LLM令人瞩目的经验性成功的原因。

原文链接：https://arxiv.org/pdf/2503.17523