教会大语言模型像贝叶斯模型一样推理|大语言模型|推理|新论文|智能体|神经网络|贝叶斯

基于大语言模型的AI系统越来越多地被用作与用户和世界交互的智能体。为了成功做到这一点，大语言模型需要构建世界的内部表征，并估计每种表征准确的概率。以个性化推荐为例：大语言模型需要通过多次交互，从用户的选择中逐步推断出用户的偏好。

贝叶斯推理定义了执行此类更新的最优方式。通过实施这一策略，大语言模型可以在获得关于用户的新信息时更新对用户偏好的估计，从而优化用户交互。但如果没有专门的训练，大语言模型往往会采用简单的启发式方法，比如假设每个人都想要最便宜的选项，而不是推断特定用户的独特偏好。

在"贝叶斯教学使大语言模型具备概率推理能力"的研究中，我们通过训练大语言模型模仿贝叶斯模型的预测，来教会它们以贝叶斯方式进行推理。贝叶斯模型定义了关于概率推理的最优方式。我们发现，这种方法不仅显著提高了大语言模型在其训练的特定推荐任务上的性能，还使其能够泛化到其他任务。这表明该方法教会了大语言模型更好地近似贝叶斯推理。更广泛地说，我们的结果表明，大语言模型可以有效地从示例中学习推理技能，并将这些技能泛化到新领域。

大语言模型是否像贝叶斯模型一样推理

与人类一样，为了有效运作，大语言模型的用户交互需要根据每次新的交互持续更新对用户偏好的概率估计。我们提出的问题是：大语言模型的行为是否表现得像它们拥有根据最优贝叶斯推理预期更新的概率估计？在大语言模型的行为偏离最优贝叶斯策略的程度上，我们如何最小化这些偏差？

为了测试这一点，我们使用了一个简化的航班推荐任务，其中大语言模型作为助手与模拟用户进行五轮交互。在每一轮中，向用户和助手呈现三个航班选项。每个航班由起飞时间、飞行时长、中转次数和费用定义。每个模拟用户都有一组偏好特征：对于每个特征，他们可能对该特征的高值或低值有强烈或微弱的偏好（例如，他们可能更喜欢较长或较短的航班），或者对该特征没有偏好。

我们将大语言模型的行为与遵循最优贝叶斯策略的贝叶斯助手模型进行了比较。该模型维护一个概率分布，反映其对用户偏好的估计，并使用贝叶斯规则在获得关于用户选择的新信息时更新该分布。与许多现实场景不同，在这些场景中很难在计算上指定和实现贝叶斯策略，而在这个受控环境中很容易实现，并允许我们精确估计大语言模型偏离它的程度。

助手的目标是推荐与用户选择相匹配的航班。在每轮结束时，用户向助手指示它是否选择正确，并提供正确答案。

我们评估了一系列大语言模型，发现它们的表现都明显不如最优贝叶斯助手。最重要的是，与贝叶斯助手在接收到关于用户选择的额外信息时逐渐改进其推荐相比，大语言模型的性能往往在单次交互后就停滞不前，这表明它们适应新信息的能力有限，在与用户的多次交互中几乎没有改进或根本没有改进。

我们将来自不同模型系列的现成大语言模型与人类参与者和贝叶斯助手进行了比较。大语言模型的表现明显不如贝叶斯助手。人类参与者在接收到更多信息时表现出比大多数大语言模型更大的改进，但他们仍然达不到最优贝叶斯策略所特有的准确性。

我们比较了贝叶斯助手与人类以及各种现成大语言模型在与624名用户进行三组交互的第一轮和最后一轮后的推荐准确性。

通过贝叶斯教学训练大语言模型

在贝叶斯框架中，智能体维护关于世界状态的先验信念。对于大语言模型来说，这个"世界状态"是其对事实、关系和概念的内部表征。当模型遇到新信息（证据）时，它需要将其先验信念（即在看到新证据之前对某事的初始猜测或概率）转换为"后验信念"（在纳入新数据后更新的概率），该后验信念作为下一条证据的新先验。这个循环过程使智能体能够持续完善其对世界的理解。

挑战在于教会模型如何执行这些概率更新。我们通过监督微调来做到这一点，让模型根据它观察到的大量用户交互来更新其参数。

我们探索了两种创建监督微调数据的策略。在第一种策略中，我们称之为预言者教学，我们向大语言模型提供模拟用户与"预言者"助手之间的交互，该助手完全了解用户的偏好，因此总是推荐与用户选择相同的选项。

第二种策略，我们称之为贝叶斯教学，向大语言模型提供贝叶斯助手与用户之间的交互。在这种设置中，助手经常选择与用户首选选择不匹配的航班，特别是在早期轮次中，对用户偏好存在相当大的不确定性。我们假设，模仿贝叶斯助手的最佳猜测将教会大语言模型保持不确定性并比预言者教学更有效地更新其信念，在预言者教学中，大语言模型是在正确选择上训练的。这种方法可以被视为一种蒸馏形式，其中模型通过学习模仿另一个系统来训练。

监督微调教会大语言模型近似概率推理。我们检查了不同助手在第一轮和最后（第五）轮后的准确性。我们比较了原始大语言模型、在与贝叶斯助手的用户交互上微调的大语言模型，以及在与预言者的用户交互上微调的大语言模型，预言者总是提供正确答案。两种类型的微调都显著提高了大语言模型的性能，而贝叶斯教学始终比预言者教学更有效。

使用贝叶斯教学微调的大语言模型与贝叶斯助手的一致性更高，并且在用于微调的任务之外进行了泛化。我们展示了大语言模型与贝叶斯助手之间的一致性，通过大语言模型做出与贝叶斯助手相同预测的试验比例来衡量。在贝叶斯助手的预测上进行微调使大语言模型更加贝叶斯化，每个大语言模型的贝叶斯版本都实现了与贝叶斯助手的最高一致性。我们还查看了大语言模型在网络购物领域的最终轮准确性，该领域在微调期间未见过。

贝叶斯教学明显优于预言者教学，使模型与数学理想的一致性达到80%。这些微调后的模型对信息产生了现实的敏感性，学会了在用户选择揭示更清晰偏好时更重视特定的用户选择。

至关重要的是，这些新获得的技能不是特定于任务的。在合成航班数据上训练的模型成功地将其"概率逻辑"转移到完全不同的领域，例如酒店推荐和现实世界的网络购物。这表明大语言模型可以内化贝叶斯推理的核心原则，从静态模式匹配器转变为能够进行跨领域推理的自适应智能体。

结论

我们测试了一系列大语言模型，发现它们难以形成和更新概率信念。我们进一步发现，通过让大语言模型接触用户与贝叶斯助手之间的交互来继续训练，显著提高了大语言模型近似概率推理的能力。贝叶斯助手是一个实现最优概率信念更新策略的模型。

虽然我们第一个实验的发现指出了特定大语言模型的局限性，但我们后续微调实验的积极发现可以被视为更广泛地展示了大语言模型"后训练"范式的优势。通过在执行任务的最优策略演示上训练大语言模型，我们能够大幅提高它们的性能，这表明它们学会了近似演示所展示的概率推理策略。大语言模型能够将这一策略泛化到难以在符号模型中明确编码的领域，展示了将经典符号模型蒸馏到神经网络中的力量。

Q&A

Q1：贝叶斯推理在大语言模型中有什么作用？

A：贝叶斯推理定义了大语言模型更新用户偏好估计的最优方式。通过实施贝叶斯策略，大语言模型可以在获得关于用户的新信息时更新对用户偏好的估计，从而优化用户交互。但如果没有专门训练，大语言模型往往会采用简单的启发式方法，比如假设每个人都想要最便宜的选项。

Q2：贝叶斯教学和预言者教学有什么区别？

A：预言者教学是让大语言模型学习一个完全了解用户偏好、总是推荐正确选项的助手。贝叶斯教学则是让大语言模型学习贝叶斯助手的行为，该助手经常选择不匹配的选项，特别是在早期存在不确定性时。研究发现贝叶斯教学更有效，能让模型学会保持不确定性并更好地更新信念。

Q3：贝叶斯教学训练的大语言模型能否应用到其他领域？

A：可以。研究发现，在合成航班数据上训练的模型成功地将其概率推理能力转移到完全不同的领域，例如酒店推荐和现实世界的网络购物。这表明大语言模型可以内化贝叶斯推理的核心原则，从静态模式匹配器转变为能够进行跨领域推理的自适应智能体。