Bayesian statistics and modelling

贝叶斯统计与建模

https://files.ca-1.osf.io/v1/resources/ej8vm/providers/osfstorage/6040626a44157503d8584fcb?action=download&direct&version=1

摘要:

贝叶斯统计是一种基于贝叶斯定理的数据分析方法,它将统计模型中参数的现有知识与观察到的数据中的信息结合起来更新。背景知识以先验分布的形式表达,并与观测数据结合在一起,以似然函数的形式确定后验分布。后验分布也可用于对未来事件进行预测。本入门书籍描述了贝叶斯分析所涉及的阶段,从指定先验和数据模型到推导推断、模型检查和细化。我们讨论了先验和后验预测检查的重要性,选择适当的技术从后验分布中抽样,变分推断和变量选择。文中提供了贝叶斯分析在社会科学、生态学、遗传学、医学等多个研究领域成功应用的示例。我们提出了可复制性和报告标准的策略,概述了更新版的WAMBS(何时担忧以及如何避免滥用贝叶斯统计)清单。最后,我们概述了贝叶斯分析对人工智能的影响,这是未来十年的主要目标。

贝叶斯统计是一种基于贝叶斯定理的数据分析和参数估计方法。贝叶斯统计的独特之处在于,统计模型中所有观测和未观测的参数都被赋予了一个联合概率分布,称为先验分布和数据分布。典型的贝叶斯工作流程包括三个主要步骤(图1):通过先验分布捕获有关给定参数的可用知识,这通常在数据收集之前确定;利用观测数据中关于参数的信息确定似然函数;并使用贝叶斯定理将先验分布和似然函数结合起来,形成后验分布。后验分布反映了更新后的知识,平衡了先验知识和观测数据,并用于进行推断。当在这个联合概率分布上平均时,贝叶斯推断是最优的,并且这些量的推断基于给定观测数据的条件分布。

贝叶斯统计的基础最早在1763年由托马斯·贝叶斯撰写的一篇论文中描述,并由理查德·普莱斯发表,关于逆概率,或如何仅基于过去的事件确定未来事件的概率。直到1825年,皮埃尔-西蒙·拉普拉斯才发表了我们现在所知的贝叶斯定理(框1)。尽管逆概率和贝叶斯定理的思想在数学上有着悠久的历史,但这些工具在过去50年中在应用统计学中变得突出。

本入门书籍提供了贝叶斯统计当前和未来用途的概述,适用于在广泛的科学相关领域工作的定量研究人员,他们至少对回归建模有所了解。我们提供了可以用于进一步研究的文献概述,并展示了如何在真实数据上实现贝叶斯模型。所有的数据和代码都可用于教学目的。本入门书籍讨论了贝叶斯统计的一般框架,并介绍了贝叶斯研究周期(图1)。我们首先讨论了先验分布的形式化、先验预测检查和确定似然分布(实验)。我们讨论了相关的算法和模型拟合,描述了变量选择和变分推断的例子,并提供了一个具有后验预测检查的示例计算(结果)。然后,我们描述了贝叶斯统计在不同科学领域中的应用(应用),随后是数据共享、可复制性和报告标准的指南(可复制性和数据存储)。我们以讨论使用不正确模型引入的偏差(局限性和优化)结束,并展望了贝叶斯人工智能的未来(展望)。

实验

本节概述了图1中描述的贝叶斯工作流程的前两个步骤。首先确定先验分布,简称先验。选择先验通常被视为研究者在实施贝叶斯模型时做出的更重要选择之一,因为它可能对最终结果产生重大影响。通过先验预测检查过程来确定正在实施的先验的适当性。然后确定似然函数,简称似然。似然与先验结合起来形成后验分布,或简称后验(结果)。鉴于先验和似然在确定后验中的重要角色,执行这些步骤至关重要。我们提供示例计算以演示过程。

实证案例 1:博士学位授予延迟Empirical example 1: PhD delays

为了说明贝叶斯统计的许多方面,我们提供了一个基于真实数据的示例。考虑一个实证研究,预测博士延期11,研究者询问了333名荷兰博士毕业生完成博士论文需要多长时间。基于这些信息,研究者计算了延期时间——定义为计划项目时间和实际项目时间之差(以月为单位,平均值=9.97,最小值/最大值=-31/91,标准差=14.43)。假设我们有兴趣使用多项式回归模型来预测博士延期(y):其中表示年龄(以年为单位)的线性效应。我们期望这种关系是二次的,由表示。模型包含一个截距,我们假设残差ε呈正态分布,均值为零,方差未知,记为。请注意,我们已经简化了统计模型,因此结果仅用于教学目的。不同软件12的代码运行说明可用,包括数据探索步骤13。我们将在以下各节中引用这个示例来说明关键概念。

形式化先验分布

先验分布在贝叶斯统计中扮演着决定性的角色。先验可以采用许多不同的分布形式,如正态分布、均匀分布或泊松分布等。先验可以具有不同程度的信息量;先验分布所反映的信息可以在从完全不确定到相对确定的连续体上的任何位置。尽管先验可以沿着这个连续体的任何位置,但文献中通常使用三种主要的先验分类来对围绕总体参数值的不确定性程度进行分类:信息性、弱信息性和分散性。这些分类可以根据研究者的个人判断来做出。例如,正态分布由均值和方差定义,分布的方差(或宽度)与信息量水平相关。在一种研究环境中,1000的方差可能被认为是分散的,在另一种环境中可能是信息性的,这取决于似然函数以及参数的缩放。

图2显示了我们预测博士延期的示例计算中,不同先验设置下βage的似然、先验和后验之间的关系。第一列代表先验,为了本例,先验具有正态分布。五行不同的先验代表基于信息量水平和均值方差的不同先验设置。基于数据的似然由单一分布表示。先验和似然结合起来,根据贝叶斯规则创建后验。得到的后验依赖于先验的信息量(或方差)以及观测数据。我们将在结果部分展示如何获得后验。

控制先验中不确定性量的个别参数称为超参数。以正态先验为例。这个分布由均值和方差定义,它们是正态先验的超参数,我们可以将这个分布写成,其中 代表均值,代表方差。较大的方差表示围绕均值的不确定性更大,反之亦然。例如,图2展示了五种具有不同 和值的先验设置。分散性和弱信息性先验由于其较大的方差,比信息性先验显示出更多的扩散。均值超参数可以看作是分布中的峰值。

先验引出。先验引出是构建合适先验分布的过程。先验引出的策略包括询问专家或专家小组提供先验分布的超参数值14-17。MATCH18是一个通用的专家引出工具,但许多用于从专家那里引出信息的方法需要定制的引出程序和工具。有关为特定模型设计的引出程序的示例,请参见参考文献19-23。对于大量的引出示例和方法,我们建议读者参考TU Delft专家判断数据库,其中包含超过67,000个引出判断24(另见14,25,26)。此外,先前出版物的结果或元分析的结果也可以使用27,28,或任何组合29或这些策略的变化。

先验引出还可能涉及实施基于数据的先验。然后,先验的超参数是从样本数据中使用最大似然30-33或样本统计数据的方法导出的。

这些程序会导致双重使用,因为相同的样本数据集被用来推导先验分布和获得后验。尽管基于数据的先验相对常见,我们不推荐使用双重使用程序。相反,可以实施分层建模策略,其中先验依赖于数据驱动的超参数值——例如,从样本数据中提取的样本统计量——这避免了与双重使用直接相关的问题。我们建议读者参考其他地方34以获取有关双重使用的更多详细信息。

先验(不确定性)。信息性先验是反映对被估计模型参数高度确定性的先验。例如,信息性正态先验预期具有非常小的方差。当现有信息表明对特定参数的可能范围或参数之间的关系有限制时,研究者可能希望使用信息性先验,例如,对各种医疗条件的敏感性之间存在正但不是完美的关系37,38。在某些情况下,信息性先验可能会产生不反映总体模型参数的后验。在需要信息性先验的情况下,但也很重要通过下面讨论的敏感性分析来评估这些先验对后验的影响。对我们实证示例的一个信息性先验的任意示例是βage ~ N(2.5, 5),其中先验均值为年龄与博士延期的线性关系的2.5,先验方差为5。为博士示例专门开发了一个ShinyApp,包含一个可视化工具,展示回归模型中所有参数的不同先验如何相互作用39。

弱信息性先验具有中等程度的确定性,既不过于分散,也不过于限制。弱信息性正态先验将比信息性先验具有更大的方差超参数。与信息性先验相比,这种先验对后验的影响相对较小,这取决于变量的尺度,并且后验结果更多地由似然中表达的数据观测加权。

当对参数假定了一些信息,但仍希望保持一定程度的不确定性时,研究者可能希望使用弱信息性先验。在图2中,回归系数的两个弱信息性正态先验示例可以使95%的先验密度质量落在-10到10或0到10之间的值内。弱信息性先验比分散先验提供更多信息,但它们通常不代表像信息性先验那样的特定信息40,41。在构建弱信息性先验时,通常指定一个合理的参数空间,它捕获了一系列合理的参数值——选择参数的合理值范围(有关示例,请参见我们为博士示例开发的ShinyApp39)——并通过在它们上面放置有限的密度质量使不可能的值不太可能。例如,如果回归系数已知接近0,则可以指定弱信息性先验以将合理范围减少到例如±5。这个先验将减少观察到界外值的概率(例如,回归系数为100),而不会过于信息性。

最后,分散性先验反映了对模型参数的极大不确定性。这种先验形式代表了一个相对平坦的密度,并且不包含关于参数的特定知识(图2)。当围绕参数完全缺乏确定性时,研究者可能希望使用分散性先验。在这种情况下,数据将在很大程度上决定后验。有时,研究者会使用非信息性先验作为分散的同义词42。我们避免使用这个术语,因为我们认为即使是完全平坦的先验,如杰弗里斯先验43,仍然提供了关于不确定性程度的信息44。因此,没有先验是真正的非信息性的。

分散性先验可以用来表达对参数的完全不确定性,但它们也可能对后验产生意想不到的后果45。例如,当样本量较小时,分散性先验可能通过后验对参数估计产生不利影响,特别是在涉及元分析模型46、逻辑回归模型44或混合模型47的复杂建模情况下。此外,有时会使用不适当先验,意图将它们用作分散先验。尽管不适当先验很常见,并且可以在各种贝叶斯程序中相对容易地实现,但重要的是要注意,不适当先验可能导致不适当后验。我们在这里提到这个警告,因为获得不适当后验可能会影响结果可以实质性解释的程度。总的来说,我们注意到分散性先验可以作为在使用更具信息性先验进行相同或后续数据分析之前的占位符。

先验的影响。总的来说,没有正确或错误的先验设定。很多时候,分散的先验可以产生与似然一致的结果,而有时使用相对平坦的先验可能会得到不准确或有偏见的结果47。同样,如果信息性先验与似然的重叠不好,可能会使后验偏离似然,表明推断将更多地与先验而不是似然一致。无论先验的信息量如何,始终进行先验敏感性分析以充分理解先验设定对后验估计的影响48,49是非常重要的。当样本量较小时,通常使用温和信息性先验的贝叶斯估计9,50,51,但先验规范可能对后验结果有巨大影响。

当先验与似然不符时,这并不一定证明先验不适当。问题可能在于似然,因为模型设定错误或数据有偏见。先验和似然之间的差异也可能反映了先验或似然本身没有捕捉到的变异。这些问题可以通过对似然的敏感性分析来识别,例如,检查模型的不同形式,以评估先验和似然如何对齐。

先验的主观性被批评者强调为贝叶斯方法的一个潜在缺点。我们在这里提出两个不同的观点。首先,除了先验选择之外,估计过程中的许多元素都是主观的,包括模型本身和误差假设。将主观性的概念仅归因于先验,是一种误导,它分散了人们对过程中固有主观的其他元素的注意力。其次,先验并不一定是主观性的一个点。它们可以作为工具使用,允许数据信息收缩,实施正则化或将算法引导至可能的高密度区域,并提高估计效率。

先验通常是通过先前的信念、信息或知识来定义的。尽管信念可以被描述为研究者的主观观点,信息通常是可以量化的,而知识可以被定义为客观的、基于共识的。因此,我们敦促读者在这个更广泛的意义上考虑先验,而不仅仅是作为将主观性纳入估计过程的一种手段。

本节关于信息性、弱信息性和分散性先验的讨论是一般性的,这些术语适用于单变量和多变量先验。本入门书籍中的大部分讨论涉及对单个模型参数施加的单变量先验;然而,这些概念可以扩展到多变量设置,其中先验是施加在整个协方差矩阵上,而不是矩阵中的单个元素。有关多变量先验的更多信息,请参见参考文献52,53。

先验预测检查

由于基于贝叶斯分析的推断受到先验的“正确性”的影响,因此仔细检查指定的模型是否可以被认为是生成实际数据的模型是非常重要的54,55。这部分是通过一个称为先验预测检查的过程来完成的。先验基于背景知识,如果先验引出过程有效,即如果背景知识正确地表达在概率陈述中,那么先验就不会有本质上的错误。然而,即使在有效的先验引出过程的情况下,理解先验的确切概率规范也是极其重要的。这对于具有较小样本量的复杂模型尤其如此9。因为较小的样本量通常传达的信息较少,相比之下,先验将在后验中表现出强烈的影响。

先验预测检查是一种提高对指定先验对可能观测结果的影响的理解的练习。它不是改变原始先验的方法,除非这个先验明确地生成了错误的数据。

Box56建议从指定的先验中推导出一个先验预测分布。先验预测分布是如果模型是真实的,可能发生的所有样本的分布。从理论上讲,一个“正确”的先验提供了一个与真实数据生成分布相似的先验预测分布54。先验预测检查将观察到的数据或观察数据的统计量与先验预测分布或预测分布的统计量进行比较,并检查它们的兼容性55。例如,从先验分布中抽取值。使用核密度估计,这是一种用于近似概率密度函数的非参数平滑方法57,原始样本和来自预测分布的样本可以进行比较58。或者,兼容性可以由一个先验预测p值来概括,描述观察数据的特征在参考先验预测分布的尾部有多远离59。

Evans和Moshonov60,61建议将Box的方法限制在最小充分统计量上,即在传递有关样本中某个参数值的信息方面尽可能高效的统计量62。

Young和Pettit63认为,基于先验预测分布尾部区域的度量,如Box和Evans和Moshonov的方法,在两个先验都被正确指定时,并不偏爱更精确的先验。相反,他们建议使用贝叶斯因子64来比较两个先验(Box 2)。贝叶斯因子将偏爱更精确的先验。这三种方法使确定先验-数据冲突的主观性,取决于任意的截止值。数据一致性标准65尝试通过引入一个清晰的分类来解决先验-数据冲突确定问题,消除了这一决策的主观元素66。这是以选择一个任意的基于发散的标准为代价的。

已经开发了一种替代标准67,用于计算先验数据与数据之间的距离是否是意外的。为了比较这两个标准,我们将读者引导至 Lek 和 van de Shoot68。

继续实证例1。事先预测检查-可以帮助防止先验形式化中的错误。例如,不同的软件包可以对同一发行版进行不同的表示。先验的正态分布可以通过超参数均值和方差、均值和标准差或均值和精度(方差的倒数)来指定。为了说明数据输入错误的影响,对于图 1 所示的平均值为 2.5、方差为 5 的信息先验, 我们还展示了我们有的先验

故意将方差误指定为精度值(0.2),显示为βage ~ N(2.5,0.2)。如果用户没有意识到方差和精度之间的差异,那么旨在提供微弱信息的先验很容易变成提供信息的先验分布。注意,在该示例中,在数据的平均值和标准偏差上比较先前的预测分布和数据,因为这些通常用于检查先前的预测性能。但是,可以选择比较统计数据来反映数据的重要特征,例如偏态。

例如,当错误地使用精度而不是方差时(图3a)将先前预测分布与基于正确超参数的分布(图3b)进行比较时,图3所示的先前预测检查有助于避免错误指定。我们还展示了观测数据与模拟数据的核密度估计值57或概率密度函数的估计值(图3c)。由于先验中的不确定性组合,先验预测核密度估计可能与观测数据有很大不同,因此检查先验预测核分布与观测数据的数量级差异也很重要。

确定似然函数

似然函数在贝叶斯和频率主义推断中都有使用69。在这两种推断范式中,它的作用是量化观察到的数据对未知参数可能值的支持力度5,000。贝叶斯和频率主义推断之间的关键区别在于,频率主义者不认为关于未知参数的概率陈述是有用的。相反,未知参数被认为是固定的;似然是数据(y)给定固定参数(θ)的条件概率分布p(y|θ)。在贝叶斯推断中,未知参数被称为随机变量,以便对它们进行概率陈述。将(观察到的)数据视为固定的,而参数值则变化;似然是θ对固定数据y的函数。因此,似然函数概括了以下元素:一个随机生成所有数据的统计模型,θ的可能值范围和观察到的数据y。

因为似然性的概念不是贝叶斯方法所特有的,所以我们在这里不提供更详细的统计概念介绍。相反,我们将感兴趣的读者引向最近的一篇教程70,该教程描述了常见的频率主义者和贝叶斯统计方法中的可能性。有关该主题的完整数学解释,请参见参考文献71 .围绕贝叶斯推断的大部分讨论集中在先验的选择上,并且有大量关于潜在违约先验的文献72,73。将可用知识纳入先验知识是频率主义者和贝叶斯方法之间最明显的区别,也是争议的来源。尽管数据的特定模型(由似然函数表示)是分析的基础,但在讨论中往往忽略了似然性的重要性74。后验分布是交互作用中先验分布的结果在观测数据72的背景下使用数据的假设概率模型。如果没有配对可能性的背景,先验往往无法解释。

在某些情况下,指定一个似然函数可能非常简单(Box 3)。然而,在实践中,潜在的数据生成模型并不总是已知的。研究者经常出于习惯或因为他们不能轻易地在软件中更改它,而轻率地选择某个数据生成模型。尽管基于背景知识,统计数据生成模型的选择是主观的,因此应该被很好地理解、清晰记录并可供读者查阅。应该对选定的似然函数执行稳健性检查,以验证其对后验估计的影响73。尽管大多数关于贝叶斯稳健性的研究集中在后验结果对先验规范的敏感性上,但也有一些贡献集中在后验结果对似然函数规范的敏感性上75-77。

结果

在指定了先验和似然并收集了数据之后,就可以获得后验分布。在这里,我们解释了如何将模型拟合到数据以获得后验分布,如何选择变量,以及为什么需要进行后验预测检查。模型构建是一个迭代过程;任何贝叶斯模型都可以被视为一个可以改进的占位符,以响应新数据或与现有数据的拟合不足,或者简单地通过模型细化过程。Box56、Rubin78和Gelman等人74讨论了贝叶斯模型构建、推断、诊断和模型改进的流动性。

模型拟合

一旦定义了统计模型并获得了相关的似然函数,下一步就是将模型拟合到观察数据中,以估计模型的未知参数。尽管统计模型是对现实的简化,但它们旨在捕捉我们希望提高理解的底层系统的主要因素,以及导致我们观察到的数据的因素。模型在其复杂性上可能有很大的差异,考虑到许多可能影响底层系统的不同因素或机制,以及导致我们观察到的数据的随机性和变异性的来源。将模型拟合到观察数据中允许估计模型参数或这些参数的函数,从而提高对系统及其相关底层因素的理解。

频率主义框架下的模型拟合侧重于实验的预期长期结果,目的是为模型参数(如最大似然估计和相关的置信区间)生成单一的点估计。在贝叶斯框架下的模型拟合中,为模型参数分配概率,描述相关的不确定性。在贝叶斯统计中,重点是估计模型参数的整个后验分布。这个后验分布通常用相关的点估计来总结,如后验均值或中位数,以及可信区间。直接对后验分布进行推断通常是不可能的,因为描述后验分布的数学方程通常非常复杂且高维,其维度数等于参数的数量。后验分布的表达式通常只知道到比例常数,即在后验分布中不是参数的函数,通常不能明确计算的常数项。特别是,后验分布表达式的分母仅是数据的函数,这个函数不仅没有封闭形式,而且只能表示为解析上不可解的积分。这意味着我们不能准确评估后验分布,因此不能直接计算,例如,相关的摘要统计量。

此外,高维性加剧了这些问题,以至于计算边际后验分布也可能不可行,也只能以积分形式表达。我们注意到,后验分布的这种不可处理性是许多科学家放弃贝叶斯统计,转而支持频率主义统计的主要原因。Gelfand和Smith79的开创性文章描述了马尔可夫链蒙特卡洛(MCMC),一种从概率分布中抽样的技术,如何被用来在贝叶斯范式内将模型拟合到数据80。特别是,MCMC算法只要求感兴趣的概率分布被指定到比例常数,并且可以扩展到高维。

马尔可夫链蒙特卡洛(MCMC)。MCMC能够使用计算机模拟间接获得对后验分布的推断80。MCMC允许从后验分布中获得任意大小的一组采样参数值,尽管后验分布是高维的,并且只知道到一个比例常数。这些采样的参数值被用来获得感兴趣的后验分布的经验估计。如果需要,可以通过增加采样参数值的数量,来估计到所需精度的后验分布和相关的摘要统计量。

我们注意到,由于后验分布的高维性,通常有助于集中于每个参数的边际后验分布,通过对其他参数进行积分来定义。边际分布对于集中于单个参数很有用,但是按定义,它们不提供任何关于参数之间关系的信息。

这里,我们专注于MCMC进行后验推断。MCMC结合了两个概念:使用马尔可夫链从后验分布中获得一组参数值;并使用蒙特卡洛积分通过采样参数获得后验及其相关统计的分布估计。尽管MCMC是贝叶斯分析中最常用的算法类别,但还有其他的模型拟合算法(表1)。其他可用的估计器可以在其他地方找到81,82。

一般而言,蒙特卡洛积分是一种使用给定分布的采样值进行计算机模拟来估计积分的技术。给定这些采样的参数值,蒙特卡洛积分允许使用相关的经验估计来估计这个分布83。例如,对于分布摘要统计量,如参数的均值、方差或对称的95%可信区间,我们使用相应的样本均值、样本方差以及第2.5%和第97.5%分位数参数值来估计这些摘要统计量。同样,概率陈述——如参数为正或负的概率,或它位于区间[a,b]内的概率——可以作为满足给定陈述的采样值的比例来估计。任何给定参数的边际后验分布可以通过核密度估计获得,核密度估计使用非参数方法从已抽取采样值的相关密度进行估计58。

无法直接且独立地从后验分布中对参数值进行抽样。这导致使用马尔可夫链。其思想是通过构造一个具有指定一阶转移核的马尔可夫链,从而获得感兴趣的后验分布的一组采样参数值,使得马尔可夫链的最终平稳分布等于感兴趣的后验分布。

如果马尔可夫链运行足够长以到达其平稳分布,链的后续实现可以被视为来自后验分布的依赖样本,并且可以用来获得相应的蒙特卡洛估计(见图4a)。我们强调,从马尔可夫链获得的采样参数值是自相关的——它们依赖于链中它们之前的值——并且由一阶马尔可夫链生成。马尔可夫链由初始参数值和转移核的定义。Gibbs采样器84、Metropolis-Hastings算法85,86和哈密顿蒙特卡洛87是定义转移核的标准方法,以便相应的平稳分布是正确的后验分布。

MCMC技术方面。由于模型复杂性或数据收集过程,通过拟合模型到观测数据来获得后验推断可能变得复杂。例如,在随机效应模型中或存在潜变量的情况下,似然函数可能无法以封闭形式提供,而只能表示为随机效应项或潜变量的解析上不可解的积分。或者,似然函数可能以封闭形式提供,但可能是多峰的——例如,对于有限混合模型或离散潜变量模型。这反过来又可能导致算法的性能不佳,因为算法没有探索一个(或多个)模式。在这种情况下,通常使用数据增强88,我们定义额外的变量,或辅助变量,使得数据和辅助变量的联合分布——通常称为“完整数据”似然——现在可以以封闭形式提供并且快速评估。例如,在随机效应模型中,辅助变量对应于之前已经积分掉的个体随机效应项;对于有限混合模型,辅助变量对应于每个观测值所属的混合组分。然后可以构建一个包含模型参数和辅助变量的新的联合后验分布;这个后验分布被定义为与完整数据似然和参数上指定的先验分布成比例。

然后可以应用标准的MCMC算法,该算法获得模型参数和辅助变量的采样参数值集。丢弃辅助变量,并只考虑马尔可夫链中感兴趣的模型参数的值,提供了基于观测数据的模型参数原始后验分布的样本。在某些情况下,辅助变量本身可能是有趣的,例如当它们表示缺失的数据值或一些有形的概念(例如,对于混合模型的同质子组)或真实的底层状态(如状态空间模型),并且可以很容易地使用采样值来获得对这些的推断。

转移核确定MCMC算法,描述了在马尔可夫链的每次迭代中参数值和任何其他附加辅助变量是如何更新的。为了使马尔可夫链的平稳分布成为感兴趣的后验分布,转移核被指定为满足一些简单规则。转移核通常使用一些预定义的建议分布来定义:一组新的参数值从这个建议分布中提出,然后这些值随后根据给定的接受概率被接受或拒绝,这是建议分布的函数。如果提议的值被接受,马尔可夫链就会移动到这个新状态;而如果值被拒绝,马尔可夫链在下一次迭代中保持在同一状态。我们注意到,转移核不是唯一的,因为有许多可能的选择可以导致正确的平稳分布的建议分布。常见的建议分布包括:后验条件分布,导致Gibbs采样器在更新步骤中接受概率等于一;Metropolis-Hastings随机游走采样器,它从当前值随机扰动参数值;切片采样器;和无U形转弯采样器等。我们在这里不进一步关注MCMC算法的内部机制,因为关于这个主题有大量的文献,并且还有相关的计算工具和程序,用于执行使用MCMC方法的贝叶斯分析。有关进一步讨论,参见例如参考文献74,89,90。

性能评估。转移核的选择通过决定马尔可夫链需要运行多长时间才能获得关于后验分布的可靠推断,从而定义了MCMC算法的性能。轨迹图可以在多次迭代中显示参数值。一维轨迹图最常用;它们将马尔可夫链的每次迭代的参数值在y轴上描述,并将迭代次数在x轴上描述,通常是有用的探索性工具(见图4a)。特别是,轨迹图提供了链的可视化,就每个参数如何探索参数空间而言——称为混合。如果混合不佳,即链需要很长时间来探索后验参数空间,可能需要改变指定的转移核。例如,混合不佳可能是由于连续迭代之间的参数值变化很小,或者提议的参数值的拒绝率很高,以至于参数值在MCMC算法的许多连续迭代中保持不变。这些图表也非正式地用于确定马尔可夫链何时到达其平稳分布。在收敛到平稳分布之前,链的实现被丢弃;这个过程通常被称为预热,尽管我们更喜欢使用热身这个术语,并在本入门书籍中这样称呼这个过程91。

评估马尔可夫链收敛到平稳分布的最常用技术是R统计量,它定义为链内变异性与链间变异性的比率92,93。为了应用这种方法,需要运行多个独立的MCMC算法运行(见图4b)。理想情况下,每个马尔可夫链应该从不同的起始值开始,并使用不同的随机数种子,以便在马尔可夫链中提供更大的初始变异性,并更有可能识别出链对平稳分布的非收敛性。例如,如果正在探索后验分布的不同子模式,就可能发生这种非收敛性。所有参数和感兴趣数量的值接近一表明链已充分收敛到平稳分布,因此未来的实现可以被视为来自后验分布的样本(见图4b)。当达到平稳分布时,可以确定获得可靠、低误差蒙特卡洛估计所需的迭代次数。为了评估所需的迭代次数,通常会对采样值进行分批处理,这涉及将采样值划分为连续迭代的不重叠批次,并考虑每个批次中使用采样值估计的统计量的变异性94。

采样参数值的有效样本量可以获得,以提供算法效率的指示。有效样本量大致表达了与自相关的MCMC样本包含相同信息的独立采样参数值的数量;请记住,采样的MCMC值不是独立的,因为它们是使用一阶马尔可夫链生成的。在这里,有效样本量不是指数据的样本量;而是MCMC链的有效长度。低采样效率与高自相关(和混合不佳)相关——使得参数值在连续迭代中的变异性很小——以及后验的非平滑直方图。在这些情况下,通常需要更长的模拟才能获得关于后验分布的可靠估计以及在估计的后验摘要统计量中的足够小的蒙特卡洛误差。后者的小有效样本量问题,反过来,可能指向模型估计中的潜在问题或参数的弱可识别性21。因此,当在获得可靠的蒙特卡洛估计时出现问题时,一个好的起点是基于有效样本量对所有变量进行排序,并首先调查那些具有最低有效样本量的变量。有效样本量还有助于诊断大量变量的采样效率95。

计算机软件。现在有许多标准计算包用于实现贝叶斯分析(见表2),这随后导致贝叶斯推断在许多科学领域的增长。许多可用的包将MCMC算法作为一个黑盒执行——尽管通常有选项可以更改默认设置——允许分析师专注于先验和模型规范,并避免任何技术编码。还有许多额外的包使得使用有时基于代码的软件变得更容易,例如R中的BRMS96和Blavaan97包,用于简化概率编程语言Stan98的使用。

实证示例1继续。博士延期示例的先验已用数据更新,并在Stan98中计算了后验。图4a显示了MCMC算法独立运行四次的βintercept的轨迹图,在预热后显示出稳定性。相关的 \( \hat{R} \) 统计量在大约2000次迭代后稳定(见图4b)。图4c-e显示了先验和后验分布。可以看到,先验和后验彼此非常接近,这表明我们的先验知识得到了新收集数据的“确认”。此外,可以看到不确定性已经减少(例如,与先验方差相比,后验方差较小),这表明我们已经更新了我们的知识。为了说明计算参数相互关系的容易程度,我们还绘制了βage和βage2之间的先验和后验边际密度图(见图4f)。

变分推断。正如我们概述的,贝叶斯分析包括许多阶段,包括详细的模型开发、指定先验和数据模型、基于MCMC的精确推断方法的推导,以及模型检查和细化。这些阶段理想上是独立对待的,将模型构建与其计算实现分开。对精确推断技术的重点关注促进了发展蒙特卡洛方法的相当大的活动,这些方法被认为是贝叶斯推断的黄金标准。贝叶斯推断的蒙特卡洛方法采用基于模拟的策略来近似后验分布。另一种方法是使用包括变分推断99或期望传播100在内的技术来产生后验的功能近似。这里,我们描述变分推断,也称为变分方法或变分贝叶斯,因为它在机器学习中的受欢迎程度和普遍使用。

变分推断首先构建一个近似分布来估计所需的——但难以处理的——后验分布。通常,选择的近似分布来自标准概率分布族,例如多元正态分布,并进一步假设我们模型中变量之间的一些依赖关系被打破,以使后续计算可行。在近似分布假设所有变量都独立的情况下,这为我们提供了均场近似。近似分布将由一组变分参数指定,我们优化这些参数以找到最佳的后验近似,通过最小化与真实后验的Kullback-Leibler散度。因此,变分推断将贝叶斯推断问题重新构建为优化问题,而不是抽样问题,允许它们使用数值优化来解决。

当与基于子采样的优化技术(如随机梯度下降)结合使用时,变分推断使得对复杂大规模问题的近似贝叶斯推断成为可能101-103。

变量选择

变量选择是确定要在模型中包含的预测变量子集的过程。它是与确定模型的函数形式一起的主要组成部分。当有大量潜在预测变量可用时,变量选择尤其重要。在模型中包含不必要的变量有几个缺点,例如增加多重共线性的风险、估计所有模型参数的样本不足、过度拟合当前数据导致在新数据上预测性能差,以及使模型解释更加困难。例如,在基因组研究中,当使用高通量技术分析数千个遗传标记时,只有少数标记预期与正在研究的表型或结果相关。

变量选择方法可以分为基于假设检验的方法和执行惩罚参数估计的方法。在贝叶斯框架中,假设检验方法使用贝叶斯因子和后验概率,而惩罚参数估计方法指定了导致稀疏性的收缩先验。贝叶斯因子通常用于处理少量潜在预测变量的情况,因为它们涉及拟合所有候选模型并在它们之间进行选择。另一方面,惩罚方法拟合单一模型,并且能够扩展到高维数据。

我们简要回顾了这些方法在经典线性回归模型背景下的应用,其中响应变量y来自n个独立观测值,与在n×p协变量矩阵X中定义的p个潜在预测变量相关,通过模型y=Xβ+ε。回归系数β捕捉了协变量对响应变量的影响,ε代表残差,假设其服从均值为零、方差为σ^2的正态分布。

贝叶斯因子和后验模型概率

贝叶斯因子64(Box 2)可以用来比较和选择候选模型,其中每个候选模型对应一个假设。与频率主义假设检验方法不同,贝叶斯因子不需要模型嵌套。在变量选择的背景下,每个候选模型对应p个潜在预测变量的不同子集104,105。这些2^p种可能的模型可以通过二进制向量γ=(γ1, …, γp)'来索引,其中如果协变量Xj被包含在模型中,即βj≠0,则γj=1,否则γj=0。设Mγ是包含Xj值的模型,其中γj=1。为每个模型指定了先验分布p(Mγ),以及在每个模型下的参数p(βγ, σ^2|Mγ),并评估贝叶斯因子BFγb,以比较每个模型Mγ与作为基线的模型Mb。每个模型的后验概率p(Mγ|y)可以用贝叶斯因子表示为:

其中分母是对所有考虑的模型Mγ'求和。具有最大后验概率的模型将对应于在考虑的模型中具有最有力证据的模型。当p相对较小时(例如,小于20),可以评估所有2^p个变量子集及其后验概率。具有最高后验概率的模型可以被选为数据最支持的模型。或者,可以选择具有高边际后验包含概率的协变量,p(γj = 1|y) = ∑(γj ∈ Mγ')p(Mγ'|y)。对于中等大小到较大的p,这种策略在实践中是不可行的,因为全面评估所有2^p种可能的模型在计算上变得昂贵。相反,指定了导致稀疏性的收缩先验,通过将非相关协变量的回归系数设置为零或将它们收缩到零来实现,使用MCMC技术从后验分布中抽样。

收缩先验。多年来提出了各种收缩先验。一种广泛使用的收缩先验是尖峰-板条先验,它使用潜在的二进制指示向量γ = (γ1, …, γp) ∈ {0, 1}^p来诱导βj的两种分布的混合,一个围绕零(尖峰)的分布,另一个是分散分布(板条)106,107。尖峰部分识别零元素,而板条部分捕获非零系数。离散尖峰-板条公式106使用在零点的质量混合和分散先验(见图5a),而连续尖峰-板条先验107使用两种连续分布的混合(见图5b)。另一种广泛使用的公式是将尖峰-板条先验放在回归系数的方差上108。在为其他模型参数指定先验分布后,使用MCMC算法探索大型模型空间并产生访问模型的链。然后通过边际后验包含概率P(γj=1|y)实现变量选择。对参数β和σ^2进行积分可以加速MCMC实现,加快其收敛和混合速度。还提出了各种计算方法,通过结合变量选择方法与现代蒙特卡洛抽样技术,快速识别具有高后验概率的有希望的模型109,110(见表1)。

另一类近年来受到广泛关注的惩罚先验是连续收缩先验111-113。这些是对βj的一峰分布,它促进了小回归系数向零的收缩,类似于通过最大化受惩罚的对数似然函数来实现正则化的频率惩罚回归方法114。最小绝对收缩和选择算子,或称为Lasso114,使用惩罚函数λ ∑|βj|,λ控制稀疏性水平。βj的Lasso估计可以被解释为在独立拉普拉斯分布先验下最大化后验分布的贝叶斯估计。受到这种联系的启发,贝叶斯Lasso111在βj|σ^2上指定条件拉普拉斯先验。与频率主义Lasso方法不同,贝叶斯惩罚方法不会将回归系数收缩到完全为零。相反,使用βj的可信区间或通过在后验样本上定义选择标准来进行变量选择。许多连续收缩先验可以参数化为正态分布的尺度混合,这有助于它们在MCMC方法中的实现。例如,贝叶斯Lasso中的拉普拉斯先验可以被制定为具有指数混合密度的尺度参数的正态分布的尺度混合。指数混合分布在不同程度上收缩小效应和大效应时的灵活性有限(见图5c)。这种限制可以通过使用引入两个收缩参数的收缩先验类别来克服,分别控制全局稀疏性和每个回归系数的收缩量。结果的βj的边缘先验特征是在零附近有一个紧的峰值,将小系数收缩到零,并有重尾防止大系数的过度收缩。这些先验被称为全局-局部收缩先验113。Horseshoe先验,作为全局-局部收缩先验的一个例子,通过指定其尺度参数遵循半柯西分布的正态分布,实现了零附近的紧峰值和重尾112(见图5d)。不同收缩先验的特性和性能的全面回顾和彻底比较可以在参考文献115中找到。

贝叶斯变量选择方法已经扩展到各种模型。多元回归模型的扩展包括选择与所有或无响应变量相关的尖峰-板条先验116,以及允许每个协变量与子集和/或个别响应变量相关的多元构造117。其他扩展包括广义线性模型、随机效应和时变系数模型118,119,用于无监督聚类的混合模型120和单变量及多变量高斯图形模型的估计121,122。

生物医学中的变量选择。在线性模型中的变量选择先验在生物医学研究中找到了重要应用。高通量技术的出现使得在个体样本上测量数千个遗传标记成为可能。线性模型通常用于将大量生物标记与疾病相关结果相关联,变量选择方法被用来识别显著的预测因子。在贝叶斯方法中,可以轻松地将有关变量之间相关性的额外知识纳入分析中。例如,在基因表达数据的模型中,已经采用了纳入基因-基因交互网络知识的尖峰-板条变量选择先验,以帮助识别预测基因123,以及识别相关途径和基因子集124。贝叶斯变量选择先验已成功应用于全基因组关联研究,在成千上万的个体中测量了数十万个单核苷酸多态性,目标是识别与单个表型或一组相关特征相关的遗传变异125,126。

空气污染是导致疾病和死亡的主要环境风险因素。由交通和工业污染产生的小颗粒可以进入呼吸道,并对健康产生不利影响。颗粒物暴露及其健康效应表现出空间和时间的变异性,这可以被纳入空气污染的贝叶斯模型中(有关空间数据贝叶斯层次模型的资源,我们可以参考参考文献127)。具有诱导空间相关性的尖峰-板条先验的空间变化系数模型已被提出,用于识别与不良健康结果相关的污染物,无论是在整个区域还是各个子区域128。在过去的几十年中,为了更好地了解暴露于空气污染物导致的肺部损伤的机制,人们进行了许多组学研究,以调查暴露于空气污染对基因组标记物的影响。利用标记物之间依赖性的结构化尖峰-板条先验的多元响应模型已被提出,以识别和估计污染物对DNA甲基化结果的影响117。

在神经科学中,神经影像学研究经常采用功能性磁共振成像(fMRI),这是一种非侵入性技术,通过检测血流变化间接测量神经元活动。这些研究产生了大量的时间序列数据,这些数据来自多个受试者大脑中空间不同的部位。基于任务的实验使用功能性磁共振成像在受试者接受不同外部刺激时动态扫描大脑。数据分析的目标是识别被这些刺激激活的大脑区域。具有空间先验的贝叶斯一般线性模型,允许灵活地建模这些数据中的相关结构,已经成功应用129。在广泛的时空层次模型中,研究了纳入有关大脑结构信息的尖峰-板条变量选择先验,用于检测激活模式130,131。功能性磁共振成像的另一个应用是在大脑连接性研究中,其中数据是在受试者休息时测量的,目的是了解大脑区域如何相互作用。除其他方法外,作为推断有效连接性的一种方式,已经研究了多元向量自回归线性模型。连续收缩先验和结构化尖峰-板条先验构造已被用于选择活动连接132,133。贝叶斯变量选择方法已成功应用于许多其他生物医学数据集,包括纵向数据、功能数据、生存结果数据和病例对照研究。

后验预测检查

一旦获得了特定模型的后验分布,就可以利用这个分布来模拟新的数据,这可能有助于评估模型是否提供了有效的预测,以便将这些预测用于对未来事件的推断。这些模拟可以用于几个目的。它们可以用来检查模型生成的模拟数据是否类似于观察到的数据,通过比较观察到的数据的核密度估计与模拟数据的密度估计57。可以采取更正式的后验预测检查方法,以评估模型是否可以被认为是与数据生成机制很好地拟合57,78,134-136。任何依赖于参数的统计量或差异都可以用于后验预测检查135。这类似于如何使用先验预测检查,但在观察到的和模拟的数据之间的比较上更为严格57。后验预测检查的敏感性很有用,因为如果使用了现实模型,期望值是在长期平均值中很好地校准78。应该谨慎使用后验预测检查的这两种用途;存在过度调整和过度细化模型以适应特定数据集细节的风险。后验预测分布可以进一步用于外推观察数据之外并进行预测,例如对时间序列数据进行外推。基于特定感兴趣模型的后验分布,可以为观察到的和未来的数据模拟后验预测分布,由于累积的不确定性,当它们预测更远的未来时自然变得更加不确定。需要注意的是,在时间模型中,存在一些在空间和/或时间依赖性方面的后验推断挑战,例如参数随时间的自相关52,137-139。

实证示例2:维基百科页面浏览量。为了说明后验预测分布的使用,我们展示第二个示例。假设有兴趣了解一个网页有多少页面浏览量,以及与页面浏览量可能相关的时间相关因素。考虑维基百科上英格兰足球超级联赛(英格兰职业足球联赛的最高级别)的页面浏览量——使用wikipediatrend140 R包获取。脚本可在Open Science Framework141上获得。在prophet143 R包中实现的可分解时间序列模型142,允许估计具有非周期变化、假日效应、每周季节性和年度季节性效应的趋势(见图6)。在这个时间序列中值得注意的效应是围绕8月份赛季开始、5月份赛季结束的兴趣高峰,以及2011年9月29日——威廉王子和凯瑟琳·米德尔顿的婚礼日的下降。此外,圣诞节当天页面浏览量减少,而在节礼日和新年伊始,当在圣诞假期季节进行比赛时,页面浏览量显著增加。该模型是使用2010年1月1日至2018年1月1日期间的观察数据估计的。基于特定模型的后验分布,可以为观察到的和未来的数据模拟后验预测分布(见图6e,f)。通常情况下,模型生成的模拟数据与观察到的时间框架内观察到的数据相似。未来时间点的后验预测分布在更远的未来更加不确定,因为累积的不确定性。请注意,除了可能与2018年7月FIFA世界杯决赛阶段有关的页面浏览量增加外,未来页面浏览量的增加和减少都被准确预测了。

应用

贝叶斯推断已被广泛应用于科学领域的所有方面。虽然这里只描述了一些例子,但还有许多其他应用领域,如哲学、药理学、经济学、物理学、政治科学等。

社会和行为科学

最近的一项系统回顾研究了贝叶斯统计的使用情况,发现社会和行为科学——心理学、社会学和政治科学——在经验贝叶斯工作中经历了增长。

具体来说,在社会和行为科学中,贝叶斯方法的两种平行使用方式越来越受欢迎:理论发展和作为模型估计的工具。

贝叶斯规则已被用作理解推理、决策、认知和心理理论的潜在理论,并在发展心理学及相关领域特别流行。贝叶斯规则被用作幼儿认知发展的一个概念框架,捕捉孩子们如何发展对周围世界的了解。贝叶斯方法论也被讨论用于增强用于学习的算法。Gigerenzer和Hoffrage讨论了使用频率而非概率作为改进贝叶斯推理的方法。在另一篇文章中,Slovic和Lichtenstein讨论了如何使用贝叶斯方法进行判断和决策过程。在社会和行为科学的这一领域,贝叶斯规则被用作发展理论和理解发展过程的重要概念工具。

社会和行为科学是实施贝叶斯推断的绝佳环境。文献中充满了可以用来推导先验分布的信息。在社会科学中常见的复杂建模情况以及小样本情况下,信息性先验是有用的。某些用于探索教育成果和标准化测试的模型,如一些多维项目反应理论模型,使用频率统计是无法解决的,需要使用贝叶斯方法。

自2004年以来,关于贝叶斯统计的出版物数量一直在稳步上升,过去十年中增长更为显著。部分原因是开发了更容易使用的软件,以及专注于针对应用社会和行为科学家的发布教程。对心理学领域贝叶斯方法的系统回顾发现了740篇符合条件的基于回归的文章使用贝叶斯方法。其中,100篇文章(13.5%)是实施贝叶斯方法的教程,另外225篇文章(30.4%)是技术论文或关于贝叶斯统计的评论(Box 4)。方法论家一直在尝试引导应用研究人员在社会和行为科学中使用贝叶斯方法,尽管实施相对缓慢。例如,系统回顾发现只有167篇基于回归的贝叶斯文章(22.6%)是使用人类样本的应用。尽管如此,一些子领域定期发布实施贝叶斯方法的工作。

该领域通过贝叶斯方法获得了许多关于心理和社会行为的有趣见解,而这些工作进行的实质性领域相当多样化。例如,贝叶斯统计有助于揭示抑制渴望在戒烟中的作用147,基于专家意见进行人口预测148,检查与婴儿照顾相关的压力在离婚中的作用149,检查美国总统的意识形态对美国最高法院裁决的影响150,以及预测限制饮食中自由糖摄入量的行为151。这些例子都代表了贝叶斯方法论在文献中以不同方式被捕捉的不同方式。常见的是找到强调贝叶斯规则作为解释发展理论和批判性思维理论的机制的论文144,这些论文是解释性的152,153,专注于贝叶斯推理如何通过使用贝叶斯推断来通知理论154,以及使用贝叶斯建模提取使用频率方法难以得出的发现147。

总的来说,在社会和行为科学领域内,贝叶斯规则得到了广泛的应用。

我们认为,在社会和行为科学中增加使用贝叶斯方法对于提高实质性知识是极大的益处。然而,我们也感到该领域需要继续发展严格的实施和报告标准,以便结果是可复制和透明的。我们相信,在社会科学中实施贝叶斯方法有重要的好处,我们乐观地认为,对报告标准的强烈关注可以使这些方法在获取实质性知识方面发挥最佳作用。

生态学

由于哲学论证,特别是在主观与客观推理方面,以及实际的模型拟合优势,贝叶斯分析在回答生态问题方面的应用变得越来越广泛。这与容易获得的软件(见表2)和许多描述使用这些软件包的贝叶斯生态应用的出版物相结合(见参考文献155-161中的示例)。在生态学中,贝叶斯哲学在许多方面都是有吸引力的,因为它允许在严格框架内纳入外部的、独立的先验信息,无论是来自同一/类似物种的先前研究还是对生物过程的固有知识。此外,贝叶斯方法还允许对感兴趣的参数进行直接的概率陈述,如存活概率、繁殖率、种群大小和未来预测157,以及计算竞争模型的相对概率——例如,密度依赖性或环境因素在推动生态系统动态中的存在或缺失——这反过来又允许模型平均估计,结合了参数和模型的不确定性。提供概率陈述的能力在野生动物管理和保护方面特别有用。例如,King等人165提供了与给定时间段内种群下降水平相关的概率陈述,这反过来又提供了与物种保护状况相关的概率。

贝叶斯方法也常常因实用原因应用于生态学研究。许多生态模型都很复杂——例如,它们可能是时空性质的、高维的和/或涉及多个相互作用的生物过程——导致计算成本高昂的可能性,评估速度慢。不完美或有限的数据收集过程经常导致缺失数据和相关的复杂可能性。在这种情况下,标准的贝叶斯模型拟合工具,如数据增强,可能允许拟合模型,而在替代的频率框架中,可能需要额外的模型简化或近似。贝叶斯统计在生态学中的应用非常广泛,涵盖了从个体生物水平到生态系统水平的各种时空尺度,包括理解给定系统的种群动态166、建模空间点模式数据167、研究种群遗传学、估计丰度168和评估保护管理169。

生态数据收集过程通常来自观察性研究,其中使用某些数据调查协议从感兴趣的种群中观察样本。调查应该经过仔细设计,考虑到感兴趣的生态问题,并最小化拟合数据所需的模型复杂性,以提供可靠的推断。尽管如此,由于数据收集问题,如设备故障或恶劣天气条件,仍可能出现相关的模型拟合挑战。一些数据调查中也可能存在固有的数据收集问题,例如无法记录个体级别的信息。这些模型拟合挑战可能包括——但远远不限于——由于设备故障或实验设计导致的时间上不规则的观察,由于不完美的数据观察导致的测量误差,从个体级别到全球环境级别不同层次的缺失信息,以及与多尺度研究相关的挑战,其中数据的不同方面以不同的时间尺度记录——例如,从个体的每小时位置数据到每日和每月的环境数据收集。出现的数据复杂性,结合相关的建模选择,可能导致一系列模型拟合挑战,这些挑战通常可以使用贝叶斯范式内的标准技术来解决。

对于一个特定的生态学研究,分离出作用于生态系统的各个独立过程是一种简化模型规范的有吸引力的机制166。例如,状态空间模型提供了一个通用且灵活的建模框架,描述了两种不同的过程:系统过程和观测过程。系统过程描述了系统的真正潜在状态以及这种状态随时间的变化。这种状态可能是单变量或多变量的,例如种群大小或位置数据。系统过程还可能描述作用于系统上的多个过程,如出生、繁殖、扩散和死亡。我们通常无法在没有一些相关误差的情况下观察到这些真正的潜在系统状态,而观测过程描述了观测数据如何与真正的未知状态相关。这些一般的状态空间模型涵盖许多应用,包括动物运动170、种群计数数据171、捕获-重捕型数据165、渔业资源评估172和生物多样性173。有关这些主题的综述以及进一步的应用,请参考其他文献166,174,175。

贝叶斯模型拟合工具,如带有数据增强的MCMC176、顺序蒙特卡罗或粒子MCMC177-179,允许将一般状态空间模型拟合到观测数据上,而无需指定进一步的限制——例如分布假设——在模型规范上,或者进行额外的可能性近似。

随着技术的进步,数据收集过程不断发展。例如,GPS地理定位标签及其附加的加速度计、遥感、无人机用于局部航空摄影、水下无人车辆和运动感应相机陷阱在生态研究中越来越广泛地使用。这些技术设备的使用以及众包科学的增长导致了大量收集的新形式数据和相关的模型拟合挑战,为贝叶斯分析提供了肥沃的土壤。

遗传学

遗传学和基因组学研究广泛使用了贝叶斯方法。在全基因组关联研究中,贝叶斯方法为评估人群中遗传变异与感兴趣的表型之间的关联提供了强大的替代频繁方法180。这些包括纳入遗传混合的统计模型181、精细定位以识别因果遗传变异182、使用参考人群对未直接测量的遗传标记进行插补183以及元分析以跨研究组合信息。这些应用进一步从使用边缘化中受益,以在得出推断时考虑建模不确定性。最近,像英国生物银行184这样的大型队列研究扩大了识别遗传与复杂(子)表型关联的方法学要求,通过整合遗传信息以及包括成像、生活方式和常规收集的健康数据在内的异构数据集。

一种称为TreeWAS185的贝叶斯分析框架已将遗传关联方法扩展,允许纳入树状疾病诊断分类,通过建模遗传效应在观察到的临床表型间的相关结构。这种方法纳入了可以从诊断分类树中得出的表型关系的先验知识,例如来自最新版本的国际疾病分类(ICD-10)的信息。

多组学数据集中多种分子数据类型的可用性也吸引了贝叶斯解决方案来解决多模态数据整合的问题。贝叶斯潜变量模型可以用作无监督学习方法,以识别对应于不同分子尺度上已知或以前未表征的生物过程的潜在结构。多组学因子分析186使用贝叶斯线性因子模型来解开多个数据模态中常见的异质性来源与仅特定于单一数据模态的模式。

近年来,高通量分子分析技术已经发展到允许常规多组学分析单个细胞187。这导致了开发许多新方法来建模单细胞测量噪声、细胞间异质性、高维度、大样本量和来自例如基因组编辑的干预效应188。细胞异质性自然适合于贝叶斯层次建模和正式不确定性传播和量化,由于组织特异性活动、给定组织内异质的细胞表型以及单细胞水平上的随机分子表达引起的变异层。

在综合贝叶斯层次模型BASiCS189中,这种方法被用来考虑细胞特异性归一化常数和技术变异,将总基因表达变异分解为技术和生物组分。

深度神经网络(DNN)也被用来在单细胞组学的层次模型中指定灵活的非线性条件依赖性。SAVER-X190将贝叶斯层次模型与可预训练的深度自编码器结合起来,提取跨不同实验室的数据集、可变实验条件和不同物种的可转移基因-基因关系,以去噪新目标数据集。在scVI191中,层次建模被用来汇集相似细胞和基因的信息,以学习观察表达值的分布模型。SAVER-X和scVI都使用小批量随机梯度下降进行近似贝叶斯推断,后者在变分设置中——这是DNN中的标准技术——允许这些模型适合数十万甚至数百万的细胞。

贝叶斯方法也在大规模癌症基因组数据集192中广受欢迎,并能够采用数据驱动方法来识别驱动癌症启动和进展的新型分子变化。贝叶斯网络模型193已开发出来,以识别突变基因之间的相互作用,并捕获突出关键遗传相互作用的突变特征,这些相互作用可能允许在临床试验和个性化治疗中进行基于基因组的患者分层。贝叶斯方法在回答有关癌症进化过程的问题方面也很重要。几种贝叶斯方法用于异质性癌症的系统发育分析,通过分析单细胞和大量组织测序数据,使肿瘤中可能存在的不同亚群及其祖先关系得以识别194。因此,这些模型因此考虑了通过考虑亚群的数量和身份以及派生系统发育树来学习混合模型和图推断的联合问题。

可复制性和数据存储

适当报告统计数据,包括共享数据和脚本,是研究验证和可复制性的关键要素195。图7展示了一个包含良好研究实践的工作流程,这些实践鼓励贝叶斯研究周期中的可复制性。我们展示了贝叶斯研究周期(图1)和WAMBS(何时担忧以及如何避免滥用贝叶斯统计)清单48,81在研究透明度更广泛背景中的适用性,并提供了WAMBS清单的更新版本(方框5)。在这一部分,我们强调了可复制性和数据及脚本存储的一些重要方面。

允许他人通过透明报告以及提供代码和数据来评估研究中使用的统计方法和基础数据,可以帮助解释研究结果,评估所使用的参数的适用性,以及发现和修复错误。报告实践在各个领域甚至各个领域内的期刊中尚未一致。

一项关于心理学中贝叶斯统计的系统回顾4发现,在社会科学中报告实践和标准存在巨大差异;例如,在心理学中使用人类样本的167篇基于回归的贝叶斯文章中,31%没有提及实施的先验,43.1%没有报告链收敛情况,只有40%实施信息性先验的人进行了敏感性分析。我们认为这是在社会和行为科学以及其他研究领域内实施贝叶斯统计的一个主要障碍。

对于任何贝叶斯论文,不报告任何关于先验的信息都是有问题的。天真地使用先验存在许多危险,我们认为,如果可能的话,可能希望预先注册先验和似然的规范。此外,先验对最终模型估计的影响可能容易被忽视——研究人员可能用某些先验估计模型,并且不知道使用相同的模型和数据使用不同的先验可能导致实质上不同的结果。在这两种情况下,结果看起来可能完全可行,马尔可夫链看起来已经收敛,后验看起来适当且具有信息性。如果不通过敏感性分析和先验预测检查检查先验的影响,研究人员将不会意识到结果对先验变化的敏感性。考虑在图3中错误指定的博士延迟示例中βage的先验方差,使用精度而不是方差。

为了实现可复制性并允许他人使用不同的参数、先验、模型或似然函数对相同数据运行贝叶斯统计进行敏感性分析49,重要的是基础数据和使用的代码得到适当的记录和共享,遵循FAIR原则196,197:可发现性、可访问性、互操作性和可重用性。最好,在可信的存储库(研究数据存储库注册表)中共享数据和代码,并使用自己的持久标识符(如DOI),并使用描述数据集或代码库的元数据进行标记。

这还允许数据集和代码被视为单独的研究产出,并允许他人相应地引用它们198。存储库可以是通用的,如Zenodo;特定于语言的,如用于R包的CRAN和用于Python代码的PyPI;或特定于领域的198。由于数据和代码需要不同的许可选项和元数据,数据通常最好存储在专用的数据存储库中,这些存储库可以是通用的或特定于学科的199。一些期刊,如Scientific Data,有自己的推荐数据存储库列表。为了使研究人员存储数据和代码更加容易,两个存储库(Zenodo和Dryad)正在探索合作,允许通过一个界面存储代码和数据,数据存储在Dryad中,代码存储在Zenodo中200。许多科学期刊遵循透明度和开放促进指南201,这些指南规定了代码和数据共享的要求。

验证和可复制性需要访问贝叶斯建模中使用的数据和代码,理想情况下是在代码运行的原始环境中复制,所有依赖项要么在随代码附带的依赖文件中记录,要么通过创建一个提供运行代码的虚拟环境的静态容器镜像199。应尽可能使用开源软件,因为开源降低了复制科学结果的货币和可访问性门槛。此外,可以说闭源软件隐藏了学术过程的一部分,包括使用该软件的研究人员自己。然而,只有当开源软件具有适当的文档时,它才真正可访问,其中包括在Readme文件中列出依赖项和配置说明,对代码进行注释以解释功能,并在发布包时包括一份全面的参考手册。

限制和优化

贝叶斯推断的优化是有条件的,它基于假定的模型。贝叶斯后验概率被校准为长期平均值,如果参数是从先验分布中抽取的,并且数据是从给定这些参数的数据模型中抽取的。当在生成模型上平均时,具有特定概率的事件在长期内以该频率发生。实际上,我们的模型从来都不是完全正确的。我们有两种方式来克服这个限制:通过识别并修复模型中的问题;以及通过证明某些推断对于模型的合理偏差是稳健的。

即使是最简单和最被接受的贝叶斯推断也可能存在严重的局限性。例如,假设进行了一个实验,得到了一个代表某种治疗效果的参数θ的无偏估计z。如果这个估计z呈正态分布,标准误差为s,我们可以写成,这是一个由其位置和尺度参数参数化的正态分布。假设θ有一个平坦的均匀先验分布,那么后验分布就是。

现在假设我们观察到z=s;也就是说,θ的估计值是一个标准误差远离零。这将被认为是统计上与噪声无法区分的,在这种意义上,即使真实参数值为零,这样的估计也可能偶然发生。但是贝叶斯计算给出了后验概率Pr(θ>0|z)=0.84。

这使得概率的校准成为问题(校准的推断或预测在平均上是正确的,条件是预测)。在这个例子中,如果你在先验上平均,概率是校准的。在无限范围内对均匀分布进行平均在数学上是不可能的,但我们可以考虑一个非常分散的先验,例如,我们假设s大致在单位尺度上,即是一个无维参数,预期其绝对值不会远离一。在这个模型下,当观察到z等于s时,参数θ大约有84%的时间是正的。84%的概率看起来不正确的原因是,均匀或非常分散的先验通常看起来不合适。在实践中,研究被设计来以合理的精度估计治疗效果。真实的效果可能是0的1或2个标准误差,但它们很少是5、10或100个标准误差远离0。在这个例子中,如果按字面意思理解,贝叶斯推断会导致过度确定性:84%的后验概率。然而,积极看待这个问题的方式是,后验的明显问题使我们认识到我们没有包含在我们的模型中的先前信息,在这个案例中,是不太可能看到非常大的θ值的先前信息。此外,像这样的弱信息先验对后验没有大的影响,因为那时后验成为正态分布:

因此,Pr(θ>0|z)=0.76,与我们之前例子中的0.84相比。最终,只有强烈的先验才会产生很大的差异。只有当在真实的先验或参数的总体分布上平均时,贝叶斯概率才会被校准。这个例子中重要的不是具体的数字,这将取决于上下文,而是任何统计方法都应该在其将被应用的问题范围内进行评估的想法。

更广泛地说,可以通过将后验预测模拟与数据进行比较以及估计样本外预测误差来检查贝叶斯模型。强先验分布的好处在于,它将参数限制在合理的值内,允许包含更多的数据,同时避免过度拟合。更多的数据可以来自各种来源,包括额外的数据点、现有数据的额外测量以及总结其他数据或理论的先验信息。所有方法,无论是贝叶斯还是其他方法,都需要主观解释以讲述一个合理的故事,所有模型都来自研究者的决定。任何模型的选择都有其含义;平坦的先验是弱的,没有对估计值进行收缩,但可能导致对θ的强烈,可能不适当的确定性水平。

展望

贝叶斯统计在各个学科中的广泛采用证明了贝叶斯范式在严格和一致的概率框架内构建强大和灵活的统计模型的强大力量。现代贝叶斯从业者可以访问丰富的知识和技术,这些知识和技术允许为特定问题创建定制模型和计算方法。概率编程语言,如Stan,可以为许多应用减少许多实现细节,允许重点保持在建模和设计的基本原理上。

贝叶斯统计面临的一个持续挑战是日益复杂的现实世界应用所带来的不断增长的需求,这些应用通常与大型数据集和模型规范的不确定性等问题相关。所有这些都发生在计算硬件的快速发展、新型软件开发方法的出现以及数据科学的发展背景下,这吸引了比以往任何时候都更大和更多样化的科学受众。近年来,将人工智能一词的修订和普及,以包含包括统计学和计算在内的广泛思想,模糊了这些学科之间的传统界限。这在推广概率建模和贝叶斯概念方面取得了巨大成功,超出了它们在统计学中的传统根源,但也看到了贝叶斯推断的执行方式的转变,以及关于贝叶斯方法如何能够继续处于人工智能研究创新前沿的新问题。

由于需要支持涉及日益增长的数据集维度和样本数量的大规模应用,贝叶斯概念已经利用了以深度学习为中心的新技术的增长。这包括深度学习编程框架(TensorFlow、PyTorch),这些框架简化了DNN的使用,允许构建更具表现力的、数据驱动的模型,这些模型立即适用于使用现成的优化算法和最先进的硬件的推断技术。除了提供强大的工具来指定灵活和模块化的生成模型外,DNN还被用于开发新的近似推断方法,并激发了一个新的贝叶斯实践范式,该范式看到统计建模和计算在其核心的整合。

一个典型的例子是变分自编码器,它已成功用于各种应用,包括单细胞基因组学,提供了一个导致许多扩展的通用建模框架,包括潜在因素的解耦。底层的统计模型是一个简单的贝叶斯层次潜在变量模型,该模型将高维观测映射到通过DNN定义的函数假定为正态分布的低维潜在变量。变分推断用于近似潜在变量的后验分布。然而,在标准变分推断中,我们将为每个潜在变量引入一个局部变分参数,这种情况下计算需求将与数据样本的数量成线性关系。变分自编码器使用一种称为摊销的进一步近似过程,用一组单一的全局参数替换对许多个体变分参数的推断——称为识别网络——这些参数用于参数化一个DNN,该DNN输出每个数据点的局部变分参数。

值得注意的是,当模型和推断结合在一起并共同解释时,变分自编码器具有优雅的编码-解码算法解释:它由一个概率编码器组成——一个将每个观测映射到潜在空间中的分布的DNN,以及一个概率解码器——一个补充的DNN,将潜在空间中的每个点映射到观测空间中的分布。因此,模型规范和推断在变分自编码器内变得纠缠不清,展示了贝叶斯建模和算法深度学习技术之间日益模糊的界限。其他近期的例子包括使用DNN构建定义可能函数上分布的概率模型,通过应用一系列可逆变换构建复杂的概率分布,以及定义可交换序列数据的模型。

DNN的表达能力和它们在模型构建和推断算法中的效用伴随着需要贝叶斯研究的妥协。模型和推断相互纠缠的趋势为大规模数据问题推广了这些技术;然而,基本的贝叶斯概念仍需完全融入这一范式。整合、模型平均决策理论方法依赖于精确的后验特征描述,由于高维神经网络参数空间带来的挑战,这仍然是难以捉摸的。尽管贝叶斯神经网络学习方法已经存在了几十年,但需要进一步研究涉及复杂网络结构的现代贝叶斯深度学习模型的先验规范,以了解先验如何转化为特定的功能属性。

人工智能领域最近的辩论质疑了贝叶斯方法的要求,并强调了潜在的替代方案。例如,深度集成已被证明是处理模型不确定性的贝叶斯方法的替代品。然而,最近的研究表明,深度集成实际上可以被重新解释为近似贝叶斯模型平均。同样,dropout是一种在DNN训练中流行的正则化方法,通过在网络训练期间随机丢弃节点来提高鲁棒性。Dropout已被经验证明可以提高泛化能力并减少过拟合。Dropout的贝叶斯解释已经出现,将其与概率深度高斯过程的贝叶斯近似形式联系起来。尽管贝叶斯原则的全部范围尚未推广到人工智能的所有最新发展,但贝叶斯思维深深植根并至关重要,对许多创新的出现都是成功的。下一个十年肯定会为贝叶斯智能带来一波新的激动人心的创新发展。

原文链接:https://files.ca-1.osf.io/v1/resources/ej8vm/providers/osfstorage/6040626a44157503d8584fcb?action=download&direct&version=1