On robust Bayesian causal inference
论鲁棒贝叶斯因果推理
https://arxiv.org/pdf/2511.13895v1
摘要
本文构建了一个用于从纵向观察数据中进行稳健因果推断的贝叶斯框架。许多当代方法依赖于结构假设(例如因子模型)以调整未观测混杂,但当这些假设被错误设定时,可能导致有偏的因果估计量。我们聚焦于直接估计特定时间单元的因果效应,并采用广义贝叶斯推断来量化模型误设并对其进行调整,同时保留可解释的后验推断。我们基于一个恰当的评分规则来选择学习率 ω,该评分规则联合评估因果估计量的点估计精度与区间精度,从而为调节 ω 提供了一个连贯的、基于决策理论的基础。模拟研究与真实数据应用表明,该方法在因果效应估计中展现出更优的校准性、锐度与稳健性。
关键词:因果推理,模型误设,贝叶斯,稳健
1 引言
问题设定 本文关注对模型误设具有稳健性的因果推断。我们提出一种贝叶斯方法,用于解决因使用错误模型而可能需要进行校正这一普遍统计问题,并将该方法应用于因果推断。我们的主要焦点在于基于多单元时间序列观察数据进行稳健的因果推断。此类数据在许多科学领域中十分常见,因为在这些领域中随机化实验往往不可行。我们建议采取以下策略:(i) 从当前被认为解决该问题的最先进模型出发;(ii) 允许该模型存在错误设定;(iii) 通过聚焦于恰当的可估量(estimand)来理解误设程度;(iv) 推导经过适当校正的因果效应。尽管模型误设在因果推断中普遍存在,但此类情境下的推断本质上是一个普遍的统计问题,例如在变分贝叶斯或复合似然方法中因计算原因而采用近似时亦会出现类似问题。
近期的因果推断方法通过诸如因子模型等数据生成过程来调整未观测的异质性与混杂因素,参见 Athey 等 [2021] 与 Xu [2017]。Whiteley 等 [2025] 提出将此类模型(在变换意义下)作为一般数据生成过程的建模范式。尽管此类模型看似合理的基线设定,但由于缺失混杂变量、潜在因子数量设定错误或不必要的线性假设等问题,它们仍可能面临误设风险。此类误设可能导致有偏或误导性的因果估计结果。
方法论途径 本文将关注的可估量设定为因果效应,并旨在理解模型误设对估计该因果效应准确性的影响程度。我们聚焦于因子分析类模型,此类模型在评估现实世界干预措施时被广泛使用,同时仍可调整已知混杂因素。我们采用广义贝叶斯推断范式,以损失函数替代似然函数,同时保留贝叶斯更新机制并获得(通常是非对称的,参见 Claxton 等 [2015])决策空间中的后验分布。估计准确性通过校准性(calibration)与锐度(sharpness)进行评估。需注意,聚焦式推断在统计学中并非新概念(如 Claeskens 与 Hjort [2003]),但其在广义/稳健贝叶斯分析中具有核心地位,参见 Bissiri 等 [2016] 与 Fong 等 [2024]。我们通过恰当评分规则(proper scoring rule)选择学习率 ω,该规则联合量化因果可估量的后验均值与可信区间的准确性。评分规则的恰当性意味着其倾向于选择在真实数据生成过程中具有良好校准性的后验摘要,从而为调节 ω 提供透明且理论适宜的准则。该方法使 ω 的选择直接与推断准确性对齐,而非基于预测性能或边缘似然等目标。
所提方法具有若干优势。它通过自适应调整先验与似然两个模型组分的影响,实现对模型误设稳健的因果学习。它基于模型误设程度引入(半)自动的偏差与方差校正。具体而言,后验行为可自适应地:(i) 在不确定性较高时向先验偏移,或 (ii) 在适当时更紧密地集中于数据。尽管本方法由因子模型所启发,但其广泛适用于多种因果模型及其他不完美似然设定。
实验 本方法在两类模拟设定中进行研究。首先,在线性类模型中,我们发现当模型设定正确时,本方法自然退化为标准贝叶斯推断,并在面临不同类型模型误设时作出恰当自适应。第二类模拟实验聚焦于因子模型,我们同样观察到选择最优学习率确实能够实现因果处理效应在位置与尺度上的适当校正。总体而言,我们证明了所提方法相较于现有替代方案具有更强的稳健性与改进效果。
我们使用三个真实世界的面板数据集对所提出的稳健贝叶斯因果推断(Robust Bayesian Causal Inference, RBCI)框架进行评估。首先,我们重新审视加州烟草控制计划——合成控制法评估中的基准案例 [Abadie 等, 2010]。其次,我们分析一项空间定向产业政策对法国地区就业的影响 [Gobillon 与 Magnac, 2016]。第三,我们研究希腊能源市场中由公共收入独立管理局(IAPR)引入的数字税收执法干预措施。在所有应用中,我们与最先进的矩阵补全方法进行比较,发现考虑模型误设可带来更准确的因果估计以及显著改进的不确定性量化。
1.1 与相关文献的联系
关于在一般推断设定中处理模型误设的文献极为丰富,可追溯至 Huber [1967] 的工作,其中 White [1982] 的研究尤为著名:他证明在误设模型中,最大似然估计量的渐近分布为高斯分布,其协方差矩阵为“三明治”形式,且中心位于使 Kullback–Leibler 散度最小化的伪真参数值。Muller [2013] 研究了误设参数模型中后验的渐近行为,并证明其通常具有更低的渐近频率学风险。
在因果推断文献中,处理模型误设的常见方式是通过倾向得分(propensity score),参见 Rosenbaum 与 Rubin [1983]。该方法本质上在结果回归模型正确设定之外,提供了另一种获得一致性的途径——即当倾向得分模型设定正确时,由此引出“双重稳健”(doubly robust)这一术语。Robins 及其同事发展了基于逆概率加权的因果推断通用框架,通常称为 G-估计;Hernan 与 Robins [2020] 提供了详细阐述。
从贝叶斯视角出发,倾向得分方法曾受到批评,被认为是一种不自然的数据生成机制刻画方式 [Li 等, 2023]。Stephens 等 [2023] 对贝叶斯因果推断方法进行了出色综述,阐释了将倾向得分纳入贝叶斯推断的困难。该文涵盖了文献中为规避此类问题而发展的若干方法(对贝叶斯学者而言看似不自然),包括切断反馈(cutting feedback)与两阶段推断。作者继而发展了一种决策论方法,将倾向得分纳入基于狄利克雷过程的贝叶斯非参数框架并结合贝叶斯自助法。Antonelli 等 [2022] 发展了一种具有优良频率学性质的贝叶斯双重稳健估计方法,同时估计倾向得分与结果模型。Ray 与 Van de Vaart [2020] 提出对倾向得分进行非参数建模,并证明标准高斯过程先验满足半参数型伯恩斯坦–冯·米塞斯定理。贝叶斯因果推断的应用可见于众多不同领域,包括算法决策(如 Jia 等 [2025] 与 Imai 等 [2023])。
另一条富有成果的平行研究脉络(主要为非贝叶斯方法)可见于(生物)统计学、机器学习与计量经济学的交叉领域,例如 Chernozhukov 等 [2018] 与 Lewis 与 Syrgkanis [2021]。近期研究包括 Dorn 等 [2025]、Ghosh 与 Rothenhäusler [2025](提出平均处理效应(ATE)的稳健置信区间)、Jin 与 Syrgkanis [2025](证明广泛使用的双重稳健估计量对 ATE 与处理组平均处理效应(ATT)均具有最优性),以及 Bruns-Smith 等 [2025](证明一类称为增强平衡权重的双重稳健估计量可直接实现协变量平衡,而非通过倾向得分求逆),另见 Resa 与 Zubizarreta [2020]。
我们的方法大致遵循一条不同的研究脉络,其起源于旨在实现稳健性(半参数类型)、贝叶斯性且不依赖常规狄利克雷过程或高斯过程的贝叶斯方法。早期范例可见于 Seaman 与 Richardson [2004] 与 Rice [2008],而 Bissiri 等 [2016] 发展了一般性框架,我们将在第 2 节详述。该方法允许模型误设存在,其误设程度可通过多种方式估计:Lyddon 等 [2019] 通过将协方差矩阵匹配至其渐近极限进行估计,Syring 与 Martin [2019] 通过校准可信区间覆盖率进行估计,另见 Holmes 与 Walker [2017]。McLatchie 等 [2025] 研究了此类方法的预测性能。我们的方法可视为这些方法的替代方案,因为我们关注非渐近视角,并旨在理解模型误设程度如何影响特定任务——即对所关注因果可估量的估计。
论文结构 本文其余部分组织如下:第 2 节描述方法论部分,第 3 节阐述因果学习的具体设定,第 4 节包含展示所提方法稳健性与准确性的模拟实验,第 5 节呈现三个真实世界应用,第 6 节为讨论与结论。
2 稳健贝叶斯因果推断
本节介绍了我们的RBCI框架以及选择学习率ω的建议标准。该方法结合了广义贝叶斯推断(允许潜在的模型误设)与一种恰当评分规则(旨在评估因果可估量的后验准确性)。该评分规则针对应用因果推断中最相关的两个方面——后验均值的偏差和可信区间的校准——并为选择确保良好校准和锐利后验推断的ω提供了决策理论基础。
2.1 广义贝叶斯推断
广义贝叶斯推断框架为经典贝叶斯更新提供了一个多功能的扩展,适用于假设模型(和似然)可能被误设的情况。在标准贝叶斯范式中,后验推断依赖于正确指定的似然函数p(y₁:ₙ | θ)来在观察到数据y₁:ₙ后更新关于参数θ的先验信念。当该似然函数不正确——这在具有复杂观察数据的因果推断中普遍存在——所得到的后验分布可能是有偏的或误导性的。广义贝叶斯推断用一个适当选择的损失函数L(θ, y₁:ₙ)替代似然函数,该损失函数衡量模型预测与观察数据之间的差异[Bissiri等,2016]。由此产生的后验分布,通常称为Gibbs后验分布,定义为
其中 π(θ) 表示先验分布,而 ω > 0 是一个学习率参数,用于控制损失函数相对于先验的权重。
该公式保留了用于不确定性量化和决策的贝叶斯机制,但放宽了对完全指定生成模型的需求。具体而言,损失函数 L 的选择使分析者能够针对模型的特定方面进行调整,例如特定可估量的拟合情况,而 ω 则作为调优(超)参数,以缓解模型误设的影响。在模型设定正确的情况下,ω = 1 恢复标准的贝叶斯后验分布;而在模型误设的情况下,ω 的其他取值可产生校准性更好或更锐利的后验分布 [Syring and Martin, 2019]。在下一小节中,我们将描述如何将此框架用于因果推断。
2.2 一种稳健的贝叶斯因果推断方法
从观察数据进行因果推断涉及在存在混杂因素及其他复杂性的情况下,估计因果可估量,例如平均处理效应或特定单元的干预效应。现有贝叶斯方法通常通过指定数据生成模型,并在假设该模型正确的前提下进行后验推断,例如参见 [Saarela et al., 2016]。然而,与假设模型的偏差——例如未测量的混杂因素或遗漏的动态过程——可能导致最终因果估计出现偏差。
我们旨在通过以下方式解决此类误设问题:(i) 从一个可合理视为最先进水平的模型出发;(ii) 使用广义贝叶斯推断以允许该模型存在错误;(iii) 通过聚焦于因果可估量 τ 本身来评估误设程度;(iv) 推导适当校正的因果效应。本质上,我们并未尝试完全恢复数据生成机制并将 τ 作为副产品进行估计,而是采取一种相对不那么雄心勃勃的方法,旨在直接校准 τ 的后验分布,使用针对因果估计准确性的定制损失函数。这种焦点转变——从正确模型转向稳健可估量学习——是广义贝叶斯方法的核心特征,我们认为其适用于因果推断。
2.2.1 选择损失函数
由于我们的目标是理解模型误设的程度,我们选择一种基于模型的损失函数类型,该类型涵盖参数模型并能够纳入协变量。一种自然的方法是将所选基线模型的负对数似然作为损失函数,并通过学习率 ω 进行缩放,从而得到幂后验分布(或调整后的似然)。因此,我们的主要公式对应为:
由此得到式 (1) 中的 Gibbs 后验分布。该选择保持了可解释性,因为当 ω = 1 时,它退化为标准贝叶斯推断,并允许稳健适应;当 ω < 1 时,后验分布会扩大不确定性以应对潜在的模型误设;而当 ω > 1 时,则会使后验分布更紧密地围绕数据。损失函数的选择是问题特定的,实际上由该问题的最先进模型状态所决定。
学习率 ω 本质上是一个超参数,可能无法直接由数据自然估计,下一小节将讨论其选择问题。
2.2.2 估计最优学习率
因此,在真实数据生成过程中,当后验分布报告了 τ 的正确均值与中心 (1−α) 区间时,该评分规则在期望意义下达到最小值。该规则对于完整的预测分布而言并非严格恰当(strictly proper),因为具有相同均值与中心区间的不同后验分布可能获得相同的期望得分。在我们的设定中,这已足够,因为我们关注的重点在于因果效应的准确点估计与良好校准的区间,而非完整的分布刻画。因此,采用恰当而非严格恰当的评分规则并不会损害我们评估准则的有效性。若希望对完整预测分布施加严格恰当性,可将 S ( F Π ω , τ ) τ 替换或补充为严格恰当的评分规则,例如连续秩概率评分(continuous ranked probability score, CRPS);相关讨论见附录。
3 因果推断
3.1 横截面数据:基于回归的方法
当数据由单一时间点的独立观测值组成(横截面数据)时,因果效应通常通过结果回归模型或倾向得分方法进行估计。一种常见方法是设定线性回归模型:
3.2 面板数据:潜在因子与合成控制模型
在许多实际应用中,干预措施在不同单元之间于不同时点引入,这种情况被称为错位采用(staggered adoption)。将潜在结果框架 [Rubin, 1974] 扩展至纵向数据,我们对每个单元 i i 和时间点 t t 分别定义在处理和对照条件下的潜在结果 Y i t ( 1 )
和 Y i t ( 0 )
。在单元-时间层面,我们关注的因果效应为
3.3 基线似然与估计方法
横截面和面板数据通常通过频率学方法、机器学习方法和贝叶斯方法进行广泛分析。在横截面设定中,因果效应通常在条件无混杂假设下通过回归或倾向得分方法进行估计 [Hogan and Lancaster, 2004, Seaman and Vansteelandt, 2018, Abadie et al., 2024]。灵活的机器学习方法 [Athey and Wager, 2019, Van der Laan et al., 2011] 放松了函数形式假设,但通常提供的不确定性量化较弱。
贝叶斯方法提供了一致的不确定性评估,且特别适用于包含潜在混杂在内的复杂数据结构。然而,对模型误设的稳健性在此类文献中受到的关注较少,一些显著的例外包括BART [Hill et al., 2020] 和贝叶斯双重稳健估计量 [Saarela et al., 2016]。这促使我们设计一种广义贝叶斯方法,即使在结果模型不完美时也能保持可靠性。
3.3.1 横截面研究中的贝叶斯估计
3.3.2 面板数据估计
4 模拟研究
我们现在通过设计用于模拟典型因果推断场景的模拟实验,来展示所提方法的性能。目标是探究所提方法在不同模型误设水平下的表现,并评估学习率 ω 在横截面回归与面板数据因子模型两种场景中的影响。先验设定与贝叶斯计算的细节参见补充材料。
4.1 模拟实验 I:横截面回归
我们在不同 ω 值下计算 τ 的后验密度,并评估式 (2) 中的评分函数。图 2 展示了两个关键发现。首先,在左侧面板中可以清楚地看到,随着模型误设程度的增加,S(FΠω, τ) 的最小化点系统性地移动。当遗漏的混杂因素较弱(γ 较小)时,评分在 ω = 1 附近最小化,这对应于标准贝叶斯更新,并表明工作模型大致正确。然而,随着混杂强度的增加,最优 ω 值降至 1 以下,降低了似然的权重并有效扩大了后验不确定性。这种行为说明了我们的框架如何适应模型误设:不是过度自信地依赖误设的似然,而是自动减少数据的影响并产生更保守的推断。其次,右侧面板显示这种自适应缩放对处理效应推断具有实质性的好处。在模型误设下,βD 的后验分布变得更宽,并且也向真实值移动,适当地纠正了因忽略潜在混杂因素而产生的偏差。这种方差膨胀和位置调整的结合导致具有更好覆盖特性的可信区间和更可靠的因果结论。总体而言,这些结果突显了所提方法的关键优势:通过将 ω 校准到因果效应,广义后验向数据生成过程移动,从而在不需要显式模型校正或复杂结构假设的情况下实现对模型误设的稳健性。
4.2 模拟实验 II:面板数据和潜在因子模型
我们的第二次模拟考察了具有潜在混杂的错位采用面板数据设定。我们生成一个 T × N 的面板数据,其中 N = 30 个单元在 T = 100 个时间周期内被观测。对于每个单元 i,我们从 {40,…,95} 上的离散均匀分布中抽取处理开始时间 Ti,从而产生异质的处理后窗口。观测结果根据以下公式生成:
5 实际数据分析
我们在三个真实世界面板数据集上评估所提出RBCI框架的性能。在每种情况下,我们采用与第4节类似的交叉验证设计,其中通过预测从未接受处理的对照组随机掩蔽结果来选择超参数,并使用保留干预后结果的伪处理单元评估预测因果准确性。完整数据集描述和汇总统计信息见补充材料。第一个应用重新审视著名的加利福尼亚吸烟干预措施,这是合成控制和矩阵补全方法的基准场景[Abadie et al., 2010, Athey et al., 2021]。第二个研究法国在空间定向产业政策后的区域就业结果[Gobillon and Magnac, 2016]。第三个评估希腊IAPR在能源市场引入的数字税收执法干预措施。在所有三项研究中,我们将RBCI与最先进的矩阵补全方法[Xu, 2017, Athey et al., 2021]进行比较,重点关注潜在因子设定错误下的处理效应估计和不确定性量化。
5.1 加利福尼亚吸烟干预
我们首先从Abadie等[2010]分析的加利福尼亚烟草控制计划开始。该数据集包含39个美国州31年(1970–2000)的年度香烟消费量,其中加利福尼亚州自1989年起作为唯一接受处理的州。遵循Athey等[2021]的做法,我们将其余N = 38个州视为潜在对照组。我们评估了与gsynth[Xu, 2017]中实现的矩阵补全相比的因果点估计和不确定性量化。
我们RBCI框架中的超参数通过最小化一个局部预测评分规则来选择,该规则结合了单位-时间特定的平方偏差和区间得分。为此,我们随机掩蔽从未接受处理的州中20%的结果,并在这些保留单元上评估预测,以实现无偏的样本外验证。选定的配置(K* = 2,ω̂ = 0.5)反映了潜在因子结构的程度和结构设定错误的程度:ω̂ < 1表明标准贝叶斯更新会过于自信,而似然加权能产生校准更好的不确定性。为评估因果预测性能,我们采用安慰剂策略:掩蔽15%州的1989年后结果,并将其视为伪处理。我们的方法和矩阵补全均拟合未掩蔽面板,然后严格在这些掩蔽的安慰剂结果上进行评估,将其视为真实值。完整细节见补充材料。
图5总结了干预后的预测准确性。左侧面板显示了每个干预后年份在伪处理单元上平均计算的时间-单位特定平方偏差。此外,右侧面板报告了95%预测区间的区间得分,联合量化了尖锐性和校准性。我们的方法在大多数干预后年份实现了系统性更低的平方偏差,同时区间得分更小,意味着比矩阵补全更准确、更高效的不确定性量化。这些优势源于适应潜在因子设定错误的加权似然,从而产生改进的时间-单位层面因果估计。
5.2 法国区域产业政策
接下来,我们研究Gobillon和Magnac [2016]中分析的区域就业干预措施,该措施向选定的法国劳动力市场区域分配了工业补贴。该数据集包含148个区域在T=20年(1997-2016)间的年度就业指标,其中13个区域接受了干预,其余135个区域作为从未接受干预的对照组。
我们使用与第5.1节相同的实验流程评估预测性能。表1报告了三个就业指标的结果:企业进入、企业退出和总就业。我们的方法显著改善了不确定性量化——在所有情况下,区间得分降低了35-65%——同时实现了相似的点估计准确性。这些优势在“企业进入”结果中最为显著,尽管平方偏差较低,但矩阵补全方法产生的不确定性区间过于分散。值得注意的是,对于所有结果,选定的学习率满足,与加利福尼亚研究形成对比,这表明法国就业面板中的潜在因子结构相对较好地设定,且在准确预测不确定性方面几乎不需要似然加权。
5.3 希腊能源市场数字干预评估
我们的第三个数据集涉及希腊IAPR实施的一项旨在提高能源部门合规性的数字税收执法计划。该干预措施分阶段在企业与地区推行,形成包含希腊2020年1,399个加油站53周观测数据的错位处理采用面板。关注的结果变量为各加油站经对数转换后的每周燃油销量。该政策通过燃油收据上的二维码认证系统实施,使消费者能够实时验证交易是否已传输至税务部门中央数据库,从而提高非合规站点被检测到的概率感知,并改变少报销量的行为激励。由于我们掌握每个加油站所属区域信息,因此在国家层面及13个行政区内部分别分析处理效应。补充材料中提供了额外的数据细节与描述性统计信息。
6 讨论
本文主张,基于观测数据的因果推断应当预设残余模型误差存在的可能性,并对此类误差进行量化与调整。所提出的鲁棒贝叶斯方法可广泛适用于多种因果模型。我们建议,应首先采用在当前问题上可合理视为前沿水平的模型启动该过程,继而允许模型存在设定错误。随后,我们采用一种非渐近贝叶斯方法,以促进模型校正并获取决策空间中的不确定性信息。我们的关注重点主要在于因果推断问题——此类问题中的误差往往源于遗漏混杂变量而具有结构性特征;但该方法亦适用于其他类似问题,例如异常值的存在。除因果推断外,所提出的框架还可用于其他不完美似然设定场景,例如变分贝叶斯或复合似然情形。
我们针对单元–时间层面的因果效应进行估计,即对每个受干预单元及其干预后时期分别估计反事实结果。我们采用温度调节后验(tempered posterior),并通过选择学习率 ω 以平衡校准性与锐度。当工作模型设定充分时(ω ≈ 1),RBCI 与标准贝叶斯推断一致;而在模型设定错误情形下,该方法则会适当地调整单元–时间特异性效应后验的位置与尺度。我们的模拟与实证应用表明,通过恰当的评分规则(结合点估计精度与区间校准性)选择 ω,相较于前沿估计量,可实现更优的覆盖性能以及更低或相当的偏差。
默认选择与未来工作本文所作的若干选择有待进一步讨论与探索,主要包括以下方面:(i) 损失函数的选择。本文的选择受制于合适基线模型的存在以及协变量调整的需求,但在不同问题中,以因果性或目标估计量为导向的替代损失函数可能更为适用。(ii) 校准性与锐度度量;在广义贝叶斯框架下(尤其非高斯情形),估计评估本身具有非平凡性,可根据问题特性(如目标估计量的性质)操作化其他精度度量。(iii) 我们发现 ω < 1 与 ω > 1 均可能提供最优解。前者为传统贝叶斯先验–似然–后验三元图提供了替代方案,使后验向先验方向偏移;而后者则暗示一种“超学习”(super-learning)行为,即后验更集中于数据,对此尚需进一步理论探究。(iv) 依数据而定,因子数量与 ω 的联合后验得分空间可能呈现相对平坦的特性,该空间值得深入研究,相关工具或可基于费雪信息的几何结构与三明治协方差矩阵构建。(v) 本文聚焦于采用单一 ω 的温度调节似然,而引入多个(可能相关)的 ω 或可增强灵活性;加权/复合似然文献中的见解或可提供富有成效的启示。(vi) 我们的推断过程在很大程度上忽略了干预过程的设计;若采纳适当的干预设计(参见 Imai 等 [2013] 与 Chattopadhyay 等 [2026]),其效率或可进一步提升。(vii) 所提出的框架具有一般性,可拓展至更广泛的模型类别,包括广义线性混合模型与生存模型;此为当前研究课题。(viii) 近期进展(如 Fong 等 [2024])将贝叶斯推断视为预测任务,并通过对目标估计量的更强聚焦而舍弃先验;然而,如何将因子类及相关一般模型纳入该框架尚不明确,此仍为开放性问题。
原文链接https://arxiv.org/pdf/2511.13895v1
热门跟贴