Assumption-robust Causal Inference
假设稳健的因果推断
https://arxiv.org/pdf/2505.08729
摘要
在观察性因果推断中,常遇到多个看似同样合理的调整集,而通常无法检验其中哪些满足可忽略性(即有效)。这种不确定性带来实际挑战:难以协调多个可能冲突的平均处理效应(ATE)估计。朴素做法是报告所有置信区间的整体范围(并集的凸包),但其宽度在大样本下未必收敛至零,实际中可能过宽。为此,我们提出一种汇总程序,生成单一估计、一个置信区间,并识别出一组单元——只要至少一个调整集有效,该组上的因果效应估计即保持有效。所提置信区间宽度以 n − 1 / 2速率随样本量收缩至零,而原始范围保持常数量级。因此,即使多数调整集无效,该假设稳健方法仍可对 ATE 实现可靠推断。需承认,稳健性有代价:推断保证适用于与原目标总体接近但不同的重加权总体。合成与真实数据示例表明,相比整体范围,本方法提供的 ATE 置信区间显著更紧致。
关键词:因果推断,协变量调整,可忽略性,模型设定错误,多重宇宙分析,观察性研究,重加权总体,稳健性。
1 引言
在观察性研究中,回归调整所用协变量的选择至关重要却固有复杂性。研究者常面临若干看似合理的调整集,每个反映对潜在因果结构的不同假设。这种多重性成问题,因支撑任一调整集有效性的可忽略性(又称无混杂性)假设无法由数据本身检验(Holland, 1986; Imbens and Rubin, 2015; Pearl, 2009),故从根本上无法判定哪些调整集有效。
实践中,常难以判断某协变量是否应被调整,抑或其仅为非混杂因素(如调节变量或中介变量;Pearl, 2009)。例如,评估新教学法对学生学业成就的影响时,学生自尊可能作为中介(教学法先提升自尊,进而改善表现)或调节变量(对高基线自尊学生更有效)。事实上,Huang 等(2022)指出,自尊可同时中介并调节积极师生关系对学生参与度的影响。
基于表1,我们进一步强调以下方法并不总能提供有效推断:(i) 调整所有调整集的并集(在示例1与2中失效);(ii) 调整所有调整集的交集(在示例3中失效);(iii) 仅调整处理前协变量(在示例2中失效;参见Ding与Miratrix (2015)的详细讨论)。另一方面,一种朴素的置信区间构造方法是:只要至少一个调整集有效,即报告所得置信区间的凸包。然而,由于无效调整集导出的估计量对应非因果目标参数(不同于ATE),该朴素置信区间的宽度本质上不会随样本量增大而收敛至零(详见第1.1节讨论),因而在诸多实际应用中可能过宽。事实上,表1中所有设定下,该朴素置信区间同时包含真实的非零ATE与零值,表明其检验功效实质上可能为零。
下文第1.2节将介绍我们提出的假设稳健方法:只要所考虑的调整集中至少有一个有效,即可构造统一的因果估计量及其置信区间,并保证其渐近有效性(故称“假设稳健”)。所提置信区间宽度以快速的参数速率随样本量收缩,而朴素置信区间宽度保持常数量级。经验上,表1表明,在第4.1节所有模拟设定中,我们的假设稳健方法所得置信区间均显著窄于朴素方法。
1.1 问题设定与符号
从图模型视角看,若处理变量 A A 与结果变量 Y Y 之间的所有非因果路径(后门路径)均被阻断,则调整集 S S 是有效的(参见,如 Pearl (2009))。调整集可能因多种原因而无效,例如:(i) 调整集遗漏了重要混杂因子,即某些后门路径仍保持开放;或 (ii) 调整集包含了非混杂因子,如中介变量(受处理影响的协变量)或对撞变量(同时受处理与结果影响的变量)。关于此主题的系统性论述,参见 Pearl (2009) 的专著。
1.2 我们的假设稳健方法
在如式 (3) 所示求得转移权重后,我们基于每一个调整集,采用增广逆概率加权(augmented inverse propensity weighting, AIPW)估计量(Robins 等,1994;Robins 与 Rotnitzky,1995;Hahn,1998;Scharfstein 等,1999;Chernozhukov 等,2018)对重加权总体的平均处理效应(ATE)进行推断。通过使用非参数均值估计器进行经验风险最小化来估计权重,会导致较慢的非参数收敛速率——我们通过额外的偏差校正来缓解这一问题。最后,由于所有调整集针对重加权总体均指向同一被估参数,我们通过对各估计量取凸组合的方式将其合并,从而获得一个单一的置信区间;该置信区间在至少一个调整集有效的情况下具有渐近有效性,且其宽度以 √n 的速率随样本量增大而收缩;精确结果见定理 1,实证示例见第 4 节。
1.3 相关工作
1.3.1 移动目标(Moving the goalpost)
在因果推断中,为应对可识别性问题而将估计与推断的目标转向某个子总体或重加权总体的做法并不罕见。例如,Imbens 与 Angrist(1994)提出的局部平均处理效应(Local Average Treatment Effect, LATE)框架,即针对依从者(compliers)估计因果效应——实质上是通过重加权将总体聚焦于该群体。Angrist 与 Pischke(2009)进一步讨论了 LATE 如何对应于依从者群体中的重加权平均处理效应,强调了权重在定义被估参数中的作用。Imbens(2010)指出,此类被估参数虽具局部性,却通过明确估计所适用的具体总体而增强了内部效度。Small 等(2017)表明,在随机单调性假设下,标准工具变量估计量所针对的是一个加权的 ATE,对工具变量效应更强的个体赋予更高权重。我们的方法延续了这一传统,通过识别一个目标总体——在该总体中,不同合理调整集所得的因果估计保持一致——从而确保即使在某些子总体中可忽略性假设可能被违反的情况下,推断仍具有稳健性。
1.3.2 重加权方法
重加权方法长期以来在因果推断中占据核心地位,有助于结果在不同总体间的推广并提升稳健性。Horvitz 与 Thompson(1952)通过引入逆概率加权以校正偏差,为此奠定了基础。然而,逆概率权重在实践中往往不稳定,由此催生了一系列通过结果建模(如 Robins 等,1994)或正则化(Deville 与 Särndal,1992;Hainmueller,2012)来稳定权重的方法。Hainmueller(2012)提出的熵平衡(entropy balancing)提供了一种灵活途径,通过将协变量平衡约束直接纳入加权方案,确保对指定协变量矩实现精确平衡。近期,Li 等(2018)引入了平衡权重,并证明以协变量重叠度最大的个体为目标,可最小化加权处理效应估计的渐近方差。尽管这些方法旨在针对单一(且假设有效)的调整集进行混杂调整并改进估计,我们的方法则有所不同:它应对的是存在多个调整集(其中部分可能无效)的情形。
1.3.3 稳定性与多重宇宙分析
在不同假设下评估稳健性的一种策略是多重宇宙分析(multiverse analysis),即在不同模型设定、预处理决策与调整集下执行所有合理可行的分析。Steegen 等(2016)指出,仅分析单一数据集或模型可能产生误导,主张采用多重宇宙方法以揭示哪些分析选择对结果影响最大。与之互补的是稳定性分析(stability analysis)的理念,即评估数据、模型参数或预处理步骤的微小变化是否会导致定性不同的推断,并强调结论在合理扰动下应保持一致。稳定性原则已在多个领域受到重视,包括贝叶斯统计(Box,1980;Skene 等,1986)、计量经济学(Leamer,1983)以及因果推断(LaLonde,1986;Rosenbaum,1987;Imbens 与 Rubin,2015)。在数据科学领域,Yu(2013)提出了稳定性框架,Yu 与 Kumbier(2020)进一步发展了可预测性、可计算性与稳定性(Predictability, Computability, and Stability, PCS)框架,倡导在整个数据科学生命周期中评估分析决策对结果的影响。Jeong 与 Rothenhäusler(2025)将稳定性分析扩展至分布不确定性情形,将可忽略性等假设的违反建模为数据生成分布的微小扰动。采用不同估计策略以相互验证因果假设的做法也广为推荐(Freedman,1991;Rosenbaum,2010;Karmakar 等,2019)。我们的方法与此类视角相契合并加以拓展:它旨在应对“哪个调整集有效”这一不确定性,通过提供一种原则性方式来协调多个合理调整集下的推断,从而稳定因果推断。
1.3.4 敏感性分析
经典敏感性分析方法通过引入参数以量化未观测混杂的影响,评估因果估计对可忽略性假设轻微违反的稳健性。自 Cornfield 等(1959)的开创性工作以来,已涌现出多种此类方法,包括 Rosenbaum 与 Rubin(1983);Robins(1999);Frank(2000);Rosenbaum(2002);Imbens(2003);Brumback 等(2004);Imai 等(2010);Hosman 等(2010);VanderWeele 与 Arah(2011);Blackwell(2014);Dorie 等(2016);Cinelli 与 Hazlett(2019);Oster(2019);Zhao 等(2019);Franks 等(2020);Dorn 与 Guo(2023);Kang 等(2024);Dorn 等(2025)等。然而,这些方法通常基于单一调整集,并假定底层因果结构与调整集已正确设定,仅关注对该基准的微小偏离。相比之下,我们的工作应对的是因果图未完全已知的情形,由此产生源自不同图结构的多个合理调整集。此类不确定性可能导致某些总体中可忽略性出现实质性违反,即便它在其他总体中成立。我们的方法致力于寻找一个总体,在该总体中我们能够提供具有窄置信区间的推断,且该推断在一系列合理调整集下均保持有效。
1.4 论文结构
本文其余部分组织如下。第 2 节中,我们描述了所提出的针对平均处理效应(ATE)的估计与推断策略,该策略采用非参数函数估计器。第 3 节中,我们给出了通用方法的一个简化版本,适用于如下特殊情形:至少存在一个调整集,使得包含处理变量与协变量交互项的线性模型成立。第 4 节中,我们通过若干模拟示例以及 Abadie(2003)与 Chernozhukov 等(2018)提供的真实数据集(研究 401(k) 退休计划对净金融资产的影响)来展示我们方法的经验表现。第 5 节为讨论与总结。
2 面向平均处理效应的假设稳健推断
命题1表明,通过求解式(4),我们能够找到一个尽可能接近原始总体的重加权总体,使得所有候选调整集均能识别该重加权总体的平均处理效应(ATE)。请读者参考图1,以直观比较例1中重加权总体与原始总体(另见图4)。下文注释将进一步阐述重加权总体在实际案例中的解释及其实际应用价值。
注释1(重加权总体的解释)。在市场研究中,重加权总体通常具有实际解释意义。通过将我们的方法应用于试点样本,我们可以获得权重,从而指导如何从协变量的特定分布中收集未来数据,以便在至少一个调整集有效(即假设1成立)的情况下,能够报告稳健且可靠的置信区间。例如,在在线广告中,我们的重加权程序有助于识别最相关的用户细分群体,并调整数据收集过程以聚焦于这些群体。这确保了估计的平均处理效应(例如,新广告策略相较于现状的影响)及其对应的置信区间更加准确,并能更好地反映目标总体中的实际用户行为。
接下来,我们将转向求解优化问题(4)的问题。为保证式(4)解的存在性与唯一性,我们提出以下假设。
我们注意到,假设3本质上是一个异质性假设——它排除了退化情形,即异质性处理效应向量被约束在低维子空间中,此类情形可能无法保证存在一个重加权总体,使得各被估参数如式(4)所示达成一致。我们的下一个结果确保了式(4)解的存在性与唯一性,并将其简化为一个有限维凸优化问题;证明见附录A.2。
注释2(不可行性本身具有信息量)。当某些调整集产生的估计值与其他调整集存在显著差异时,假设3可能不成立,优化问题(4)可能无解。然而,这种不可行性本身是一个有意义的发现——它揭示了不同调整集所依据的假设可能存在根本性的不相容。在此情形下,我们的方法仍可用于识别内部相容的调整集簇:对于每个簇,我们能够找到一个与原始总体接近的目标总体,使得该簇内的所有调整集均能识别这一新目标总体的平均处理效应(ATE)。
3 假设稳健推断与参数基线
在应用研究中,包含处理变量-协变量交互项的线性回归模型可以说是最常用于平均处理效应(ATE)推断的参数方法,我们请读者参考 Hainmueller 等(2019,第1节)和 Anoke 等(2019,第3.1节)的讨论。交互线性模型之所以广受欢迎,源于其实施简便且系数具有清晰透明的可解释性。
4 经验示例
4.1 模拟示例
本节通过若干模拟示例展示我们方法的经验表现,并与简单报告全部范围的朴素方法进行比较。此外,这些示例也说明:通过取并集或交集合并所有调整集,或仅将处理前协变量纳入调整集,均不能始终保证推断的有效性。具体而言,示例1与示例2表明,调整集的并集未必构成有效调整集;而示例3则显示,即便其中一个调整集有效,调整集的交集也可能无效。此外,示例2还表明,处理前协变量亦可能并非混杂因子,将其纳入调整集可能导致不一致的估计。在这些示例中,我们均考虑两个调整集,即 。我们从各自的数据生成过程中抽取个观测样本,并在下文示例1至3中报告基于交互项线性回归模型、分别针对两个调整集所得到的平均处理效应(ATE)的95%置信区间。特别地,我们观察到在每个示例中,两个调整集所得的置信区间对ATE的推断存在冲突。
随后,我们将上述实验重复1000次,并在表1中报告经验覆盖率(所得置信区间包含真实ATE的平均比例)以及平均宽度(在各次重复中取平均)。我们注意到,在每个示例中,对应于无效调整集的置信区间均无法提供覆盖率,这反映了在无法检验哪个调整集有效的情况下,选择调整集所面临的挑战。表1中我们还报告了:(i) "朴素"置信区间,即两个调整集对应置信区间之并集的凸包;(ii) 第3节中我们所提出的假设稳健置信区间。我们指出,尽管朴素方法在"至少一个调整集有效"的假设下能够提供覆盖率,我们的方法在保证相同覆盖率的同时,所得置信区间显著更窄。
4.2 应用:401(k)资格对金融资产的影响
我们现将假设稳健方法应用于Abadie(2003)最初研究并由Chernozhukov等(2018)重新考察的真实世界数据。本研究旨在考察401(k)资格(即雇主是否向员工提供401(k)计划)对员工净金融资产的因果效应。该数据集包含多种处理前协变量,包括年龄、收入、教育程度、家庭规模、婚姻状况、住房所有权,以及个人是否被其他养老金或IRA计划覆盖。Abadie(2003)采用工具变量方法研究该问题。然而,我们遵循Chernozhukov等(2018)的方法,基于增广逆概率加权(AIPW)估计量进行推断(Robins等,1994;Robins与Rotnitzky,1995;Scharfstein等,1999;Chernozhukov等,2018)。此处的关注点仍在于无法确定应调整哪些协变量的不确定性,以及多个调整集可能同样合理的事实。我们基于每个调整集的AIPW估计量构建置信区间。
关于哪些协变量应纳入调整集存在一些模糊性,例如,在本例中IRA计划参与可能是一个中介变量。我们考虑一个包含四个调整集的示例,按嵌套顺序列出:S₁ = {年龄, 收入, 教育程度},S₂ = S₁ ∪ {家庭规模, 婚姻状况},S₃ = S₂ ∪ {双职工家庭, 房主},以及 S₄ = S₃ ∪ {界定养老金计划, 参与IRA计划}。我们在图3中比较了使用各调整集所得的95%置信区间,以及朴素方法报告的全范围(红色)和使用我们假设稳健方法构建的置信区间(绿色)。在此示例中,我们假设稳健置信区间的宽度比通过取不同AIPW置信区间凸包所形成的朴素假设稳健置信区间窄约80%。
我们在图4中比较了原始总体与新目标总体在协变量年龄、收入和教育程度上的分布。在此示例中,重加权总体的年龄、收入和教育程度分布与原始总体非常接近,这并不意外,因为在式(4)中,我们最小化了新目标总体与原始总体之间的KL散度。我们还考虑了其他调整集组合,发现我们的置信区间远短于全范围(朴素置信区间),这验证了我们的理论结果。
5 讨论
在观察性研究中,研究者常常面临多个合理的调整集,但仅凭数据无法确认其中任何一个是否有效。这为因果推断带来了严峻挑战,因为不同的调整集可能导致相互矛盾的结论,而报告所有估计值的范围并不能消除这种模糊性。此外,诸如调整所有调整集的并集或交集,或仅调整处理前协变量等简单方法同样无效,正如我们在示例1至3中所展示的那样。
在本文中,我们提出了一种方法,用于寻找一个接近原始总体的新目标总体,使得只要至少有一个候选调整集有效,我们便可以报告一个单一的平均处理效应估计值及其对应的单一置信区间。我们的方法通过求解一个凸优化问题来识别此类总体,该问题在满足线性约束(即不同调整集所得被估参数的一致性)的条件下最小化KL散度。寻找转移权重的过程可视为预处理步骤——在获得这些权重后,我们使用增广逆概率权重来平衡处理组与对照组,并返回一个具有√n收敛速率的单一估计量。我们的方法在以下意义上具有假设稳健性:无需知晓哪个调整集有效,且只要至少有一个调整集有效,即使大多数调整集无效,仍能得出有意义的推断。所得置信区间比原始区间范围显著更窄,且在最小假设条件下保持名义覆盖概率。
尽管我们通过合成数据与真实世界数据说明了该方法如何成为一种有效替代方案——即无需保证覆盖概率而仅选择一个调整集,或简单报告全部范围——但我们的方法仍存在一些局限性。首先,为使该方法有效,必须至少存在一个调整集满足无混杂性假设(即不存在未观测混杂)。其次,在某些情况下,调整集可能彼此不相容,即不存在一个总体使得所有相关估计量达成一致。当这种情况发生时,我们的优化问题无解。然而,这一发现本身具有信息量,它提示实践者调整集所依据的假设彼此不相容。此外,我们的方法可将调整集聚类为相容的组(即存在一个重加权总体,使得这些调整集针对同一被估参数),从而启动关于应选择哪个簇的讨论。
另一个局限性是可解释性:尽管我们的经验权重通常仅显著改变一两个协变量,但这并非总是成立。在实践中,可通过添加约束将重加权限制在特定变量上,或鼓励采用类似匹配的二元权重。
值得探索解决上述局限性的策略,并将所提方法扩展至包含大量候选调整集的情形。当考虑大量调整集时,要求被估参数严格一致可能过于严格,导致无法找到能够提供假设稳健推断的目标总体。在此类情形下,通过允许被估参数近似一致,或仅要求定性一致(例如,因果效应符号相同)来放宽约束可能更为有益。我们将这些方向留待未来研究。
原文链接:https://arxiv.org/pdf/2505.08729
热门跟贴