Doubly Robust Inference in Causal Latent Factor Models
因果潜在因子模型中的双重稳健推断
https://arxiv.org/pdf/2402.11652
摘要
本文介绍了一种在存在未观测混杂因素情形下估计平均处理效应的新估计量,适用于现代数据丰富环境,该环境具有大量观测单元与结果变量。所提出的估计量具有双重稳健性,融合了结果填补(outcome imputation)、逆概率加权(inverse probability weighting)以及一种用于矩阵补全(matrix completion)的新型交叉拟合(cross-fitting)程序。我们推导了有限样本与渐近性质的理论保证,并证明该新估计量的误差以参数速率收敛至均值为零的高斯分布。模拟结果验证了本文所分析估计量的形式性质的实际相关性。
- 引言
本文提出了一种在存在未观测混杂因素情形下、针对现代数据丰富环境的平均处理效应估计新框架。我们将现代数据丰富环境定义为在大量观测单元上收集了广泛结果测量值的环境。我们对数据丰富环境的关注源于数字平台(例如互联网零售商、社交媒体公司和共享出行公司)、电子病历系统、物联网设备以及其他实时数字化数据系统的兴起,这些系统以前所未有的广度与细粒度收集经济与社会行为数据。
以互联网零售商为例。该平台不仅收集众多客户在众多产品或产品类别上的购买信息,还记录浏览次数、曝光量、转化率、参与度指标、导航路径、配送选择、支付方式、退货记录、用户评价等数据。尽管某些变量(如地理位置、设备或浏览器类型)可被安全地视为相对于平台处理行为(如广告投放、折扣发放、网页设计等)预先确定的变量,但大多数变量均为受处理干预、潜在客户偏好及未观测产品特征共同影响的结果变量。我们利用现代数据丰富环境中大量结果测量值的可得性,在存在未观测混杂因素的情况下估计平均处理效应。核心识别思想在于:若高维结果向量的每个元素均受同一低维未观测混杂因素向量的影响,则有可能消除混杂因素的影响并识别出处理效应。
处理效应估计主要有两种方法:基于结果的方法(outcome-based methods)与基于分配的方法(assignment-based methods)。仍以互联网零售平台为例,客户与不同产品类别发生交互,平台针对每个消费者-类别配对决定是否提供折扣,并记录消费者是否在该类别中购买了产品。基于结果的方法通过填补每个消费者-产品类别配对缺失的潜在结果进行操作:该过程包括预测接受折扣的消费者若未获得折扣是否会购买(即无折扣下的潜在结果),反之亦然,预测未获折扣的消费者若获得折扣是否会购买(即有折扣下的潜在结果)。相比之下,基于分配的方法则估计消费者在各产品类别中获得折扣的概率,并通过对观测结果进行与缺失概率成反比的加权来调整缺失的潜在结果。
大量文献探讨了基于结果的方法,尤其在所有混杂因素均被观测的设定下(参见如Cochran, 1968;Rosenbaum与Rubin, 1983;Angrist, 1998;Abadie与Imbens, 2006等众多研究)。在存在未观测混杂因素情形下进行潜在结果填补则构成更为复杂的挑战。在此背景下,常用框架包括合成控制法及其变体(参见如Abadie与Gardeazabal, 2003;Abadie等, 2010;Cattaneo等, 2021;Arkhangelsky等, 2021)。另一种相关但不同的方法是潜在因子框架(latent factor framework)(Bai与Ng, 2002;Bai, 2009;Xiong与Pelger, 2023),其中高维结果向量的每个元素均受同一低维未观测混杂因素向量影响。矩阵补全方法(参见如Chatterjee, 2015;Athey等, 2021;Bai与Ng, 2021;Dwivedi等, 2022a;Agarwal等, 2023a)在推荐系统与面板数据模型中得到广泛应用,与潜在因子模型密切相关。类似地,现有的基于分配的平均处理效应估计程序通常依赖于无未测量混杂假设(参见如Robins等, 2000;Hirano等, 2003;Wooldridge, 2007)、共同趋势限制(Abadie, 2005)或工具变量的可得性(Abadie, 2003;Sloczynski等, 2024)。
本文提出了一种在存在未观测混杂因素情形下的平均处理效应双重稳健估计量(参见Robins等, 1994;Bang与Robins, 2005;Chernozhukov等, 2018)。该估计量在潜在因子框架下同时利用结果过程与处理分配机制的信息,将结果填补与逆概率加权相结合,并引入一种用于矩阵补全的新型交叉拟合方法。我们证明,相较于其他基于结果或基于分配的估计量,所提出的双重稳健估计量具有更优的有限样本保证。此外,在矩阵补全误差率可被证明有效的条件下,无论所用矩阵补全算法的其他性质如何,该双重稳健估计量均渐近无偏、近似服从高斯分布,并以参数速率收敛。
据我们所知,本文是首篇同时利用分配过程与结果过程中的潜在结构,以获得存在未观测混杂因素时平均处理效应双重稳健估计量的研究。Arkhangelsky与Imbens(2022)在纵向数据下研究了双重稳健识别,其假设是对处理分配随时间变化的某一函数(例如个体暴露于处理的次数比例)进行条件化足以消除混杂。Athey等(2021)、Bai与Ng(2021)、Dwivedi等(2022a)、Agarwal等(2023a)以及Xiong与Pelger(2023)提出了应用矩阵补全技术填补潜在结果的估计量。尽管这些研究利用了结果过程中的低秩限制,但并未探究处理分配过程中可能存在类似潜在结构的可能性。本文对此问题进行了探讨,并证明纳入分配机制结构知识可带来实质性收益。
- 设定
- 估计
在本节中,我们提出一种利用处理分配矩阵A和观测结果矩阵Y来估计的程序,其中
本节所提出的估计量将矩阵补全作为关键子程序加以利用。我们以矩阵补全方法的简要概述开启本节。
3.2. 关键构建模块
3.3. 双重稳健(DR)估计量
4. 主要结果
4.1. 假设
关于数据生成过程的要求。我们对数据的生成方式作出两项假设。首先,我们对分配概率施加一个正值性条件。
公式(14)要求,在每个单元的两个分区内,对于每次测量,估计的潜在结果均值和估计的分配概率与分配概率中的误差联合独立。类似地,公式(15)要求,在每个单元的两个分区内,对于每次测量,估计的分配概率与分配概率和潜在结果中的噪声联合独立。像公式(14)和公式(15)这样的条件在双稳健估计文献中是常见的。Chernozhukov等人(2018)采用交叉拟合装置,在没有未测量混杂因素的背景下,强制执行类似于假设4的条件。第5节为矩阵估计提供了一种新颖的交叉拟合流程,在该流程下,假设4对任何MC算法都成立(在对噪声变量的额外假设下)。
4.3.渐近保证
该模型中滞后处理效应的存在使得为整个处理序列定义因果估计量变得至关重要。附录I描述了如何将所提出的双稳健估计扩展到处理序列,并推导了定理1的推广形式。
5. 带有交叉拟合的矩阵补全
5.1. 交叉拟合-MC:一种用于矩阵补全的元交叉拟合算法
许多MC算法旨在对随机缺失模式下的矩阵进行去噪和缺失值插补;研究最常见的缺失模式是每个条目有相同的缺失概率,且独立于其他所有因素。相比之下,交叉拟合-MC生成的模式中,一个区块内的所有条目都是确定性缺失的,如图3(b)所示。最近关于矩阵补全方法与因果推断模型之间相互作用的研究——特别是在合成控制框架内——已经贡献了允许块状缺失的矩阵补全算法(参见,例如,Athey等人,2021;Agarwal等人,2021;Bai和Ng,2021;Agarwal等人,2023b;Arkhangelsky等人,2021;Agarwal等人,2023a;Dwivedi等人,2022a,b)。然而,将这些方法已知的理论保证应用于本文的设定存在挑战,原因在于:(i) 使用了交叉拟合——这创建了所有观测都缺失的区块——以及 (ii) 在完全缺失的区块之外,仍然可能存在具有异质缺失概率的缺失观测。在下一节中,我们将展示如何修改为块状缺失模式设计的MC算法,使其能够应用于我们的带有交叉拟合和折叠外异质缺失概率的设定。为具体起见,我们采用Bai和Ng(2021)的Tall-Wide矩阵补全算法进行说明。
5.2. 交叉拟合-SVD算法
交叉拟合-SVD是一个端到端的MC算法,通过将交叉拟合-MC元算法与Bai和Ng(2021)的Tall-Wide算法(我们称之为TW)实例化而获得。为完整起见,我们在第5.2.1节详细描述TW算法,然后在第5.2.2节中使用它来描述交叉拟合-SVD。
原文链接:https://arxiv.org/pdf/2402.11652
热门跟贴