BAMIFun:函数型数据的贝叶斯多重插补方法
BAMIFun: Bayesian Multiple Imputation for Functional Data
https://arxiv.org/pdf/2605.08018
摘要
缺失数据在现代函数型数据集中普遍存在,其中轨迹往往被稀疏或不规则地观测。尽管函数型主成分分析(FPCA)被广泛用于重构不完整曲线,但现有的基于 FPCA 的方法通常采用单一插补,导致下游分析中的推断过于乐观。为应对这些挑战,我们提出了一种针对函数型数据的新型贝叶斯多重插补框架(BAMIFun)。针对单层函数型数据,我们构建了一个贝叶斯低秩模型,该模型结合惩罚样条表示以约束特征函数的平滑性,并推导了一种高效的吉布斯采样算法用于后验计算。此外,我们阐述并验证了如何在下游分析中恰当地纳入估计不确定性。进一步地,我们利用低秩函数型张量奇异值分解(FTSVD)模型将该框架扩展至多路函数型数据,从而在现有方法无法支持的情形下实现贝叶斯多重插补。模拟研究表明,与现有方法相比,BAMIFun 在实现准确插补的同时,显著提升了置信区间覆盖率,并使下游推断更为可靠。基于体力活动数据集与婴儿肠道微生物组数据集的案例研究,进一步验证了所提方法在严重缺失情形下的实际优势。算法代码详见:https://github.com/ZirenJiang/BAMIFun。
关键词:函数型数据分析,缺失数据,贝叶斯推断,多路函数型数据,多路数据。
1 引言
函数型数据通常在稀疏和/或不规则的网格上被观测(Huang and Kao, 2025)。针对此类数据的建模,研究者已开发了多种方法,包括函数型主成分分析(FPCA)(Yao et al., 2005)、用于联合配准与曲线估计的贝叶斯方法(Matuk et al., 2022),以及近年来基于矩阵补全的方法(Kidziński and Hastie, 2024)等。尽管取得了这些进展,对稀疏或不规则观测的函数型数据进行统计分析仍具挑战性。主要困难包括:许多方法隐含地依赖于密集设计假设(Kong et al., 2016);专为稀疏函数型数据设计的软件资源有限(Wood and Wood, 2015; Beyaztas and Shang, 2025; Centofanti et al., 2022; Febrero-Bande and De La Fuente, 2012);以及在严重缺失情形下,方法性能显著下降(Di et al., 2009; Greven et al., 2011)。
处理稀疏或不规则函数型数据的一种常见做法是插补缺失观测值,并在规则网格上重构个体特异性轨迹,该方法最早由 Yao 等人(2005)基于 FPCA 提出。具体而言,他们通过条件期望估计主成分得分来重构每条轨迹。在高斯假设下,预测通过最佳线性无偏预测(BLUPs)实现。此后,这种基于 FPCA 的方法已被扩展至多水平(Di et al., 2009; Zipunnikov et al., 2011; Di et al., 2014; Cui et al., 2023)、纵向(Greven et al., 2011; Zipunnikov et al., 2014)、结构化(Shou et al., 2015; Lin et al., 2024)以及多变量(Chiou et al., 2014; Happ and Greven, 2018)等情形。在下文中,我们沿用其原始论文(Yao et al., 2005)中的命名,将此类方法称为"PACE 方法"。PACE 方法在每个缺失位置仅产生一个插补值,且不提供不确定性量化,因此属于"单一插补"方法。由于单一插补将重构后的轨迹视为真实值,下游分析中的不确定性度量往往过于乐观,尤其在数据严重稀疏的情况下(Rao and Reimherr, 2021; Petrovich et al., 2022)。
相比之下,多重插补框架(Rubin, 1996; Schafer, 1999)通过生成多个合理的缺失函数型观测补全方案,显式地纳入插补不确定性。这些补全数据集之间的变异反映了插补过程固有的不确定性,从而使得下游分析的推断更为有效。针对稀疏函数型数据,已有若干多重插补方法被提出。具体而言,Petrovich 等人(2022)提出了一种频率学派的多重插补程序,该方法利用标量结局变量的信息,假设函数型协变量与结局之间服从广义可加模型,并从相应的条件分布中抽取插补值。Rao 和 Reimherr(2021)改进了 missForest 算法,使其能够处理函数型协变量,包括针对函数型数据的特定预处理及基于 PACE 的初始化策略。He 等人(2011)通过函数型混合效应框架联合建模函数型与标量协变量,并基于吉布斯采样开发了一种贝叶斯多重插补策略。Jang 等人(2021)提出了一种针对双变量函数型数据的贝叶斯多重插补方法,该方法利用了两个函数型预测变量之间的相关结构。尽管这些多重插补方法在其各自适用情境下有效,但它们在插补过程中均需要额外的观测信息,例如标量结局、标量协变量或辅助函数型变量。此外,大多数现有方法仅关注单层函数型数据,其在更复杂结构数据上的表现尚不明确。
因此,针对稀疏函数型数据的多重插补方法仍发展不足。现有方法通常依赖辅助信息进行插补。当此类辅助信息不可得,或其与函数型数据的关系被错误设定时,插补性能便值得怀疑。此外,据我们所知,目前尚无任何针对更复杂函数型数据结构(如多路函数型数据)的多重插补方法。多路数据(亦称多维张量数据)由两个以上维度索引的观测构成(例如:个体 × 特征 × 访视),并自然出现在神经影像(Lynch and Chen, 2018)、可穿戴设备(Leroux et al., 2024)和基因组学(Li and Lock, 2025)等现代应用中。当其中某一维度为连续变量(如时间或空间)时,数据即成为多路函数型数据。近期,Jiang, Li 和 Lock(2025)提出了一种针对张量数组的贝叶斯多重插补算法(BAMITA),该方法通过低秩 CANDECOMP/PARAFAC(CP)分解对张量数据进行插补。然而,BAMITA 针对的是离散张量数组,未纳入函数型数据所需的平滑性约束。
为填补函数型数据多重插补方面的关键方法学空白,我们开发了 BAMIFun:一种针对函数型数据的贝叶斯多重插补框架。具体而言,我们的模型(1)在贝叶斯多重插补框架中嵌入惩罚样条,以约束轨迹平滑性,同时联合量化特征函数的不确定性;(2)通过低秩 FPCA 表示对单层函数型数据执行多重插补,并依据 Rubin 规则整合各次插补的估计结果,从而支持有效的下游推断;(3)据我们所知,首次为多路函数型数据提供了多重插补程序,方法是针对函数型张量奇异值分解(FTSVD)模型(Han et al., 2024)开发了一种贝叶斯采样器。通过广泛的模拟研究与真实数据应用,我们表明:相较于 BAMITA,我们的 BAMIFun 模型在函数型数据上实现了显著更高的插补精度;相较于 PACE 方法,其对插补条目的置信区间覆盖率更优。此外,BAMIFun 在下游推断(例如函数型回归)中表现出更高的稳定性,显著改善了覆盖性质。我们将模型进一步应用于真实世界数据集,包括:(1)来自美国国家健康与营养调查(NHANES)的体力活动数据集;(2)纵向收集的婴儿肠道微生物组数据集。两项应用的结果进一步支持了模拟研究中观察到的规律。
本文其余部分组织如下:第 2 节介绍背景与问题设定;第 3 节提出针对单层函数型数据的贝叶斯多重插补算法;第 4 节将该框架扩展至多路函数型数据,并介绍相应的贝叶斯模型,多重插补算法详见补充材料;第 5 节与第 6 节通过模拟数据与真实数据评估所提出的 BAMIFun 方法,并与 BAMITA 及 PACE 进行比较;第 7 节总结并讨论。
2 符号与设定
3 单层函数型数据
3.1 模型
3.2 基于完整数据的吉布斯采样器
3.3 贝叶斯函数型插补算法
3.4 插补与下游分析的统计推断
4 多路函数型数据
在此,我们沿第三维度对张量进行矩阵化,因为该维度对应于函数型观测值。在补充材料第 3 节中,我们给出了模型 (9) 下针对多路函数型数据的吉布斯采样器以及相应的贝叶斯多重插补算法。
5 模拟实验
5.1 单层函数型数据的插补性能
5.1.1 数据生成机制
5.1.3 结果
图 1 报告了各方法的插补均方误差(MSE)和覆盖率。对于 MSE,当缺失比例为 80% 时,我们的 BAMIFun 算法表现与 PACE 相当。在 90% 缺失率下,对于小样本量( n = 100 ),它显示出略大的 MSE,但随着 n 增加,差异逐渐缩小。在极高的缺失率下,我们的 BAMIFun 方法起初的 MSE 高于频率学派方法;然而,随着样本量增大,差距缩小。在所有设置中,纳入平滑性约束使我们的 BAMIFun 算法在插补精度方面始终优于 BAMITA。对于 95% 置信/可信区间的覆盖率,我们的 BAMIFun 方法保持接近名义水平(约 95%)的覆盖率,显著高于 PACE。当样本量较小时,BAMITA 表现出覆盖率不足,这可能是由于其较大的 MSE 所致。尽管其覆盖率随样本量增加而改善,但仍劣于所提出的贝叶斯方法。
5.2 基于插补后函数型数据的下游分析
5.2.1 数据生成机制
5.2.3 模拟结果
图 2 展示了基于插补后函数型数据的 SoFR 系数估计结果。在估计的 SoFR 系数的相对积分平方误差 (ISE) 方面,我们的 BAMIFun 方法在大多数模拟场景中均表现出更优的性能。与 PACE 算法相比,我们的算法从样本量的增加中获益更多。在某些场景下,PACE 估计量的均方误差 (MSE) 甚至随着样本量的增加而增加。关于覆盖率,BAMIFun 的表现始终优于 PACE 算法,后者表现出系统性的覆盖率不足。这些发现强调了所提出的多重插补方法的优势,该方法恰当地考虑了插补的不确定性,并在下游分析中导出了更可靠的区间估计。在补充材料第 3 节中,我们还展示了平滑参数通过交叉验证确定的 BAMIFun 算法的结果,其结论与第一个实验一致。
5.3 多路函数型数据的插补性能
5.3.1 数据生成机制
5.3.2 结果
我们将我们的 BAMIFun 算法与基于频率学派多水平 FPCA(MFPCA)框架(Di et al., 2009)的 PACE 方法进行比较。我们未将 BAMITA 纳入此比较,因为其在前述实验中已被证实不适用于函数型数据设定。针对每个模拟场景,我们进行了 500 次重复实验。对于贝叶斯方法,我们同时计算了插补元素的均方误差(MSE)和经验覆盖率。对于 PACE 方法,由于现有的 R 语言实现未提供预测函数型元素的置信区间,我们仅报告其均方误差。
模拟结果总结于表 1。对于具有低秩结构的多水平函数型数据,BAMIFun 算法始终优于 PACE 方法。
相比之下,当潜在的函数型结构并非低秩时,BAMIFun 算法的均方误差(MSE)略高于 PACE。然而,在所有模拟设定中,BAMIFun 算法的 95% 置信区间覆盖率均接近名义水平,即便在无低秩结构的情形下亦是如此。这些结果凸显了 BAMIFun 算法在不同数据生成机制下的稳健性与广泛适用性。
6 案例研究
6.1 单层函数型数据
针对单层函数型数据集,我们将所提出的 BAMIFun 算法应用于美国国家健康与营养调查(NHANES)的体力活动数据,并将插补性能与以下方法进行比较:(1) PACE 算法,以及 (2) 未纳入数据集函数型特征的贝叶斯多重插补算法 BAMITA。NHANES 是由美国疾病控制与预防中心开展的一项全国性项目,旨在监测美国成人和儿童的健康与营养状况(Cui et al., 2021; Cui, Leroux, Smirnova and Crainiceanu, 2022; Cui, Thompson, Carroll and Ruppert, 2022)。在本分析中,我们使用了 2011–2012 和 2013–2014 周期的数据(Crainiceanu et al., 2024)。
我们将每种场景重复 100 次,并在表 2 中总结了 MSE 和覆盖率。在极端缺失情况下,BAMIFun 算法产生的 MSE 略高,尽管当缺失比例降低至约 95% 时,这一差距会缩小。在所有缺失水平下,BAMIFun 算法始终为估计的 95% 可信区间提供接近名义水平的经验覆盖率。相比之下,基于 FPCA 的 PACE 算法在所有设定下的覆盖率都低得多。
6.2 多路函数型数据
我们以婴儿肠道微生物组数据集为例,说明多路函数型数据的应用。人类肠道栖息着一个复杂且动态的微生物生态系统,该系统在生命早期迅速演化,并在免疫发育和整体健康中发挥关键作用。我们分析了一项针对 52 名入住新生儿重症监护病房(NICU)的早产儿的纵向研究数据,该研究在婴儿出生后的前三个月内重复收集了粪便样本(Cong et al., 2017)。不同婴儿的采样时间各异,从而产生了不规则观测的纵向剖面。微生物组成通过 16S rRNA 测序进行量化,并在属(genus)水平上汇总相对丰度,最终在所有样本中共识别出 152 个独特的属。经过标准质量控制并过滤掉稀有分类单元后,数据形成了一个以受试者、时间和微生物属为索引的三路数组,这自然地引出了多路函数型表示:即每位婴儿都与一组随时间变化的、属特异性的丰度轨迹相关联。我们采用了标准的预处理技术,并对数据集应用了中心对数比(clr)变换。
Jiang, Li 和 Lock(2025)也曾使用该婴儿肠道微生物组数据集。然而,由于缺失比例极高且受时间限制,他们将连续几天的结果进行了聚合,最终得到 30 个时间区间。相比之下,我们分析了原始数据结构,该结构包含在 118 天内收集的测量值。所得的多路函数型数据集维度为 52×152×118,其中 91.1% 的条目因研究设计而未被观测到,这对插补构成了巨大挑战。例如,多水平 FPCA 方法(如 refund 包中所实现的)在此设定下并不适用,因为某些受试者 - 属组合仅包含一个观测时间点。
我们评估了以下算法的插补性能:(i) 未显式建模函数型结构的贝叶斯多重插补(BAMITA);(ii) 针对函数型数据的贝叶斯多重插补(BAMIFun),其中平滑参数被视为未知量并赋予无信息先验。在补充材料中,我们还展示了通过交叉验证选择平滑参数的 BAMIFun 算法结果。频率学派的多水平 FPCA 方法未被纳入考虑,因为现有软件实现无法处理如此极端缺失水平的数据集。由于交叉验证已在前述模拟研究和应用中得到评估,且为降低计算成本,我们未使用交叉验证来选择主成分数量。相反,我们将主成分数量从 10 变化至 38,并呈现相应的结果。
针对每个模拟实验,我们随机抽取 30% 的已观测条目作为测试集,并对剩余的已观测条目应用插补方法。对于每个主成分数量,我们将实验重复 100 次,并在图 3 中报告测试集上的平均插补均方误差(MSE)。我们的 BAMIFun 算法在所有主成分数量下均始终优于 BAMITA 算法。此外,其对插补条目的覆盖率达到了接近名义水平的合理范围(约 93%)。
7 讨论
在本文中,我们开发了 BAMIFun:一种针对稀疏观测函数型数据的贝叶斯多重插补框架,涵盖单层与多路函数型场景。所提出的 BAMIFun 算法为重构不完整轨迹提供了一种严谨的方法,同时明确量化了插补过程所引入的不确定性。我们的方法解决了广泛使用的基于 FPCA 的插补方法(PACE)的一个关键局限,即这些方法倾向于将插补后的曲线视为真实已知值,从而低估了下游分析中的不确定性。如模拟研究所示,针对单层函数型数据,我们的 BAMIFun 算法达到了与 PACE 方法相近的插补精度。然而,通过有效纳入插补不确定性,我们的方法获得了接近名义水平的覆盖率,并在下游分析中展现出更优的性能。针对多路函数型数据,我们采用了 Han 等人(2024)提出的低秩分解模型,并提出了一种新颖的贝叶斯插补算法。由于该模型与 MFPCA 模型存在差异,两种方法的插补精度取决于数据的具体特征,这在模拟中已得到证实。
案例研究进一步印证了我们的模拟结果。在 NHANES 研究中,在现实的高比例人为缺失设定下(最高达 97.5%),贝叶斯算法始终为插补值维持了名义水平的覆盖率,而基于 FPCA 的单一插补则出现了严重的覆盖率不足。尽管贝叶斯方法产生的均方误差(MSE)略高,但随着缺失比例的降低,两者差距逐渐缩小,且覆盖率在所有场景下均保持稳定。与模拟实验一致,我们的 BAMIFun 算法在插补精度与覆盖率两方面均优于 BAMITA 算法。在婴儿肠道微生物组研究中,我们的 BAMIFun 算法在 MSE 指标上显著优于 BAMITA 算法。
我们的贝叶斯算法通过基展开为函数型数据施加平滑性约束;然而,其性能可能依赖于所选样条基的类型。近期,Sartini 等人(2025)提出了一种替代的 FPCA 框架,该框架在 Stiefel 流形上对主成分进行参数化。将其方法扩展至贝叶斯多重插补将是未来研究的一个有趣方向。
原文链接:https://arxiv.org/pdf/2605.08018
热门跟贴