Generative Quantile Bayesian Prediction
生成式分位数贝叶斯预测
https://arxiv.org/pdf/2510.21784
摘要
预测是机器学习的核心任务。我们的目标是利用生成式贝叶斯预测(GBP)解决大规模预测问题。通过直接学习预测分位数而非概率密度,我们在理论和实践上获得了诸多优势。我们将该方法与包括共形预测、基准预测以及边际似然在内的前沿方法进行了对比。我们方法的突出特点是利用生成式方法来构建预测分位数图。我们通过正态-正态学习和因果推断的案例来展示该方法。最后,我们对未来的研究方向进行了总结。
关键词:生成式方法,贝叶斯预测,深度学习,共形预测,分位数神经网络,不确定性量化
1 引言
预测是现代机器学习的核心任务。我们的目标是提供一个大规模预测框架。Efron [2020] 阐述了这对现代统计方法如何构成挑战,以及深度学习、神经网络和随机森林等纯粹的“黑箱”方法 [Breiman, 2001] 如何可能超越传统的统计回归方法。Hill [1968] 提出了一种无需指定先验分布的贝叶斯推断方法,随后 Lei 和 Wasserman [2014] 将其推广至回归情形。我们专注于直接对预测分位数函数进行建模的生成式贝叶斯方法,因而无需涉及似然函数和先验分布。正如 Ritov [2025] 近期所指出的,这一特性在高维问题中尤为重要。我们的方法建立在 Parzen (2004, 2009) 发展的分位数推断框架之上,我们将对此进行详细阐述。
我们的方法为机器学习中广泛使用的共形预测方法提供了一种替代方案。条件生成建模的基本洞见在于,它可以借助非参数分位数回归 [White, 1992] 来实现。具体而言,我们希望找到一个分位数函数族,用以描述在给定 X 的条件下,输出变量 Y 的预测分布,其表达式为:
我们的研究也建立在隐含分位数神经网络文献 Dabney 等人 [2018] 以及 Polson 和 Sokolov [2023] 的生成式贝叶斯建模框架之上。
我们旨在直接找到 Breiman [2001] 所提出的预测规则。我们将规避对参数的使用。存在三种方式来表述条件预测期望:
(1) 使用密度函数,
(2) 使用生存函数,以及
(3) 使用分位数。
在贝叶斯框架中,预测密度的计算需要通过积分来求取边际密度。
尽管我们的方法在某种意义上“免先验”且“免似然”——因为我们没有明确指定这些量——但必须认识到,该方法隐含着特定的假设。神经网络架构、损失函数和正则化的选择,共同定义了我们所能表示的一类条件分布。理解这一隐含类的性质,仍然是一个重要的理论研究方向。在我们所举的正态-正态学习例子中,其与王(Wang)扭曲函数的联系提供了有价值的理论见解。这表明,我们的分位数更新过程可以被解释为运用一个扭曲函数,将先验分布转换为后验分布。对神经网络能够学习的扭曲函数类进行刻画,将为架构设计提供理论指导。
。不同的纯粹预测算法彼此之间可能差异很大。其中结构最不复杂且最易于描述的是随机森林(Breiman [2001])。近期的研究则集中于共形预测和预测驱动的推断。
贝叶斯推断的一个核心原则是一致性:要求所有的概率陈述和预测在内部保持一致,并从一个单一的联合概率模型中推导出来。这种一致性是通过为参数指定一个先验分布来实现的,然后根据观测数据,通过贝叶斯定理对该分布进行更新。
我们的研究建立在Parzen [2004, 2009]的统计框架之上,他证明了贝叶斯规则对于分位数而言是函数的复合(叠加)。因此,我们可以利用分位数神经网络(Polson等人 [2024], Polson和Sokolov [2023]),将预测问题替换为一个基于非参数分布匹配(Lu和Wong [2025])的问题。
分位数贝叶斯预测
此方法已广泛应用于分布决策领域 [Dabney 等人 [2017], Polson 等人 [2024]] 和计量经济学 [Chernozhukov 等人 [2010, 2021]]。虽然经典的分位数方法是为单变量开发的 [Koenker [2005]],但最近已有多种针对多变量情况提出的方法 [Carlier 等人 [2016], Kim 等人 [2025]]。这些方法需要使用神经网络来训练从估计中获得的传输映射。
共形预测 这是一种统计技术,它提供了一个灵活的框架,用以构建具有指定置信水平的预测区间或集合,且不依赖于基础数据分布。其工作原理是通过一个非合群度量,评估新数据点与一组先前观测数据的符合程度,以此量化新观测相对于现有数据的异常或典型程度。借助可交换性的概念,共形预测确保所构建的预测区间或集合具有有效的覆盖概率,这意味着即使在有限样本下,它们也能以预先设定的概率包含响应变量的真实值。这使得共形预测成为机器学习和统计推断中不确定性量化的有力工具,因为它提供了与分布无关、模型无关的预测可靠性保证。Angelopoulos 等人 [2022] 和 Angelopoulos 等人 [2023] 描述了共形预测方法的使用。我们将证明,生成式分位数贝叶斯方法是进行预测推断的一种自然方法。Polson 和 Sokolov [2023] 为推断开发了这些方法,Polson 等人 [2024] 则将其用于强化学习。然而,尽管共形映射提供了不确定性量化,它们并不必然导致一致的推断,并且可能隐含了一个具有不存在先验的模型。
预测与基准推断 从基准预测分布导出的预测区间,并不自动具备共形预测区间所特有的、强大的、有限样本的、与分布无关的边际覆盖保证。基准预测区间的频率覆盖性质可能很复杂,并且可能依赖于所使用的特定模型和基准论证的性质 [Liu 和 Martin, 2024]。相比之下,共形预测通过构造,利用可交换数据上的非合群分数进行校准步骤,来实现其保证。
分位数回归在给定某些预测变量的条件下,对响应变量的条件分位数(或百分位数)进行建模,而经典回归则是对条件均值进行建模。这使得我们能够更全面地理解变量之间的关系,特别是当响应变量的条件分布非正态,或关注分布的不同部分(例如,第10百分位数、中位数、第90百分位数)时。它对于具有异方差性的数据尤其有用,因为它可以建模分布的离散程度如何随预测变量变化。广义基准推断 [Hannig 等人, 2016]。后验预测检验 [Box, 1980] 和 [Sinharay 和 Stern, 2003]。
Hannig 等人 [2016] 将这一思想推广到生成式方法,例如深度基准预测。尽管该方法无需指定似然函数和先验分布,但其中无疑隐含了一个先验。具体而言,Hannig 指出,该先验是“经验”杰弗里斯先验。它涉及观测信息与期望信息的比较,以及三明治估计量。这为这类默认贝叶斯程序提供了一个很好的解释。
本质上, ∣ d u / d θ ∣ 即是该隐含先验。经验杰弗里斯先验源于拉普拉斯近似。对于预测问题,其思想是相同的。
一种由Leonard [1976]提出的替代方法被称为逆向预测贝叶斯,它反向应用了贝叶斯定理。对于未来数据 z z和当前数据 x x,反向应用贝叶斯定理可得:
1.1 估计方法
核方法得到了众多泛化界的支持,这些泛化界通常表现为描述基于核的估计器性能极限的不等式。一个特别重要的例子是k-近邻(k-NN)的贝叶斯风险,它可以在核框架下表达为:
Schmidt-Hieber 和 Zamolodtchikov [2024] 展示了如何将核方法用于生成式方法。
1.2 分位数神经网络
分位数神经网络扩展了传统神经网络,使其能够估计条件分位数,而不仅仅是条件均值,这使得它们对于在特征空间中方差发生变化的异方差数据尤其有价值。该方法结合了神经网络架构的灵活性与分位数回归的统计特性 [Koenker, 2005]。
分位数损失函数是凸函数,并提供不对称的惩罚,这促使网络学习第 τ 分位的条件分位数。当 τ = 0.5 时,该函数简化为平均绝对误差,对应于中位数回归。
我们使用条件分位数神经网络(亦称为隐式分位数神经网络 IQN)[Dabney et al., 2018]。我们希望估计一个函数:
2 生成贝叶斯预测
预测贝叶斯充分性存在许多预测充分统计量,包括针对指数族和降维方法的统计量 [Ressel, 1985]。
神经网络估计有多种方法可用于条件分位数函数的神经网络估计。White [1992] 为非参数条件分位数估计提供了理论基础,并在计量经济学文献中确立了一致性结果。在此基础之上,Polson 和 Sokolov [2023] 遵循 Schmidt-Hieber 的理论框架,开发了使用 ReLU 网络的方法 [Schmidt-Hieber, 2020]。这些方法也融入了基于核的技术,类似于近似贝叶斯计算(ABC)中使用的局部加窗技术。
Kim 等人 [2025] 提出了用于多元分位数回归的深度学习方法,将经典的单变量方法扩展到处理复杂的多元依赖关系。他们的框架使用神经网络直接学习条件分位数函数,避免了对显式分布假设的需求。
Lu 和 Wong [2025] 的方法侧重于非参数分布匹配,这与 ABC 方法有相似之处。其核心见解在于,通过以形如 I ( D ( ⋅ , ⋅ ) < ϵ )
的指示函数为条件(其中 D D表示预测密度之间的距离度量),可以将无限维问题降维。
一个关键的考虑因素是预测密度之间距离度量 D D的选择。推土机距离(EMD)为比较分布提供了一个自然的度量标准。当处理来自分布的样本时,问题转变为如何有效地测量距离,从而引出了非参数密度估计问题。尽管 Bishop [1994] 在密度估计方面应对了这一挑战,但直接处理分位数在计算和理论上具有优势。
3 应用
Efron 示例一个具有未知期望 θ 的正态分布作为动机示例,
正态学习考虑正态分布混合的预测分位数函数。我们发现,相较于处理密度混合,直接处理分位数混合更具优势。这种方法利用了Wang扭曲映射框架进行分位数更新。
对于两成分正态分布混合,我们可以展示分位数是如何通过学习过程更新的。依据 Shen 等人 [2002] 的研究,预测分位数函数的形式如下:
该公式与 Wang [2000] 的扭曲深度学习框架自然衔接,该框架为贝叶斯预测问题中的分位数更新提供了一种神经网络方法。
4 讨论
我们提出了一种直接操作预测分位数而非概率密度的生成式贝叶斯预测框架,为大规模预测问题提供了一种新方法。我们方法的根本理论依据是Parzen的复合分位数恒等式,该等式表明条件分位数通过函数复合而非积分进行更新。这一数学性质直接转化为计算优势:神经网络凭借其层级架构擅长学习复合函数,这使我们能够在保持概率一致性的同时,规避传统贝叶斯预测密度所需的昂贵计算积分。我们的方法为共形预测方法提供了一个引人注目的替代方案,同时兼具其免似然和免先验的理想特性。然而,共形预测通过校准来实现与分布无关的覆盖,同时将预测模型视为黑箱;与之不同,我们的生成式分位数方法直接对条件预测分布进行建模,并产生与一个隐含生成模型相一致的预测。这种一致性特性在需要概率推理的应用中可能具有重要价值。
与竞争框架相比,我们的方法具有显著优势。传统的贝叶斯预测推断需要在后验分布上进行积分,这要求指定似然函数和设定先验分布,在高维场景下面临巨大挑战。基准推断虽然也避免了显式先验,但通常需要对数据生成过程做出很强的结构性假设。我们基于分位数的方法仅要求具备通过神经网络从数据中学习条件分位数函数的能力。从计算角度看,一旦训练完成,预测只需要通过网络进行一次前向传播——这是一个常数时间操作,与核方法或基于MCMC的推断形成鲜明对比。该方法天然地处理异方差数据和分布不对称性,可扩展到现代深度学习架构,并通过直接对条件分位数建模来适应局部数据特征。
尽管有其优势,我们的方法也面临若干局限。与所有神经网络方法一样,分位数神经网络需要仔细的超参数调优,并且在小样本情况下可能过拟合。确保分位数单调性需要架构约束或惩罚项,且其可解释性可能不如参数化模型透明。未来的研究有几个充满希望的方向:建立有限样本或渐近保证、扩展到多元输出空间、通过分位数处理效应发展与因果推断的联系,以及通过结构化架构融入领域知识。分位数通过复合进行更新的基本见解,为未来结合不确定性量化的预测研究奠定了坚实基础。
原文链接:https://arxiv.org/pdf/2510.21784
热门跟贴