When Do Credal Sets Stabilize? Fixed-Point Theorems for Credal Set Updates

信念集何时趋于稳定?信念集更新的不动点定理

https://arxiv.org/pdf/2510.04769v1

打开网易新闻 查看精彩图片

摘要

许多机器学习算法依赖于不确定性表示的迭代更新,范围涵盖变分推断与期望最大化、强化学习、持续学习和多智能体学习。在存在不精确性和模糊性的情况下,信念集——概率分布的闭合凸集——已成为表示不精确概率信念的一种流行框架。在这种不精确性下,不精确概率机器学习(IPML)中的许多学习问题可被视为在信念集上连续应用更新规则的过程。这自然引出了一个问题:该迭代过程是否收敛到稳定的不动点?或者更一般地,在更新机制满足何种条件下,这样的不动点存在且可达?我们提供了对该问题的首次分析,并以信念贝叶斯深度学习作为具体示例来说明我们的发现。我们的工作表明,将不精确性纳入学习过程不仅丰富了不确定性的表示,还揭示了稳定性出现的结构条件,从而为不精确性下的迭代学习动力学提供了新的见解。

  1. 引言

在学习问题中,不动点是指当特定变换或算法被反复应用时保持不变的解。不动点的存在通常作为迭代过程稳定性的保证,意味着系统动力学最终会收敛到一个稳定解(Banach, 1922; Ortega and Rheinboldt, 2000)。根据巴拿赫不动点定理(Kamalov and Leung, 2023, 定理2.1),众所周知,完备度量空间上的连续函数若为压缩映射,则具有唯一不动点(技术细节见第2和第3节)。不动点定理已被用于证明学习或优化问题存在解,例如均衡点、稳定模型或策略(Banach, 1922; Kakutani, 1941),表明迭代学习规则,如策略更新、消息传递和期望最大化(EM)步骤,会收敛到稳定点(Dempster et al., 1977; Bertsekas and Tsitsiklis, 1996),并用于刻画多智能体学习中智能体策略的纳什均衡或最优响应动力学(Nash, 1950; Fudenberg and Tirole, 1991)。最近,不动点分析已成为理解人类与AI系统交互所产生动力学的宝贵工具。例如,它帮助研究人员分析从这些复杂交互中产生的模型崩溃(Shumailov et al., 2024)和性能退化(Perdomo et al., 2020; Hardt and Mendler-Dünner, 2025)等现象。

经典的不动点分析尽管被广泛应用,却常常不足以刻画学习问题中固有的模糊性。¹ 在持续学习领域中,模型需在数据流上迭代训练,其学习动力学通常表现出不稳定性(Kirkpatrick 等,2017;Parisi 等,2019)。经验观察表明,训练过程往往无法收敛至单一、稳定的解。这种不收敛表现为模型参数的显著波动,可能严重损害模型在先前已学任务上的性能。这一现象即广为人知的“灾难性遗忘”,是构建鲁棒持续学习系统的关键挑战。

此外,当底层数据源本身存在内在冲突时(Arrow,1950;Walley,1991;Genest 与 Zidek,1986),迭代更新规则的不动点可能根本无法达到。此类冲突可能源于异构数据集或相互矛盾的个体意见等不同来源,从而引入一种动态不稳定性,阻碍系统向稳定解收敛。

受上述挑战启发,本文建立了针对信念集(credal sets)——即概率分布的闭凸集(Levi,1980;Walley,2000)——上更新规则的不动点定理。相较于已在单个概率分布空间上广为研究的不动点分析,信念集上的不动点分析仍相对匮乏。而信念集上的更新规则在不精确概率机器学习(Imprecise Probabilistic Machine Learning, IPML)中处于核心地位;该领域日益增长,旨在利用不精确概率(Imprecise Probability, IP)理论以提升机器学习的鲁棒性、可信性与安全性。经典案例包括广义贝叶斯规则(Walley,1991)、Dempster 规则(Dempster,1967;Shafer,1976)、几何规则(Suppes 与 Zanotti,1977)及其他(Caprio 与 Seidenfeld,2023),它们均直接作用于信念集。近期,现代方法如信念贝叶斯深度学习(Credal Bayesian Deep Learning, CBDL)(Caprio 等,2024a)和不精确贝叶斯持续学习(Imprecise Bayesian Continual Learning, IBCL)(Lu 等,2024)已将这些规则应用于贝叶斯深度学习(BDL)与持续学习(CL)中。其历史重要性,加之在当代机器学习中日益广泛的应用,凸显了确立其稳定解存在之基本条件的迫切性。

本文贡献:我们建立了信念集更新规则达成稳定性的结构性条件。主要贡献如下:

  • 我们首个结果(定理 1)给出了信念集更新方法

  • 其次,我们考察了定理 1 中所得不动点何时唯一,以及信念集序列在反复经

  • 最后,我们对经不同更新函数迭代更新所得的信念集序列,提供了内逼近外逼近。该版本的夹逼定理对基于 IPML 的持续学习与主动学习具有广阔前景。

实证验证我们的发现,我们开展了一个针对有限生成信念集(finitely generated credal sets)的简单合成实验;所谓有限生成信念集,即具有有限多个极值元(extreme elements)的信念集,而极值元指的是那些彼此之间无法表示为凸组合的元素。

  1. 预备知识与相关工作
    2.1 不动点定理
    不动点理论(Granas 等,2003)研究给定映射 f 下方程 f(x)=x 的解的存在性、唯一性及其定性性质。其应用遍及诸多学科:在经济学中,不动点结果支撑了博弈论与一般均衡模型中均衡解的存在性(Scarf,1983);在物理学中,它被用于分析动力系统长期行为与相变(Hess 与 Dancer,1991);在计算机科学与逻辑学中,不动点为归纳原理与递归定义奠定了基础,确保自指构造在数学上是良定义的(Abel,2012);在概率论与统计学中,不动点定理对于建立不变概率测度的存在性至关重要,例如马尔可夫链的平稳分布以及平均场模型中的平衡律。此处,概率测度空间——在弱拓扑下是凸的、紧致的,并常通过 Wasserstein 等距离度量化——为经典不动点定理(如 Banach 定理(Banach,1922)、Schauder 定理(Schauder,1930)以及 Kakutani 定理(Kakutani,1941))的应用提供了自然场景,用以证明此类不变分布的存在性与唯一性。

然而,这些经典结果通常针对作用于精确概率测度或作用于 Rd中概率向量的紧凸集上的映射而提出。当考虑作用于信念集(credal sets)空间(Levi,1980)——即概率测度的非空、弱∗-闭、凸子集——的映射时,其适用性变得不甚明晰。此类集合超出有限维概率向量的框架,并引入了额外的结构性复杂性。如何将不动点结果推广至这一更丰富的设定,正是第 3 节的核心关注点。沿着此方向推进,有望为下一小节所介绍的不精确概率机器学习(IPML)——其中信念集居于核心地位——提供严谨的理论基础。

2.2 不精确概率机器学习
不精确概率机器学习(Imprecise Probabilistic Machine Learning, IPML)是一个新兴领域,旨在将严谨的不精确概率理论(Walley,1991)融入概率机器学习之中。其根本目标在于“对不精确性做到精确刻画”,从而实现更鲁棒、更可信的模型与推断。在多种不精确性表示中,信念集(即非空、闭合且凸的概率测度集合)无疑是最核心的研究对象。近年来,将信念集引入机器学习已在诸多领域催生了显著进展,包括:分类(Caprio 等,2024b)、假设检验(Chau 等,2025b;Jürgens 等,2025)、评分规则(Fröhlich 与 Williamson,2024;Singh 等,2025)、保形预测(Caprio 等,2025;Caprio,2025)、计算机视觉(Cuzzolin 与 Frezza,1999;Giunchiglia 等,2023)、概率编程(Liell-Cock 与 Staton,2025)、可解释性(Chau 等,2023;Utkin 等,2025)、神经网络(Caprio 等,2024a;Wang 等,2024,2025)、学习理论(Caprio 等,2024c)、因果推断(Cozman,2000;Zaffalon 等,2023)、主动学习与持续学习(Dutta 等,2024;Lu 等,2024),以及概率度量(Chau 等,2025a),等等。

然而,据我们所知,尚无先前工作研究作用于信念集上的映射的不动点定理——这一在数学中基础且广泛应用的概念。填补这一空白,正是本文贡献的主要焦点。

打开网易新闻 查看精彩图片

  1. 主要结果

    打开网易新闻 查看精彩图片

定理 1 告诉我们,如果我们的兴趣空间 X 具有足够良好表现的拓扑结构,那么一个连续的更新函数保证至少有一个不动点。这可以看作是 Kakutani 不动点结果(Kakutani, 1941)对信念集的推广。

请注意,定理1中关于 X是紧集的假设并不过于苛刻:例如,彩色图像空间 (其中 w表示图像宽度,h表示高度,3 代表 RGB 通道)就是紧集。在实践中,若 X不是紧集(在我们所选度量 d相容的拓扑下),我们总可以要么改变度量(从而也改变其相容的拓扑),要么考虑 X的紧化。真正的关键在于更新函数 f是连续的(并假定输出为信念集)。这是更新规则核心处的一个性质,不能随意修改。我们现在提供两个例子:一个表明若无连续性,不动点的存在性确实会岌岌可危;另一个则表明一种流行的不精确概率机器学习方法可以被写成一个连续的更新机制。

打开网易新闻 查看精彩图片

这表明,即使在紧致的信念超空间上,若无豪斯多夫连续性,更新规则的不动点也可能不存在。

例2(信念贝叶斯深度学习,CBDL)。在 Caprio 等人(2024a)中,作者提出了信念贝叶斯深度学习(CBDL),这是一种用于执行贝叶斯深度学习的新框架。在训练时,研究者指定先验和似然的有限生成信念集(FGCSs),即具有有限多个极值元的先验与似然分布的信念集。然后,后验信念集通过计算其各自信念集中所有可能的先验-似然对(这些对是各自信念集的极值点)的贝叶斯更新而得出。这可以形式化如下:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  1. 有限生成信念集的示例说明

我们通过如下设定,对本文主要结果(定理 1)给出一个简明示例说明:
我们假定如下数据生成过程:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在本研究中,我们迈出了探索信念集不动点定理的第一步。具体而言,我们推导出了著名 Edelstein 不动点定理与 Boyd-Wong 不动点定理在信念集上的对应版本。

我们的发现引出了诸多有趣的问题,这些将成为未来研究的主题。首先,尽管(贝叶斯)后验一致性/后验集中性在直观上可视为我们结果的特例,但仍需明确地加以证明:若恰当地设定似然函数,并迭代应用贝叶斯规则,则最终将收敛至一个不动点——即在真实参数处的狄拉克分布。

其次,我们计划对更新机制所应具备的理想性质进行公理化刻画,这一目标与近期关于不精确观点聚合(imprecise opinion pooling)的文献方向一致(Elkin 与 Pettigrew,2025)。

第三,值得注意的是,尽管我们的示例基于信念贝叶斯深度学习(CBDL),但我们的关注范围并不局限于贝叶斯范式。这意味着我们的结果适用于任何基于信念集的学习框架。例如,考虑这样一种情形:我们从一组预测器出发(如深度集成中常见的做法,通过随机初始化参数或采用不同超参数得到多个模型),并在收集证据后,要么分别更新各个模型,要么对其进行“修剪”——即仅保留通过某种阈值判定为“正确”的少数模型。未来,我们计划研究:除标准学习过程外,这类基于阈值的更新规则还需满足何种结构条件,才能确保不动点的存在性与可达性。

最后,我们计划探究如何应用本文所证定理,进一步研究在 IIPM(Chau 等,2025a)背景下关于下概率(lower probabilities)的不动点定理存在性。IIPM 是对积分概率度量(Integral Probability Metrics)这一被广泛研究领域的推广,其额外纳入了认知不确定性(epistemic uncertainty)。

原文链接:https://arxiv.org/pdf/2510.04769v1