CREDAL AND INTERVAL DEEP EVIDENTIAL CLASSIFICATIONS

信度与区间深度证据分类

https://papers-pdfs.assets.alphaxiv.org/2512.05526v1.pdf

打开网易新闻 查看精彩图片

不确定性量化(Uncertainty Quantification, UQ)是人工智能(AI)领域中一项关键性挑战,对决策制定、风险评估以及模型可靠性具有深远影响。本文提出了信度深度证据分类(Credal Deep Evidential Classification, CDEC)与区间深度证据分类(Interval Deep Evidential Classification, IDEC)两种新方法,以应对分类任务中的不确定性量化问题。CDEC 依托信度集(即闭凸概率集),而 IDEC 则基于证据预测分布的区间表示;二者均可避免对训练数据的过拟合,并系统性地评估认知不确定性(epistemic uncertainty,可约减)与随机不确定性(aleatoric uncertainty,不可约减)。当不确定性超过可接受阈值时,CDEC 与 IDEC 能够主动拒绝分类,并相应地标记认知或随机不确定性的过度累积;反之,在不确定性处于可接受范围内时,二者可提供一个带有强概率保证的标签集合。CDEC 与 IDEC 采用标准反向传播进行训练,其损失函数源于证据理论,不仅克服了先前方法的局限,还拓展了当前证据深度学习的研究边界。

通过在 MNIST、CIFAR-10 和 CIFAR-100 数据集及其自然分布外(Out-of-Distribution, OoD)迁移版本(F-MNIST/K-MNIST、SVHN/Intel、TinyImageNet)上的大量实验,我们证实:CDEC 与 IDEC 在预测准确率上具备竞争力;在认知不确定性与总不确定性下的 OoD 检测方面达到当前最优水平(state-of-the-art);其预测区域不仅紧凑且校准良好,并能在分布偏移下可靠地扩展。进一步地,针对集成规模的消融实验表明:CDEC 仅需极小规模的集成即可获得稳定的不确定性估计。

  1. 引言近年来,不确定性(uncertainty)的概念在机器学习(ML)与人工智能(AI)领域受到日益广泛的关注,其原因在于这些领域在实际应用中的重要性持续增长(Sale, Caprio & Hüllermeier, 2023)。许多此类应用具有安全性要求,例如医学领域(Lambrou, Papadopoulos & Gammerman, 2010;Senge 等, 2014;Yang 等, 2009)或社会技术系统(Varshney, 2016;Varshney & Alemzadeh, 2017)。这些安全关键场景的用例表明:为构建现代、可靠的机器学习系统,对不确定性进行恰当的表征与量化势在必行。

在 ML 与 AI 中,用户通常关注两类不确定性:随机不确定性(aleatoric uncertainty, AU)与认知不确定性(epistemic uncertainty, EU),二者将在第 3 节中形式化定义;现有针对 AU 与 EU 量化的方法已在 Hüllermeier 与 Waegeman(2021)中得到系统综述。

随机不确定性指数据生成过程本身固有的不确定性,因而不可约减。例如投掷一枚硬币:无论实验重复多少次,其结果的随机变异性都无法消除——我们无法确切预知每次投掷的结果。相较而言,认知不确定性则源于对数据生成过程知识的缺乏,因此是可约减的。例如,在仅进行少量投掷后,我们无法判断硬币是否偏斜;但若实验次数足够多,此类不确定性便会消失。在机器学习实践中,EU 通常可通过扩充训练集(例如借助语义保持变换(Kaur 等, 2023)、Puzzle Mix(Kim, Choo & Song, 2020)等技术)并重新训练模型来降低(Lin 等, 2023)。另一方面,由于 AU 本质上不可约减,当前愈发需要那些能够检测 AU 过量情形的 ML 方法,并据此主动标记此类过量状态、拒绝给出预测结果,或提示“谨慎处理”。

因此,在(概率性)ML 与 AI 中,明晰地区分 AU 与 EU 是一项关键任务。然而,单一概率测度仅能刻画随机不确定性,因其隐含了智能体精确知晓真实数据生成过程的假设(Hüllermeier & Waegeman, 2021, 第458页)。正因如此,研究人员已提出多种深度学习技术,以期解耦 AU 与 EU。总体而言,现有工作可归为以下四类宏观范式(更多相关工作见附录 B):

  1. 基于贝叶斯深度学习的方法(Jospin 等, 2022;Kendall & Gal, 2017;Smith & Gal, 2018),例如信度贝叶斯深度学习(Credal Bayesian Deep Learning;Caprio 等, 2024a)。尽管其理论基础坚实,但因需近似贝叶斯后验(如通过变分推断),常带来较大的计算开销。
  2. 基于 Dempster–Shafer 证据理论的方法(将不确定性建模为随机集与模糊逻辑),例如证据神经网络(Denoeux, 2000;Denœux, 2022, 2023;Denœux, Dubois & Prade, 2020;Denœux & Zouhal, 2001;Masson & Denœux, 2008)及认知深度学习(Manchingal & Cuzzolin, 2022;Manchingal 等, 2023)。这些方法兼具理论合理性与较快的实现速度,但其关注点仅限于识别与量化 EU,并据此做出最优决策,未同时处理 AU。
  3. 基于二阶分布的方法(即分布之上的分布),例如 Kronecker 因子化拟牛顿法(Ren, Bahamou & Goldfarb, 2022)与证据深度学习(Evidential Deep Learning, EDL;Ulmer, Hardmeier & Frellsen, 2023 及其参考文献)。然而,近期研究指出:此类方法在量化 EU 时存在严重缺陷,因其对正则化超参数高度敏感,并普遍低估 AU(Bengs, Hüllermeier & Waegeman, 2022;Jürgens 等, 2024;Pandey & Yu, 2023)。
  4. 特设性(ad-hoc)方法,例如神经网络集成(Egele 等, 2021)。此类方法计算效率尚可,但其对 AU 与 EU 的度量通常缺乏坚实的理论依据,往往仅凭直觉吸引力或计算便捷性而被选用。

综上可见,现有方法均至少缺失以下理想特性之一:(i)理论严谨性,(ii)实现高效性,(iii)能恰当地量化并解耦 AU 与 EU。

作为回应,本文提出两种面向分类问题的新型深度学习技术:信度深度证据分类(Credal Deep Evidential Classification, CDEC)与区间深度证据分类(Interval Deep Evidential Classification, IDEC)。二者均属 EDL 框架,但采用一阶分布建模路径,从而规避上述第(3)类方法的缺陷;其构建融合了贝叶斯统计、信度集理论及测度区间(intervals of measures)理论。其中,信度集指闭凸概率集合(参见定义 3.1),而测度区间则是一族通过对正有界测度归一化所得的概率密度(或质量)函数构成的集合(参见定义 5.1)。如命题 5.2 所示,信度集与测度区间存在内在关联。

模型训练完成后,给定新输入 x ~ x~,CDEC 输出一个关于标签的预测信度集(predictive credal set),并据此评估不确定性:若总不确定性(Total Uncertainty, TU)过高,则 CDEC 主动拒绝为 x ~ x~ 分配标签,并依情况返回“AU 过量”或“EU 过量”警告;若 TU 处于可接受范围内,则返回一个高置信度标签集(label region),其以高概率包含真实标签。IDEC 执行相同流程,仅将信度集替换为预测分布的区间表示

值得注意的是,CDEC 与 IDEC 成功应对了 Ulmer、Hardmeier 与 Frellsen(2023)所指出的 EDL 方法三大核心挑战:(i)支持对 EU 与 AU 的显式估计;(ii)通过预测信度集/测度区间实现对模型误设的鲁棒性;(iii)对所预测的标签区域提供理论保证。

正如 Hüllermeier 与 Waegeman(2021)所强调,基于信度集的 AU 与 EU 度量具备极强的理论正当性。同时,CDEC 与 IDEC 实现高效——仅依赖反向传播训练的神经网络架构。

我们在多项分类任务中实验验证了所提方法的有效性:

  • 首先,评估分布内(in-distribution, iD)预测性能,结果显示:在多个数据集(MNIST、CIFAR-10、CIFAR-100)及多种骨干网络(Simple ConvNet、VGG16、ResNet18、ResNet50)上,CDEC/IDEC 显著提升了预测准确率与校准性;
  • 其次,在分布外(out-of-distribution, OoD)检测方面取得显著提升,涵盖多种基准设置:CIFAR-10 训练 / SVHN 或 Intel 图像测试、MNIST 训练 / F-MNIST 或 K-MNIST 测试、CIFAR-100 训练 / TinyImageNet 测试;
  • 此外,我们还展示了分类区域的稳健性,并通过若干消融实验深入探究了 CDEC 与 IDEC 的适用性:例如,消融结果揭示了认知不确定性如何随集成多样性增长,以及 CDEC 如何在不同集成规模下保持高覆盖率稳定的 iD–OoD 分离能力

本文贡献与结构安排如下:我们提出 CDEC 与 IDEC,两种面向分类的深度学习技术,具备以下特性:(i)能以理论严谨的方式解耦并量化 EU 与 AU,并对高水平不确定性作出恰当响应(第 6.3 节);(ii)生成具备概率保证的标签区域(第 6.5 节);(iii)计算开销低——CDEC 仅需小型集成,IDEC 甚至只需单个后验模型(第 6 节);(iv)在预测准确率(第 6.2 节)、不确定性分解(第 6.3 节)、OoD 检测(第 6.4 节)及集成消融(第 6.6 节)等多个维度得到实证验证。

全文结构如下:第 2 节提供理解本文结果所需的背景知识;第 3 节详述 AU 与 EU 及其量化方式;第 4 与第 5 节分别介绍 CDEC 与 IDEC;第 6 节呈现实验结果;第 7 节总结全文;所有证明见附录 G。

  1. 背景

2.1. 狄利克雷分布与分类分布

在本节中,我们介绍两种对理解本文所提出方法至关重要的分布(Hoff, 2009)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  1. 信度不确定性建模

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

熵主要捕捉概率质量函数(pmf) P P 的形状,即其“尖锐性”或非均匀性(Dubois & Hüllermeier, 2007; Hüllermeier & Waegeman, 2021),从而反映了随机实验结果的可预测性:其值越高,可预测性越低。

打开网易新闻 查看精彩图片

,分别称为上熵和下熵(Shannon 熵)。上熵是总不确定性的一种度量,因为它代表了与信度集 P P 中元素相关的最小可预测性水平。在 Abellán, Klir 和 Moral (2006) 以及 Hüllermeier 和 Waegeman (2021) 中,作者提出它可以被分解为随机不确定性和认知不确定性的总和,并且后者可以被指定为上熵与下熵之间的差值,从而得到:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  1. 信度深度证据分类(Credal Deep Evidential Classification)本节介绍我们提出的第一种方法,称之为信度深度证据分类(Credal Deep Evidential Classification, CDEC)。

4.1 不精确最高密度区域

我们首先引入下概率(lower probability)、上概率(upper probability)以及(1 − γ)-不精确最高密度区域((1 − γ)-Imprecise Highest Density Region, IHDR)的概念。

打开网易新闻 查看精彩图片

4.2 信度深度证据分类我们的第一种分类方法如算法 1 所示,称之为信度深度证据分类(Credal Deep Evidential Classification, CDEC)。之所以如此命名,是因为该方法基于信度集理论;并且,当总不确定性(TU)未超过阈值时,其输出即为一个不精确最高密度区域(IHDR)。

打开网易新闻 查看精彩图片

在训练过程中,步骤 1 中,设计者为 S 个编码器和标准化流选择 S 个随机种子。S 的数值与智能体所面临的模糊性相关:S 越大——即指定的随机种子越多——模糊性越高。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.3 信度深度证据分类的特点

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

其次,信度深度证据分类在启发式上类似于不精确狄利克雷模型(IDM, Bernard, 2005; Walley, 1996)和朴素信度分类器(NCC, Cozman, 2000; Zaffalon, 2002; Augustin et al., 2014, 第 10 章),但存在两个主要区别:(i) 我们使用分类分布而非多项分布作为似然函数;(ii) 我们通过信度集表示来考虑可能的似然误设。也就是说,我们的方法归属于“不精确抽样模型”或“似然稳健性”研究领域(Shyamalkumar, 2000)。此外,在 IDM 中,先验与数据之间可能存在的冲突并不会反映为更高的不精确性(Augustin et al., 2014, 第 7.4.3.3 节)——即,IDM 对先验-数据冲突不敏感——而 CDEC 则完全规避了这一问题,因为它考虑的是一个均匀的狄利克雷先验以及一组合理的似然函数。

最后,由于 CDEC 生成具有预定义准确率水平 1 − γ 的类别区域,它在启发式上也类似于共形预测(Conformal Prediction, Shafer & Vovk, 2008)。然而,后者是一种无需分布假设的方法,因此无法直接与 CDEC 进行比较。对基于模型与无模型方法之间关系的深入研究超出了本文范围,将在未来工作中探讨。

5. 区间深度证据分类
在本节中,我们提出一种称为区间深度证据分类(Interval Deep Evidential Classification, IDEC)的程序,它简化了算法 1。为此,我们使用测度区间(Coolen, 1992; DeRoberts & Hartigan, 1981)代替信度集。

5.1 测度区间

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  1. 实验6.1 实现细节

    本节对信度深度证据分类(Credal Deep Evidential Classification, CDEC)与区间深度证据分类(Interval Deep Evidential Classification, IDEC)开展全面的实证研究。我们的实验考察了预测性能、不确定性量化能力、拒绝(abstention)行为,以及对分布外(Out-of-Distribution, OoD)样本的鲁棒性。我们在多个数据集、网络架构以及与不确定性相关的任务上系统评估所有方法。

数据集与预处理我们在标准多类别图像分类基准上评估以下方法:PostNet(Charpentier, Zügner & Günnemann, 2020)、PostNet-3(PostNet 的 3 模型集成)、CDEC-3(3 模型集成)以及 IDEC(单模型)。所用基准包括:CIFAR-10(Krizhevsky, Nair & Hinton, 2009)、MNIST(LeCun & Cortes, 2005)和 CIFAR-100(Krizhevsky, 2012)。这些数据集使我们得以在低维与高维视觉变异性条件下全面检验所提方法的性能。

每个数据集均配有一组自然发生的分布外(OoD)偏移数据。在 OoD 检测实验中,我们采用以下同分布(iD)/分布外(OoD)配对组合:

  • CIFAR-10 vs. SVHN(Netzer 等, 2011)与 Intel-Image(Bansal, 2019);
  • MNIST vs. F-MNIST(Xiao, Rasul & Vollgraf, 2017)与 K-MNIST(Clanuwat 等, 2018);
  • CIFAR-100 vs. TinyImageNet(Le & Yang, 2015)。

所有数据集均通过torchvision加载,并经由一个与骨干网络适配的统一处理流程(backbone-aware pipeline)进行标准化处理:对于卷积架构(‘conv’),MNIST 图像仅进行标准化并保持原始分辨率;而 CIFAR 系列数据集及其对应的 OoD 数据集则统一缩放至 32 × 32 像素。我们仅应用标准的数据集归一化操作(即使用各数据集特有的均值与方差),未引入任何数据增强,以避免对不确定性分析造成混淆干扰。

骨干网络与训练细节
我们在四种神经网络架构上实现了所提方法:轻量级卷积网络(‘conv’)、VGG16、ResNet18 和 ResNet50。其中,‘conv’ 架构由三层卷积层组成,每层使用 64 个滤波器、LeakyReLU 激活函数以及大小为 5 的卷积核,每层后接步长为 2 的最大池化操作。所有骨干网络均被封装于一个后验网络(Posterior Network)中;该后验网络依据 Charpentier、Zügner 与 Günnemann(2020)的方法,生成狄利克雷证据参数以及由似然流诱导的虚拟计数。

打开网易新闻 查看精彩图片

其次,我们依据公式 (4) 与 (10) 的定义,对不确定性进行分解,包括随机不确定性(AU)、认知不确定性(EU)与总不确定性(TU)。对 CDEC-3 而言,AU 对应于信度集极值点中最小熵,EU 则反映这些极值点之间的熵变异性;对 IDEC 而言,AU/EU/TU 由 诱导的区间方差分解给出。表 2 汇总了各模型的平均 AU/EU/TU,完整的不确定性密度图见图 4、3 与 5。这些核密度估计(KDE)图清晰展现了 iD 与 OoD 样本之间的分离,尤其是在 EU 与 TU 维度上尤为显著。

第三,我们通过 AUROC 与 AUPRC 评估模型对 OoD 的鲁棒性,指标涵盖 AU、EU、TU 及置信度(见算法 H.2)。实验涉及以下 OoD 偏移组合:MNIST → {F-MNIST, K-MNIST}、CIFAR-10 → {SVHN, Intel}、CIFAR-100 → TinyImageNet。代表性结果见表 2,全量骨干网络结果见表 9。如附录 I.2.3 及图 6 所验证,CDEC-3 在 iD 与 OoD 不确定性之间实现了最清晰的区分,IDEC 也呈现类似趋势,但区分度稍弱。

第四,我们通过不精确最高密度区域(IHDR)分析所学信度集的结构。表 3 报告了不同数据集与骨干网络下的 IHDR 尺寸与覆盖率;表 10 则量化了 IHDR 在分布偏移下的膨胀程度。图 1 的可视化结果与图 8 的定性示例表明:CDEC-3 在 iD 样本上生成紧凑的 IHDR,而在 OoD 输入上系统性地扩展;相比之下,IDEC 生成的 IHDR 更大且变异性更高。更多 IHDR 分析见附录 I.2.4。

打开网易新闻 查看精彩图片

最后,我们针对 CDEC 的集成规模开展消融研究(第 6.6 节)。采用集成规模 S ∈ { 1 , 3 , 5 , 7 , 10 },比较 IHDR 尺寸、覆盖率及平均 AU/EU/TU(见表 4),并在图 2 中可视化其分布。结果表明:CDEC 在 S ≈ 3
时趋于稳定;更大的集成规模会以一种可预测的、依赖于数据集的方式增大认知不确定性散布。

打开网易新闻 查看精彩图片

综上,这些评估全面刻画了 CDEC-3 与 IDEC 的实证表现,证实二者均能实现原理性不确定性量化鲁棒的拒绝行为,并在分布偏移下保持优异性能,同时在基础分类任务上维持有竞争力的预测准确率。

6.2 预测性能
本节评估 PostNet、PostNet-3、CDEC-3 与 IDEC 在所有数据集与骨干网络上的分布内预测行为(详见第 I.2.1 节)。

  • 预测准确率按标准方式计算:即预测类别(对应分类分布预测均值的最大值类别)与真实标签一致的测试样本比例。
  • Brier 分数定义为预测概率向量与对应 one-hot 编码目标之间的均方偏差,从而同时反映校准性锐度(sharpness)。
  • 校准质量进一步通过期望校准误差(Expected Calibration Error, ECE)量化:将预测置信度划分为等宽区间,计算每个区间内经验准确率与平均置信度的绝对偏差,并以区间频率为权重加权求和,最终累加各区间结果。具体计算流程见附录 H.1。

打开网易新闻 查看精彩图片

表 2 报告了采用 ResNet-50 骨干网络时的预测性能,而附录 I.2.1 中的表 6、7 和 8 则提供了 Conv、VGG16 和 ResNet18 的完整结果。在所有设置下,CDEC-3 始终优于基线方法

  • 在 MNIST 上,CDEC-3 达到最高准确率,即便任务极为简单,其校准性能仍具竞争力;
  • 在 CIFAR-10 上,CDEC-3 明显优于 PostNet 与 PostNet-3;
  • 在更具类别复杂性的 CIFAR-100 上,基线方法的校准误差进一步扩大,而 CDEC-3 在所有骨干网络中均保持最低的 Brier 分数及最低之一的 ECE 值(参见附录 I.2.1,表 6–8)。

这一表现符合预期:CDEC-3 的预测基于信度集的下包络(lower envelope),本质上仅聚合狄利克雷集成中极值(即最具信息量)成员的预测。这些极值点通常具有较低熵值与更尖锐的类别概率分布,从而在避免过度自信的前提下,实现更果断的预测。

IDEC 在点预测方面表现同样具有竞争力:其准确率常与 PostNet-3 相当,并在 MNIST 和 CIFAR-10 上取得部分最低的 ECE 值;然而,为保证边缘覆盖率而必需的区间膨胀(interval inflation),偶而在 CIFAR-100 上导致预测分布趋于平坦,进而推高 Brier 分数。

6.3 不确定性估计除点预测外,我们还评估各方法如何将预测不确定性分解为随机不确定性(AU)、认知不确定性(EU)与总不确定性(TU)。表 2 给出了 ResNet-50 骨干网络下的平均 AU/EU/TU 值,Conv、VGG16 和 ResNet18 的对应结果见附录 I.2.2 及表 6–8。此外,附录 I.2.2 还提供了完整的不确定性密度图(图 4、3、5),展示了分布内(蓝色)与分布外样本的 AU、EU 和 TU 分布。

在所有数据集与架构上,CDEC-3 生成的不确定性剖面最为锐利且信息丰富:因其不确定性计算源自信度集的极值点,AU 对应于最合理预测分布中的最小熵,EU 则对应于极值假设间的熵差。这种机制天然抑制了虚假的认知不确定性成分,使总不确定性(TU)显著低于 PostNet 与 PostNet-3。该效应在 CIFAR-100 上尤为突出——此处模型误设最为严重,PostNet 集成常过度膨胀认知不确定性。

IDEC 则展现出互补性行为:其基于方差的认知膨胀机制在较简单数据集(MNIST、CIFAR-10)上可取得具竞争力的 AU 与 EU 表现;但在 CIFAR-100 上,为保证边缘覆盖率而强制进行的区间扩展,导致认知不确定性项过大(图 5 中亦可见),甚至主导随机不确定性,从而显著抬高总不确定性(TU)。这正符合区间型不确定性建模的理论预期:当预测概率向量在多个类别上较为弥散时,即使适度的膨胀参数(见公式 (10))也会放大 EU,最终导致 TU 值急剧升高。

6.4 分布外(OoD)
接下来,我们评估 PostNet、PostNet-3、CDEC-3 与 IDEC 在区分同分布(in-distribution, iD)数据与未见过的分布外(OoD)偏移数据方面的能力。遵循标准实践,我们采用AUROCAUPRC(见算法 H.2)作为判别性能指标,并分别基于随机不确定性(AU)、认知不确定性(EU)、总不确定性(TU)以及预测置信度(‘conf’)进行排序。对于置信度,其值越高表示越接近 iD 行为,因此在排序前需取负值。表 2 报告了 ResNet-50 骨干网络下各数据集上基于置信度的 AUROC/AUPRC;完整结果(涵盖 EU/AU/TU/conf 四项指标,所有架构)见附录 I.2.3(表 9)。

在所有设置中,CDEC-3 始终展现出最强的 OoD 判别能力,尤其是当排序依据为认知不确定性总不确定性时。这一表现直接源于 CDEC 的信度集构造机制:当输入偏离训练流形时,信度集的极值点发生显著发散,从而放大认知散布,清晰分离 iD 与 OoD 样本。IDEC 在 MNIST 和 CIFAR-10 上表现亦佳;然而,在 CIFAR-100 上,其必需的区间膨胀偶导致预测分布趋于平坦,削弱了判别对比度。附录 I.2.3 中的图 6 通过 AU、EU 和 TU 的核密度估计(KDE)图对这一趋势进行了可视化验证:在所有数据集上,iD 样本的不确定性分布高度集中,而 OoD 样本则呈现出更宽、右偏的不确定性轮廓。

6.5 不精确最高密度区域(IHDR)
表 3 从 IHDR 尺寸与覆盖率角度,总结了 CDEC-3 与 IDEC 在不同数据集与骨干网络上的表现:

  • 对所有数据集,CDEC-3 在 iD 数据上均生成高度集中的信度集:MNIST 上 IHDR 尺寸接近 1,CIFAR-10 上低于 7;且在所有骨干网络上均实现完美或近乎完美(perfect or near-perfect)的覆盖率;
  • 相比之下,IDEC 返回的 IHDR更大且更弥散,尤其在 CIFAR-100 上:其平均集合尺寸依骨干网络不同,介于 36 至 61 之间。

这些结果凸显了一个关键的结构性差异:CDEC-3 在同分布(iD)输入上倾向于生成高度特异的信度集,而 IDEC 则体现出更为谨慎且弥散的不确定性表征

骨干网络的选择主要影响 IDEC:浅层架构(如 VGG)会显著放大 IDEC 的 IHDR 尺寸(例如,在 CIFAR-100 上,IHDR 尺寸从 ResNet50 的 61.5 下降至 VGG 的 36.0),表明其所学信度结构对表征质量较为敏感。相比之下,CDEC-3 对骨干网络变化表现出较强的鲁棒性:其 IHDR 在 Conv/VGG/ResNet 等不同架构下始终保持紧凑,且即便骨干网络改变,其 iD 与 OoD 之间的分离能力依然得以维持。

分布偏移的影响见附录 I.2.4 中的表 10,该表对比了模型在 iD 输入上的平均 IHDR 尺寸与在一种或多种 OoD 数据集上的尺寸:

  • 对于 CDEC-3,IHDR 在分布偏移下显著扩张(在 MNIST 和 CIFAR-10 上增加 +3 至 +7,在 CIFAR-100 上增加 +23),从而实现了 iD 与 OoD 之间强而单调的分离
  • IDEC 在大多数设定下呈现相同的定性趋势,但其扩张幅度相对更小。

打开网易新闻 查看精彩图片

图 1 直观展示了这些趋势:在各数据集上,CDEC-3 在同分布(iD),而在分布外(OoD)输入上生成大得多且界限清晰的 IHDRIDEC 表现出类似但较不显著的行为:尽管其 iD 的 IHDR 已比 CDEC-3 更大,iD 与 OoD 之间的对比度通常也更弱。

总体而言,这些结果表明:CDEC-3 提供了最一致且最具可解释性的行为——它在 iD 数据上构建紧凑、校准良好的信度集,同时在面对分布偏移时,能以清晰、系统的方式扩展 IHDR 尺寸,实现对不确定性的结构化响应。

在附录 I.2.4 中,我们进一步提供了关于 IHDR 尺寸与覆盖率的补充分析,以及针对 MNIST、CIFAR-10 和 CIFAR-100 数据集随机选取测试样本的 IHDR 定性示例(见图 8)。

6.6 集成规模对 CDEC 的影响

为研究 CDEC 集成规模 S S 对所得信度集及分解后不确定性的影响,我们在 MNIST、CIFAR-10 和 CIFAR-100 上评估了集成规模 S ∈ { 1 , 3 , 5 , 7 , 10 }的 CDEC。表 4 报告了各设定下的 IHDR 尺寸、覆盖率以及平均 AU/EU/TU 分量;图 2 则可视化展示了 IHDR 尺寸的分布及其覆盖率行为。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

不确定性分解。AU/EU/TU 的行为与 IHDR 趋势一致:

  • 当 S = 1 时,MNIST 与 CIFAR-10 上的认知不确定性(EU)几近为零,这符合单一样本后验的预期;
  • 随着 S S 增大,EU 稳步上升并逐渐主导总不确定性(TU),而随机不确定性(AU)则保持相对稳定;
  • EU 的增长直接对应于图 2 中 IHDR 分布的加宽,反映了集成引入的认知多样性;
  • 在 CIFAR-100 上,EU 随 S S 持续增长,导致 TU 相应上升——这与该数据集更高的类别复杂性一致,并证实:在 CDEC 中,IHDR 的扩张主要由认知散布驱动

综上,消融实验表明:
(i) CDEC 仅需小型集成( S ≈ 3 )即可实现稳定的 IHDR 行为;
(ii) 更大规模的集成主要通过提升认知不确定性来拓宽 IHDR;
(iii) 覆盖率在各数据集上均保持接近完美。

这些结果证明,CDEC 的不确定性分解对集成规模具有可预测的依赖性,其认知分量以数据集依赖的方式适度缩放。

7. 结论
本文提出了 CDEC 与 IDEC 两种证据深度学习方法,可在分类任务中有效度量随机不确定性(AU)与认知不确定性(EU);当检测到过度不确定性时,二者能够主动拒绝输出,具有重要实用价值。其理论基础植根于信度集理论测度区间理论。大量实验进一步验证了其优异性能。

本文全程假设类别总数已知。未来工作中,我们将取消这一前提假设;附录 F 已给出一种高层次的解决思路。

此外,我们计划将 CDEC 与 IDEC 拓展至回归问题。这颇具挑战性,原因在于:我们在算法 1 第 4 步中所依赖的“分类分布与其参数之间的一一对应关系”,在一般情况下可能不成立(参见 Jürgens 等, 2024, 定理 3)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

原文: https://papers-pdfs.assets.alphaxiv.org/2512.05526v1.pdf