Estimation of Over-parameterized Models from an Auto-Modeling Perspective

从自动建模视角估计过参数化模型

https://arxiv.org/pdf/2206.01824

打开网易新闻 查看精彩图片

摘要

从模型构建的角度出发,我们提出一种适用于过参数化模型拟合的范式转变。在理念上,其核心思想是将模型拟合未来观测值,而非已观测的样本。在技术上,给定一种用于生成未来观测值的插补方法,我们通过对目标期望损失函数的近似进行优化来拟合过参数化模型,该近似基于其样本对应形式和一个自适应对偶函数。所需的插补方法也采用相同的估计技术,并结合一种自适应的 m m-out-of- n n 自助法予以构建。我们通过多重正态均值问题、 n < p 的线性回归以及基于神经网络的 MNIST 手写数字图像分类等应用加以说明。数值结果表明,该方法在这些多样化任务中均展现出优越性能。尽管本文主要为阐述性质,但仍对相关理论问题进行了深入探讨,并在最后就若干开放性问题提出评述。

关键词:自助法;交叉验证;未来观测;图像分类;重采样

1 引言

过度参数化模型,如神经网络,在统计分析中起着至关重要的作用。它们的主要优势在于能够灵活且高效地近似不同结构中的非线性函数。然而,应用过度参数化模型可能会带来挑战(参见,Nalisnick等人(2019))。主要挑战出现在模型估计过程中,这通常涉及基于观测数据最小化损失函数(Vapnik,1991)。在这种情况下,对观测数据看似乐观的性能未能推广到总体数据,导致因存在泛化差距而广为人知的过拟合问题。这种过拟合问题也是定义过度参数化的主要特征(参见,例如,Oneto等人,2023)。

传统上,为了在提高过度参数化模型的有效性的同时减轻其相关挑战,以预测为导向的模型选择至关重要。预测方法的实施通常基于简单有效的交叉验证思想,主要参考文献有Stone(1974,1977)、Geisser(1975)和Efron和Tibshirani(1994,第255页,以及其中引用)。在现代机器学习时代,正则化技术(Bühlmann和Van De Geer,2011)通常用于通过使过度参数化模型“更简单”来防止过拟合。正则化过程通常涉及选择超参数,使模型选择过程本质上成为超参数优化任务。

尽管简单且总体有效,但当前拟合过度参数化模型的框架存在某些局限性。首先,模型估计和模型选择过程是分开的。这种分离通常需要限制候选模型的数量以确保计算可行性。例如,在L1惩罚模型中,通常采用网格搜索方法来探索有限范围的超参数值(以下简称为λ)。这种方法可能导致估计模型的不一致性,源于候选集选择的变化。其次,超参数调整过程可能不适应观测数据。例如,在K折交叉验证方法中,相同的调整后的超参数用于K个模型,每个模型都基于不同的观测数据拟合,以及使用完整观测数据的最终模型(参见Tibshirani和Tibshirani,2009,以及其中引用)。此外,最近的研究,如Bates等人(2024),指出交叉验证存在问题,表明它可能无法充分估计预测误差。而且,也许最重要的是,当使用高维超参数以充分利用过度参数化模型的能力时,似乎需要新的方法。

在这里,我们采取模型构建的视角,提出了一个新的框架,自动建模(AM),用于估计过度参数化模型。从哲学上讲,这种思维方式是将模型拟合到未来的观测,而不是观测样本。技术上,给定一种生成未来观测的插补方法,我们通过优化期望损失函数的近似来拟合这些未来观测的过度参数化模型。这种优化基于经验对应物和自适应对偶函数,该函数扩展了具有可估计超参数的惩罚函数。所需的插补方法也使用相同的估计技术,采用自适应m-out-of-n自举方法开发。

所提出的估计框架本身似乎适用于使用自举方法创建插补模型,自举总体作为未来观测,自举样本作为观测数据。

然而,由于标准(n-out-of-n)自举方法在高维问题中的困难(参见,Jiang等人,2024,以及其中引用),我们使用基于自适应m-out-of-n自举的插补方法。值得注意的是,所提出的最终估计方法在过度参数化的背景下,是结合基于重采样结果的真正方法;参见备注2。

AM通过各种应用进行说明,包括多正态均值问题、n < p线性回归和基于神经网络的MNIST数字图像分类。数值结果表明,对于多正态均值问题,AM在大多数情况下优于其他流行方法。对于线性回归,AM产生的模型参数估计导致性能大大改善,通过较低的预测误差和增强的预测区间覆盖率,与领先技术相比。在MNIST图像分类中,当应用于标准模型结构时,AM显著超越了几种常用的正则化方法。

在本文的其余部分,我们将在第2节中全面探讨所提出的AM框架。所需的数值算法在第3节中讨论。第4节提供了相关的理论结果。第5节给出了三种不同示例中该方法的应用。第6节以一些备注结束。

2 总体框架

2.1 设置

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

作为损失函数。从第1节中详细阐述的建模角度来看,我们将 θ 的最优估计定义为一组 θ -值,这些值最小化了相对于总体的期望损失。也就是说,这样的 θ -值形成集合

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2.2 模型估计的新方法

打开网易新闻 查看精彩图片

正如第1节中所阐述的,现有的框架如ERM可能存在某些局限性。这促使我们寻找一个近似解决方案来

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2.3 通过数据分割和自适应重采样进行插补

在本文中,我们主要关注给定观测协变量的插补。更准确地说,我们通过多次插补生成未来的观测

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

以一种简单而高效的方式检验条件(12),引导我们采用 Kolmogorov–Smirnov 检验(KS 检验,Massey (1951);另见 Liu (2023))来评估插补模型的有效性。具体而言,KS 检验所得的 p 值——用于比较(12)中所述的插补分布与标准均匀分布——被用作有效性的度量指标。这一度量反过来成为选择合适重抽样方案以估计插补模型的关键指导。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

为便于理解,图1给出了所提出框架主要组成部分的图示说明。补充材料S.1中提供了一个简单的示例。AM的清晰性和计算效率将在以下注释中进一步阐述。

注释2:估计过程(算法1)也可视为将多个独立的插补模型组合成一个单一模型,类似于bootstrap和贝叶斯平均方法。这种方法在过参数化模型中尤其相关,因为在这些模型中,bootstrap和类贝叶斯平均方法的有效性存疑。

注释3:所提出的插补方法在概念上与现有的集成技术(尤其是Bagging和Stacking)具有相似之处,这两种技术在统计学和机器学习领域已得到广泛确立(Breiman, 1996; Wolpert, 1992)。然而,由于我们的方法不同于集成方法,其动机源于统计建模,并且仅保留单个模型。正因这一关键差异,我们的方法显著提升了模型解释与推断的便捷性。

打开网易新闻 查看精彩图片

3 数值优化方法
在本节中,我们为 AM 估计量开发高效的数值优化算法。
为便于分析,我们假设损失函数和对偶函数的正则性条件(详见补充材料 S.2.1)均成立。由于使用算法 2 和算法 3 实现的插补步骤与使用算法 1 实现的估计步骤涉及相同的优化问题,本节将聚焦于估计步骤。
具体而言,我们的目标是求解:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

可以开发出算法 4 的多种变体。例如,通过将 θ 和 λ 的更新步骤替换为随机梯度下降(SGD)更新或 ADAM 更新(Kingma 和 Ba, 2014),即可轻松获得一种随机坐标下降算法,作为算法 4 的随机变体。该变体在第 5.3 节的神经网络应用中被采用。对于本文所有的数值示例,算法 4 及其变体均产生了令人满意的收敛结果。这些数值方法的正式理论性质将另文报告。

4 理论考量

4.1 模型有效性与估计有效性

现代过参数化模型在大数据应用中的成功,使我们相信,同时考虑样本量增大时的建模过程,并引入一种新的“有效性”概念(或更准确地说,是关于潜在建模策略的“有效性”)至关重要。正是在此背景下,本节将给出有效性的数学定义,以确保第 4.2 节所呈现结果的清晰性;参见注释 1 以了解类似观点。

打开网易新闻 查看精彩图片

从概念上讲,定义 1 放松了传统假设——即模型在任何有限样本量下都必须精确指定,这种假设通常用于建立模型的渐近“正确性”。接下来的命题 1 和 2 将说明此模型有效性定义如何与传统的统计假设相关联。首先,我们引入“模型泛化”的概念,以供后续参考。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.2 AM 的估计有效性

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5 应用

5.1 多个正态均值的同时估计

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

表1总结的结果表明,尽管在最初的简单示例中DPMM优于AM,但在两个更具挑战性的示例中,AM的表现超越了包括DPMM在内的所有其他方法。这些结果展示了AM在多正态均值问题中捕捉复杂数据生成结构的能力。在这些具有挑战性的情境下,AM相较于g-建模和DPMM的优越表现,也暗示了当应用类似模型结构时,其估计效率更高。关于底层μ不服从正态分布情形的额外数值结果,详见补充材料S.10.6。

打开网易新闻 查看精彩图片

5.2 n < p 的线性回归

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

结果汇总于表2和表3中。我们可以看到,无论使用何种对偶函数,AM在均方误差(ME)方面均显著优于所有其他方法。

打开网易新闻 查看精彩图片

此外,AM 在所有设定下均能提供令人满意的 95% 预测区间覆盖率,而其他所有方法均表现出显著的覆盖率不足。

5.3 基于神经网络的图像分类

为展示所提出方法在神经网络模型中的应用,我们考虑一个使用著名 MNIST 数据集(LeCun 等,1998)进行图像分类的数值示例。MNIST 数据库是一个大型手写数字数据库,常用于训练各类图像处理系统。其训练集和测试集的样本量分别为 60,000 和 10,000。每个手写数字(0–9)的图像大小为 28 × 28 像素,像素值以灰度级表示,范围从 0 到 255。因此,对于每个观测,表示图像,表示标签或数字。该分类问题的目标是根据预测 。

第 2.3 节提出的 AM 插补-估计方案在此示例中的具体实施在此简要总结,以增强清晰性。插补过程(算法 2)包括拟合用于对训练图像预测新标签的模型。这些训练图像与其新预测的标签共同构成插补后的“未来观测”,并用于算法 1 的最终估计过程。从概念上讲,数据集中的每张图像都与多个(可能变化的)标签相关联,这有助于有效防止模型对单一标签过拟合。

为考察所提方法的效率,我们采用了两种不同的神经网络结构。第一种结构是一个前馈神经网络,包含两个全连接层。两个隐藏层的节点数分别设为 400、800 和 1600(即分别进行三种配置实验)。输出层采用多变量逻辑链接(softmax),返回 10 个类别的概率。这种经典结构在文献中常被用于评估模型训练策略。第二种结构参考了 Jarrett 等人(2009)的描述:它将卷积神经网络(CNN)特征提取器的输出作为第一种结构的输入。该特征提取器由两个卷积层构成,分别包含 32 和 64 个通道,每个卷积层后接一个 2 × 2 的最大池化层。每个 CNN 层的滤波器尺寸设为 5 × 5,全连接层的隐藏节点数设为 200。所有结构均采用修正线性单元(ReLU)激活函数。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

所有方法在四种不同模型下的测试误差结果如表4所示。当使用AM时,可观察到显著的性能提升。值得注意的是,AM的性能超过了当前最先进的正则化技术Dropconnect(Mobiny等,2021;Wan等,2013),且模型结构相同,正如Wan等(2013)和Mobiny等(2021)所报告的那样。与他们的方法相比,AM不仅表现出更快的收敛速度,还提供了更直接的实现方式。AM估计过程的详细信息及所得参数详见补充材料S.6.4。作为AM的一个附加优势,它能够检测标签错误的数据(详见补充材料S.6.5)。

需要说明的是,本文引入的插补算法并不生成新的图像(x),而若采用能够生成新图像的插补算法,性能可能会进一步提升。例如,数据增强方法(如随机形变,Simard等,2003),已被证明在实践中有效,可用于生成更多图像。近年来一种流行的技术——生成对抗网络(GAN, Goodfellow等,2020)——也为此方向提供了一种潜在策略。为简化起见,本文未开展此类扩展实验,相关结果将在其他地方报告。

6 结论性评述

本文从建模视角提出了一种用于过参数化模型估计的有前景的方法。未来的研究可聚焦于其应用,以进一步提升机器学习与统计学中过参数化及非过参数化模型的性能。例如,多正态均值示例中的数值结果表明,当过参数化与所提出的估计方法相结合时,能有效增强模型的灵活性与适用性,从而提高对未来观测的预测效率。这些见解与深度神经网络取得成功的广泛共识相一致。我们相信,针对实践中广泛使用的统计模型深入探究这一现象,有望带来引人入胜且具有价值的理论进展,这些进展将不仅强化、甚至可能超越传统的基于似然的推断方法。

在技术层面,对偶函数的设定与插补方法仍有进一步改进的空间。鉴于本文主要关注建模的基础性问题,我们选择采用一种强调模型检验的自适应自助法(adaptive bootstrapping)实现策略。尽管这种数据驱动的实现已展现出良好效果,但在稳健性与效率方面仍可能遭遇意料之外的局限——这在重抽样方法中较为常见,尤其在高维问题中(Liu 等,2024)。因此,探索替代性的插补方法是值得的。例如,合成数据生成技术可能特别有用,因其已在多种任务中被证明有效,尤其是在处理复杂模型和高维数据方面(Liu 等,2024;Shen 等,2024;Tian 和 Shen,2024)。此外,反向考察所提出方法如何反过来改进此类模型也颇具意义——特别是结合第 5.3 节的图像分类示例,并从 Box(1980)关于建模是一个迭代过程的视角出发(参见补充材料 S.12)。

渐进地,开发更高效的计算技术将进一步推动我们所提方法的成功,特别是在实现对大规模数据集更有效且有效的分析方面。最后,包括保形预测(conformal prediction)在内的统计推断方法(参见 Cella 和 Martin,2022 及其中参考文献)可在我们提出的框架内得到有效应用与发展。

原文链接: https://arxiv.org/pdf/2206.01824