面向异构环境的因子增强型神经Lasso微调方法
Fine-tuning Factor Augmented Neural Lasso for Heterogeneous Environments
https://arxiv.org/pdf/2604.12288
摘要
微调是一种广泛用于使预训练模型适应新任务的策略,然而其在包含变量选择的高维非参数设置下的方法论与理论性质尚未得到发展。本文引入了微调因子增强型神经Lasso(FAN-Lasso),这是一种用于含变量选择的高维非参数回归的迁移学习框架,能够同时处理协变量偏移与后验偏移。我们采用低秩因子结构来处理高维相依协变量,并提出一种新颖的残差微调分解,其中目标函数被表示为冻结的源函数与其他变量的变换形式,以实现迁移学习与非参数变量选择。该来自源预测器的增强特征使得知识能够转移至目标域,并降低了目标域中的模型复杂度。我们为微调FAN-Lasso推导了极小化极大最优超额风险界,从相对样本量与函数复杂度的角度刻画了精确条件,在此条件下微调相较于单任务学习能够产生统计加速。所提出的框架也为参数高效微调方法提供了理论视角。跨越多种协变量与后验偏移场景的大量数值实验表明,微调FAN-Lasso始终优于标准基线,即使在目标样本量严重受限的情况下也能实现接近理想(Oracle)的性能,从而从经验上验证了所推导的速率。
关键词:迁移学习,神经网络,因子增强,FAST-NN,因子调整型非参数Lasso,模型偏移,协变量偏移。
1 引言
迁移学习通过将数据丰富的源域中学习到的表征转移到样本有限的目标任务中,彻底改变了现代机器学习。这一范式最显著地通过微调来实现,其中大规模模型的预训练权重为专门的下游应用提供了精细的起点。该方法的有效性取决于这样一个假设:预训练捕获了内在的潜在结构——例如共享的特征或因子——从而为数据提供了基础的表征。因此,微调充当了一个实用的适应层,对这些学习到的表征进行精炼,以使其与目标域的具体细微特征相一致。
尽管微调的经验成功不可否认,但为其性能提供统一且严格的理论刻画仍然是一项艰巨的任务。现有文献已为迁移学习建立了基础性保证,但这些通常侧重于线性情形,或假设受限类别的分布偏移。仍然迫切需要一种框架,能够在高维协变量和复杂非参数结构存在的情况下量化微调的统计增益——在这些设置中,经典的参数化直觉通常会失效。具体而言,如何构建一个统一的估计量,使其在协变量偏移和后验偏移下同时实现极小化极大最优性,同时保持对负迁移的鲁棒性,目前仍不清楚。
在本文中,我们通过提出微调因子增强型神经Lasso(FAN-Lasso)框架,弥合了这些理论与实践上的差距。我们假定域间的共享知识可由低维因子结构有效概括,该结构即使在显著的分布偏移下也能为知识迁移提供稳定的骨干。我们的方法提供了一种最优机制,用于将预训练的因子增强型稀疏通量神经网络(FAST-NN,Fan & Gu (2024))——一类结合潜在因子提取与稀疏非参数估计的模型——迁移到新的环境中。
该框架将三个强大的组成部分整合在一起,以应对上述挑战。首先,低维因子结构通过捕捉跨域共享的潜在驱动因素,使高维设定下的估计变得可行,并充当表征迁移的桥梁。其次,我们采用深度ReLU网络对密集与稀疏的非参数复杂性进行建模,利用其对未知组合结构的自适应能力来规避维度灾难。第三,通过引入灵活的迁移函数,我们的方法显式地同时考虑了协变量偏移与后验偏移。该机制使估计量能够自动校准源域与目标域之间的相似程度,有效地“门控”所需利用的源信息量。这种协同作用不仅通过剪枝无关的源信号来确保对负迁移的鲁棒性,而且在一般的非参数设定下实现了极小化极大最优性。
1.1 问题表述
1.2 主要结果预览
我们的理论分析使残差微调背后的直觉变得精确。我们证明了微调 FAN-Lasso 估计量实现了极小化极大最优超额风险:
1.3 相关工作
我们的工作处于迁移学习、神经网络微调、深度学习理论、非参数变量选择以及高维数据因子模型的交叉领域。尽管这些领域中的每一个都取得了显著进展,但针对高维非参数迁移学习的统一理论框架仍然是一个公开的挑战。
迁移学习与分布偏移。 迁移学习旨在利用源域知识来提升目标域的性能,其基础由 Pan & Yang (2009) 和 Ben-David et al. (2010) 奠定。在高维回归的背景下,近期的工作探讨了该问题的各个侧面:Li et al. (2022) 建立了稀疏参数差异下的极小化极大速率,而 Cai & Pu (2024) 以及 Tian & Feng (2023) 将这些保证扩展到了非参数和广义线性模型。Fan et al. (2025) 提出了一种用于迁移学习的 TAB 技术。一个主要的障碍是协变量偏移,即边缘分布在域间存在分歧 (Quiñonero-Candela et al., 2022; Gretton et al., 2009)。该领域的最新进展包括基于最优 RKHS(再生核希尔伯特空间)的速率 (Ma et al., 2023)、源标签效用的刻画 (Kpotufe & Martinet, 2021)、鲁棒估计技术 (Yang et al., 2024; Cai et al., 2025),以及针对设定良好的协变量偏移的基础性洞察 (Ge et al., 2023b)。此外,关于数据价值 (Hanneke & Kpotufe, 2019)、任务多样性 (Tripuraneni et al., 2020) 以及预训练的可证明优势 (Ge et al., 2023a) 的理论探究,显著加深了我们的理解。基于这些基础,我们的微调 FAN-Lasso 框架为复杂非参数结构下的协变量偏移和后验偏移提供了统一的处理方法。
微调的基础。 微调已成为部署大规模模型的基础标准,然而其理论性质仍在被逐步揭示。Kumar 等人 (2022) 著名地证明了朴素微调可能会扭曲预训练特征,这推动了 LoRA (Hu et al., 2022; Dettmers et al., 2023) 和提示微调 (Lester et al., 2021) 等参数高效方法的兴起。我们的工作与日益增长的关于微调的“残差”视角相一致,即目标模型被视为对源模型的精炼。该方法已在多个领域获得应用,包括基于代理的预测 (Bastani, 2021)、交叉拟合残差回归 (Zhou & Zou, 2023)、少样本学习 (Zhao et al., 2024) 以及强化学习 (Ankile et al., 2025)。我们通过假设 1 中的残差微调函数 h h 将这一直觉形式化,为基于经验残差的方法与统计理论之间架起了一座严格的数学桥梁。
非参数深度学习理论。 我们方法的成功依赖于深度 ReLU 网络的表征能力。在针对平滑函数的最优速率研究基础上 (Petersen & Voigtlaender, 2018; Lu et al., 2021),近期的研究表明,深度网络能够通过自动利用层次化组合结构来规避维度灾难 (Schmidt-Hieber, 2020; Kohler & Langer, 2021; Fan et al., 2024)。Farrell 等人 (2021a) 进一步为此类估计量建立了高概率界。我们的工作利用这些优势来估计复杂的函数 和 h 。通过结合稀疏性与正则化进行复杂度控制 (Bartlett et al., 2019; Ohn & Kim, 2022),我们将现代深度学习理论与经典的高维因子模型框架相连接,以实现极小化极大最优性。
高维因子模型。 因子模型提供了处理高维协变量 p ≫ n所必需的低秩结构。它在计量经济学中有多种应用 (Stock & Watson, 2002a,b; Forni et al., 2005; Bai et al., 2008),自那以后,这些模型的渐近性质已被广泛刻画 (Paul, 2007; Johnstone & Lu, 2009; Onatski, 2012; Chudik et al., 2011; Wang & Fan, 2017)。近期的工作将预训练因子估计 (Fan & Liao, 2022) 与深度学习相结合。Fan & Gu (2024) 确立了 FAST-NN 在单域高维非参数回归中的极小化极大最优性。我们的微调 FAN-Lasso 将此框架扩展至迁移学习,并为同时分布偏移下的残差微调提供了统一理论。
1.4 符号与预备知识
1.5 论文结构
本文其余部分组织如下:第 2 节介绍高维迁移学习框架,第 3 节阐述我们的方法论,第 4 节提供因子迁移的理论保证,第 5 节发展微调估计量的理论,第 6 节通过数值研究验证我们所提方法的有效性。技术证明与补充结果详见附录。
2 模型
2.1 因子增强型非参数(FAN)模型
我们继续使用 §1.1 中引入的符号,并专注于因子增强型非参数回归框架。具体而言,我们假设
我们的目标是开发一种微调策略,通过有效利用源域信息来增强目标估计。通过成功迁移源数据中的共享结构,我们旨在提高所得估计量 m ^ m 的学习效率和性能,使得微调过程比仅在目标数据上进行训练更为有效,特别是当目标样本量远小于源样本量时。
2.2 FAN 模型的通用性
2.3 回归函数的层次分解
2.4 可迁移性
之间关系的主要假设,该假设将微调背后的基本原理形式化,并在迁移过程中提供了极大的灵活性。
3 方法论
3.1 用于因子估计的多样化投影矩阵
3.2 针对协变量偏移的迁移因子估计
具体而言,我们通过预设阈值 δ δ 限制目标协方差与聚合协方差之间的差异来提取因子:
3.3 针对后验偏移的微调非参数变量选择
请注意,(12) 式和 (15) 式均涉及因子增强型神经 Lasso(Factor Augmented Neural Lasso)。为了将其与 FAST-NN 估计量 (12) 区分开来,我们将估计量 (16) 称为(微调)FAN-Lasso。
4 因子迁移理论
原文链接:https://arxiv.org/pdf/2604.12288
热门跟贴