重新思考长尾数据集蒸馏：具有无偏恢复与重标记的统一层级框架|尾数|统计量|蒸馏

Rethinking Long-tailed Dataset Distillation: A Uni-Level Framework withUnbiased Recovery and Relabeling

重新思考长尾数据集蒸馏：具有无偏恢复与重标记的统一层级框架

摘要

数据集蒸馏（Dataset distillation）创建一个小型蒸馏数据集，通过捕获完整数据集中的关键信息来实现高效训练。虽然现有的数据集蒸馏方法在平衡数据集上表现良好，但在长尾分布下却面临困难——在这种分布中，不平衡的类别频率会导致模型表示产生偏置，并破坏诸如批归一化（BN）统计量等统计估计。本文中，我们通过重新审视基于轨迹方法的局限性，重新思考长尾数据集蒸馏问题，转而采用统计对齐的视角来联合缓解模型偏置并恢复公平的监督信号。为此，我们引入了三个专门设计的组件，以实现蒸馏图像的无偏恢复和软标签重标定：（1）增强专家模型（一个用于恢复的观察模型和一个用于重标定的教师模型），以实现可靠的统计估计和软标签生成；（2）通过完整前向传播动态调整动量来重新校准BN统计量，以减少表示偏斜；（3）通过多轮机制逐步选择高置信度且多样化的增强样本初始化合成图像，以促进覆盖性和多样性。在四个长尾基准数据集上的大量实验表明，我们的方法在不同程度的类别不平衡下均持续优于现有最先进方法。值得注意的是，在IPC=10和IF=10的设置下，我们的方法在CIFAR-100-LT上提升了15.6%的top-1准确率，在Tiny-ImageNet-LT上提升了11.8%。

引言

数据集蒸馏（Dataset Distillation, DD）是合成一个显著更小但具有代表性的数据集的过程，该数据集保留原始大型数据集的基本特征（Wang等人2018；Yu, Liu和Wang 2023；Liu和Du 2025）。通过大幅减少数据量，DD促进了高效的模型训练并显著降低计算成本，使其在资源受限场景中特别有价值（Cui等人2025c；Chai等人2024）。除了减轻计算负担外，DD还提供了一个紧凑的视角来研究数据分布如何影响模型学习（Zhu等人2023；Cheng等人2024）。

长尾数据集蒸馏（Zhao等人2025）专门解决以类别不平衡为特征的场景，其中少数头部类别包含丰富的样本，而剩余的尾部类别则稀疏表示。这种不平衡在现实世界应用中普遍存在，因为为稀有类别获取足够样本的成本高昂或不可行。大多数现有的DD方法（Liu等人2023；Guo等人2024；Shao等人2024b）在平衡数据集上表现良好，但在类别不平衡条件下则遇到困难。它们对均匀数据密度的假设导致合成集中头部类别占主导地位，少数类别的表示不佳，最终在长尾场景中性能下降。

很少有研究明确解决传统DD方法在长尾分布下的局限性，这主要是因为广泛使用的基准数据集通常具有平衡的类别结构（Krizhevsky 2012；Le和Yang 2015；Deng等人2009）。据我们所知，DAMED（Zhao等人2025）是最近唯一明确解决这一问题的研究工作。它通过向softmax层注入类别频率感知的偏移量来模拟长尾训练动态，从而诱导模仿不平衡训练下观察到的梯度行为。然而，如图1所示，DAMED仍存在显著局限性。1）尾部类别表示不足。它依赖于在长尾数据上训练但未去偏的特征提取专家，导致尾部类别表示在蒸馏数据集中保存不佳。2）轨迹匹配中的无意权衡。中频类别接收到不稳定或不足的梯度反馈，导致整个分布上的性能受损。3）沉重的计算开销。其双层基于轨迹的优化存在计算效率低下和过度的GPU内存使用问题，严重限制了实际适用性（Yin, Xing和Shen 2023）。

为全面解决这些缺点，我们提出了一种新颖的单层优化框架，以成本高效的方式明确抵消源于类别不平衡的偏置。这一表述至关重要，因为有效的去偏策略往往导致专家的训练轨迹显著偏离标准训练所诱导的轨迹，使得轨迹匹配变得不稳定且具有挑战性。我们的框架通过两个互补组件考虑去偏：无偏合成图像恢复和无偏软标签重标定。为了在长尾设置中实现有效恢复，我们的框架确保多样化且具有代表性的合成图像初始化，并利用去偏的专家模型（观察模型）执行BN统计量的公平提取以实现精确对齐。同时，无偏软标签重标定通过另一个训练良好、去偏的专家模型（教师模型）生成的软标签提供有效的语义监督。

为实现这一设计，我们引入了三种针对性的策略来缓解长尾分布下的模型偏置、统计不公平性和次优初始化问题。

首先，我们提出了一种混合一致性损失（mixture consistency loss）和一种类别级去偏损失（class-wise debias loss）来正则化观察模型和教师模型。前者确保对多种数据增强的鲁棒特征学习，后者采用动态加权来重新平衡类别级监督。

其次，我们重新校准BN统计量的估计，以应对类别不平衡和时间依赖性的挑战。我们冻结观察模型，并在整个训练集上执行高效的前向传播。在此过程中，我们动态调整的动量确保每个类别内所有样本的平等贡献，消除类内偏置。然后我们对每类统计量取平均，以获得全局平衡的估计，消除类间偏置。

第三，我们引入了一种置信度感知、类别无关的合成初始化策略。对于每个真实图像，我们预计算多个增强版本，并使用教师模型通过负交叉熵进行评分。我们采用多轮选择策略，每轮中每个图像最多贡献一个增强版本，逐步选择高置信度变体以确保多样性。为确保批次结构一致，我们对实例数少于最大类别的所有类别插入零填充占位符。

我们的主要贡献如下：

我们通过从双层轨迹匹配转向单层统计对齐框架，重新思考长尾数据集蒸馏，该框架更好地支持去偏。
我们通过三种关键策略实现无偏恢复和软标签重标定：专家模型去偏；公平BN统计量重新校准；以及置信度引导的多轮合成数据初始化。
在CIFAR-10-LT、CIFAR-100-LT、Tiny-ImageNet-LT和ImageNet-LT上的大量实验表明，我们相对于最先进基线具有一致的优越性。在CIFAR-100-LT上提升准确率15.6%，在Tiny-ImageNet-LT上提升11.8%（IPC=10, IF=10）。

相关工作

数据集蒸馏

早期的数据集蒸馏方法，如K-Center（Sener和Savarese 2017）和GraphCut（Iyer等人2021），直接选择真实数据的子集，这限制了所得蒸馏数据集的表达能力。后续方法分为三大类。基于梯度匹配的方法（Liu等人2023；Wang等人2025）对齐真实数据与蒸馏数据之间的梯度，但由于高内存使用而扩展性较差。基于轨迹匹配的方法（Cazenavette等人2022；Zhong等人2025）模拟训练动态，但计算昂贵且内存密集。基于分布匹配的方法（Zhao和Bilen 2023；Cui等人2025a）通过匹配特征加速收敛，但仍遭受高内存成本，并在Tiny-ImageNet或ImageNet等更大数据集上性能下降。

近期研究尝试通过基于生成模型的方法（Cui等人2025b；Chen等人2025）或采用单层优化（Sun等人2024；Shao等人2024b）来减少内存开销。然而，生成方法通常依赖于在平衡大规模数据集上预训练的生成器，而现有的单层方法在平衡假设下运行，缺乏显式的去偏策略。DAMED（Zhao等人2025）是唯一明确针对长尾DD的先验工作。然而，它继承了长尾专家训练的表示偏置，并保留了轨迹匹配框架的低效性。相比之下，我们的工作是首个在单层框架内系统解决长尾DD的研究，具有原则性的专家去偏、图像初始化和无偏对齐策略。

长尾识别

长尾识别指在不平衡数据分布下执行的视觉任务（Zhang等人2025）。为缓解由此产生的表示偏置，数据增强策略已被广泛研究（Zheng等人2024；Wang等人2024；Li和Jia 2025）。例如，Mixup（Zhang等人2018）及其类别感知扩展UniMix（Li等人2021）促进特征插值以丰富尾部类别的监督，而CMO（Shi, Dong和Shen 2021）生成上下文感知的混合样本，更好地保留稀有类别的语义一致性。

除增强外，其他方法通过网络级优化（Zhang等人2023；Zhu等人2024；He 2024）、使用生成模型或实例组合的数据合成（Shao等人2024a；Khorram等人2024；Zhao等人2024）、以及损失重平衡策略（Xiong和Yao 2024；Du, Han和Huang 2024；Lin等人2017；Du等人2023）来放大来自代表性不足类别的学习信号，从而缓解长尾偏置。鉴于对长尾数据集蒸馏的关注有限，我们从更广泛的长尾识别文献中汲取概念洞见，对观察模型和教师模型进行去偏，从而在严重类别不平衡下实现有效的蒸馏。

方法

问题陈述

为解决该问题，我们提出了一个用于无偏恢复和软标签重标定的单层统计对齐框架。我们的方法偏离了传统的轨迹匹配方法，其根本性局限性在后续章节中详细阐述。我们框架的成功依赖于三个核心策略：专家模型去偏、公平BN统计量重新校准、以及置信度引导的数据初始化。整个流程如图2所示。

基于轨迹匹配方法的缺点

其中 F 表示训练轨迹。然而，当专家模型在长尾数据集上训练时，其内部表示不可避免地容易受到类别不平衡的影响，如果不实施适当的干预。优化学生模型来模仿这样的专家会导致蒸馏数据集继承这种偏置，导致对头部类别语义的过度强调和对少数类别的表示不足。

尽管DAMED（Zhao等人2025）尝试在学生中模拟不平衡训练动态以减少轨迹不匹配，但它依赖于一个在未去偏的不平衡数据上训练的表示专家。因此，蒸馏数据集继承了专家的表示偏置。更广泛地说，基于轨迹的方法难以在显式去偏和严格轨迹匹配之间取得平衡。蒸馏前的调整（如重加权或logit修正）会改变专家的优化路径，破坏了轨迹匹配的前提。同时，事后去偏是不切实际的，因为这些方法仅复现参数演变，缺乏对每类表示质量的细粒度控制。除了这些局限性外，由于优化的双层性质、多步训练轨迹模拟以及通过展开计算图的反向传播，此类方法产生了大量的计算开销。

BN统计量的公平重新校准准确且公平的BN统计量在我们的框架中至关重要，因为它们作为图像恢复的对齐目标。然而，在标准指数移动平均更新（固定动量）下，运行估计会因样本贡献不均而产生偏差：近期批次主导统计量，而早期批次被快速遗忘。这种效应在长尾设置中尤其成问题，其中每个尾部类别样本具有高表示价值，必须对累积统计量做出平等贡献。这些局限性促使我们采用事后重新校准策略。

方差 σ 同理。这种两阶段策略同时缓解了类内偏置和类间偏置，从而作为统计对齐的可靠监督信号。

置信度引导的多轮初始化 初始化主要决定最终合成图像的多样性，同时在促进长尾分布下的稳定优化方面也发挥辅助作用。传统初始化策略通常依赖于采样真实图像或随机噪声。然而，随机初始化往往导致收敛性差和下游性能下降。在高度不平衡的设置中，直接采样真实图像变得不可行，因为尾部类别通常包含太少样本而无法提供充分的初始化。

为克服这一局限性，我们提出了一种专为长尾分布定制的置信度引导、多轮初始化策略。具体而言，我们为每个真实图像生成多个增强版本（如裁剪），并通过教师模型使用负交叉熵损失对它们进行评分。这些增强版本存储在一个类别级候选池中。在每一轮中，每个真实图像将其最自信且未使用的增强版本贡献给一个临时选择池。如果候选总数超过该类别的剩余槽位，我们选择得分最高的增强版本；否则，我们保留全部。这一过程重复进行，直到每个类别达到其目标IPC。该策略确保高置信度选择，同时在不同类别规模下保持样本级多样性。为保持跨类别的结构一致性，我们对真实样本数少于最大类别的类别插入零初始化占位符。这些占位符被排除在增强和选择过程之外，确保所有合成样本都具有语义意义。

实验

网络架构 遵循DAMED（Zhao等人2025）中建立的设置，我们采用深度为3的ConvNet作为CIFAR-10-LT和CIFAR-100-LT的学生模型，深度为4的ConvNet用于Tiny-ImageNet-LT和ImageNet-LT。鉴于ResNet架构对大规模数据集的优越表示能力，我们额外在高度不平衡场景下对ImageNet-LT评估ResNet-50。在评估期间，所有学生模型在蒸馏数据集上训练1000个轮次。所有实验重复五次以保证公平性，并主要在单张NVIDIA RTX 3090 GPU上进行。

基线方法 我们将我们的方法与多种代表性基线进行比较，包括核心集选择方法如Random、K-Center Greedy（Sener和Savarese 2017）和Graph Cut（Iyer等人2021）；基于梯度匹配的方法包括DC（Zhao, Mopuri和Bilen 2020）和DREAM（Liu等人2023）；基于分布匹配的方法如CAFE（Wang等人2022）和IDM（Zhao等人2023）；基于轨迹匹配的方法包括MTT（Cazenavette等人2022）、DATM（Guo等人2024）、TESLA（Cui等人2023）和DAMED（Zhao等人2025）；单层优化方法包括SRe2L（Yin, Xing和Shen 2023）、RDED（Sun等人2024）和EDC（Shao等人2024b）；以及基于生成模型的方法如Minimax（Gu等人2024）。

结果与讨论

主要结果 我们进行了全面的评估，涵盖广泛的IF和IPC配置，覆盖不同复杂度的数据集。如表1、2、3和4所示，我们的方法在所有评估设置下始终优于强基线。虽然DAMED（Zhao等人2025）产生的学生性能与其有偏专家的性能 closely matching——实际上达到了其性能上限——但我们的方法明确缓解了专家偏置，使蒸馏数据能够监督更准确和可泛化的学生模型，从而提高了可达到的上界。通过以类别平衡的方式对齐模型表示并重新校准平衡的BN统计量，我们的方法避免了对头部类别的典型过拟合，并促进了跨类别和训练样本的公平学习。我们的去偏机制使蒸馏数据集能够同时保留结构保真度和语义完整性，使我们的方法在不同规模的数据集上广泛有效。

高度不平衡设置下的结果 表5总结了高度不平衡场景下的结果。这些设置为数据集蒸馏带来了重大挑战，特别是当某些类别的可用真实图像数量低于目标IPC时。在这种约束下，一些先前的方法变得不适用；例如，EDC的初始化和RDED的采样机制因尾部类别样本不足而失败。其他基线也难以取得有竞争力的性能，通常是由于有偏的表示学习或优化不稳定性。相比之下，我们的方法在所有测试配置下始终取得更强的性能。值得注意的是，在IF = 256且使用ResNet-50作为评估模型的情况下，我们为ImageNet-LT生成的蒸馏集不仅优于所有竞争方法在相同不平衡设置下生成的蒸馏集，而且超过了几个使用完整、平衡的ImageNet-1K获得的蒸馏集的方法。

极低IPC设置下的结果 我们进一步在严重压缩的蒸馏机制下评估我们的方法，其中每类仅保留一个合成图像。如表6所示，我们的方法在大多数数据集上实现了比所有基线高2倍以上的准确率提升。这一强劲性能源于两个关键因素。首先，公平的BN统计量重新校准确保即使每类只有一个合成图像也能反映准确的分布级信息，在最小数据容量下提供可靠的监督。此外，无偏软标签提供语义指导，补偿了低IPC合成样本的有限表示表达能力。这些机制共同使我们的方法在极端蒸馏约束下保持鲁棒性。

跨架构性能 为评估其在架构间的泛化能力，我们在同一蒸馏数据集上训练多个不同结构的学生模型。如表7所示，我们的方法在四种代表性评估骨干网络上始终优于现有方法。值得注意的是，基线方法通常在架构间显示出显著的准确率变化，而我们的蒸馏数据支持 uniformly strong performance。这些结果表明，我们的方法捕获了语义上有意义且可迁移的模式，促进了跨多样化学生架构的可泛化学习。

长尾数据集的类别级准确率图3比较了DAMED（Zhao等人2025）与我们方法的类别级准确率。DAMED在尾部类别上表现不佳，因为其有偏的专家训练未能保留稀有类别的语义。此外，轨迹匹配期间使用的频率调整损失忽略了中频类别，导致性能受到抑制。相比之下，我们的方法通过首先训练去偏的专家模型，然后对齐公平的BN统计量，避免了这些问题。

不同组件的消融实验如表8所示，每个组件对我们方法的成功都做出了关键贡献。模型去偏策略在不降低头部或中频类别性能的情况下保留了尾部类别语义，从而提高了整体性能上限。重新校准的BN统计量确保每个训练样本，特别是来自少样本类别的样本，对累积表示做出公平贡献。初始化策略为合成图像提供了多样化、具有类别代表性的起始点，即使每类真实数据稀缺时也是如此。

计算效率我们通过比较运行时间和峰值GPU内存使用，评估我们方法与DAMED（Zhao等人2025）的计算效率，DAMED是唯一专为长尾数据集蒸馏设计的现有方法。如表9所示，我们的方法大幅减少了专家模型训练和蒸馏数据合成所需的计算时间。具体而言，在两个数据集上，我们流程的总运行时间不到DAMED的二十分之一。除更快的执行速度外，我们的方法还表现出更有利的内存行为。如表10所示，DAMED的GPU内存使用随IPC快速增长，限制了其在较高值时的适用性。相比之下，我们的方法无论IPC如何都保持恒定的内存使用，允许在广泛设置下稳定高效地执行。

结论

我们提出了一个用于长尾数据集蒸馏的单层框架，明确设计用于解决先前方法中固有的表示偏置和低效问题。我们通过三个关键组件增强类别不平衡下的蒸馏效果：专家模型去偏、BN统计量重新校准和置信度感知初始化。大量实验表明，我们的方法在广泛的IF和IPC设置下始终优于现有基线，包括高度不平衡和低样本机制，展现出强鲁棒性和泛化能力。

更广泛的影响我们的方法可能扩展到多领域或联邦数据集蒸馏，其中数据不平衡自然发生在客户端或领域之间。

原文链接：https://www.arxiv.org/pdf/2511.18858