I-CON: A UNIFYING FRAMEWORK FORREPRESENTATION LEARNING
I-CON:表征学习的统一框架
https://arxiv.org/pdf/2504.16929
摘要
随着表征学习领域的发展,针对不同问题类别涌现出大量各异的损失函数。本文提出一个统一的信息论方程,可概括机器学习中众多现代损失函数。具体而言,我们构建了一个框架,揭示了多类广泛的机器学习方法实质上均在最小化两个条件分布——监督信号分布与学习所得表征分布——之间的积分KL散度(integrated KL divergence)。这一视角揭示了聚类、谱方法、降维、对比学习与监督学习背后共通的、潜在的信息几何结构。该框架使得我们能够通过组合文献中各类成功技术,设计新型损失函数。我们不仅提供了大量证明,将23种以上不同方法统一纳入该框架,还利用这些理论成果构建出当前最优的无监督图像分类器,在ImageNet-1K无监督分类任务上相较先前最优方法提升达+8%。此外,我们还证明:I-CON可用于推导具有理论依据的去偏方法,从而提升对比表征学习器的性能。
1 引言
过去十年间,表征学习领域蓬勃发展,新技术、新架构与新损失函数层出不穷。这些进展推动了计算机视觉、自然语言处理及多模态学习中前沿模型的发展,且往往仅需极少的人工监督。然而,随着领域不断扩展,损失函数的多样性使得人们愈发难以理解不同方法之间的关联,亦难以判断何种目标函数最适用于特定任务。
本文提出一个通用数学框架,将监督、无监督与自监督等多种表征学习技术统一于单一信息论目标之下。我们的框架——信息对比学习(Information Contrastive Learning, I-Con)——揭示出:诸多看似迥异的方法——包括聚类、谱图理论、对比学习、降维与监督分类——实则均为同一底层损失函数的特例。
尽管先前研究已零星发现表征学习方法子集间的局部联系(通常一次仅连接两三种技术;参见 Sobal et al., 2025;Hu et al., 2023;Yang et al., 2022;Böhm et al., 2023;Balestriero & LeCun, 2022),I-Con 是首个将23种以上不同方法统一于单一目标之下的框架。这一统一视角不仅厘清了现有技术的内在结构,更为跨传统领域边界的知识迁移与方法改进奠定了坚实基础。
借助 I-Con,我们推导出新型无监督损失函数,在标准图像分类基准上显著超越先前方法。本文核心贡献如下:• 提出 I-Con——一种统一多类主流表征学习方法的单一信息论损失函数;• 证明 15 个定理,阐明各类算法如何作为 I-Con 的特例自然涌现;• 基于 I-Con 设计一种去偏策略,在无监督 ImageNet-1K 分类任务上提升准确率 +8%,在线性探测设置下于 CIFAR-100 和 STL-10 上分别进一步提升 +3% 与 +2%。
2 相关工作
表征学习涵盖一系列从复杂数据中提取结构的方法。我们回顾 I-Con 所基于并得以推广的代表性方法;更全面的综述可参见(Le-Khac et al., 2020;Bengio et al., 2013;Weng, 2021)。
特征学习(Feature Learning)旨在利用监督信号(如成对相似性、近邻关系、数据增强、类别标签或重构损失)导出具有信息量的低维嵌入。经典方法如主成分分析(PCA;Pearson, 1901)与多维尺度分析(MDS;Kruskal, 1964)侧重于保持数据的全局结构;而 UMAP(McInnes et al., 2018)与 t-SNE(Hinton & Roweis, 2002;Van der Maaten & Hinton, 2008)则通过最小化联合分布之间的散度,聚焦于局部拓扑结构。I-Con 采纳了类似的散度最小化视角。
对比学习(Contrastive learning)方法(如 SimCLR(Chen et al., 2020a)、CMC(Tian et al., 2020)、CLIP(Radford et al., 2021)与 MoCo v3(Chen* et al., 2021))利用正负样本对(通常通过数据增强或跨模态对齐构建)进行训练。I-Con 在统一的 KL 散度框架下将这些损失函数予以推广,并凸显其间的细微差异。监督分类器(例如 ImageNet 模型(Krizhevsky et al., 2017))亦能产生高效特征;I-Con 通过将类别标签视为离散的对比锚点,将其纳入框架,从而弥合监督与无监督学习之间的鸿沟。
聚类方法(Clustering methods)通过距离度量、图划分或对比监督揭示数据的离散结构。基础算法包括 k-Means(Macqueen, 1967)、期望最大化(EM;Dempster et al., 1977)与谱聚类(Shi & Malik, 2000)。近期方法如 IIC(Ji et al., 2019)、对比聚类(Contrastive Clustering;Li et al., 2021)与 SCAN(Gansbeke et al., 2020)进一步利用了不变性与邻域结构;教师–学生模型(如 TEMI(Adaloglou et al., 2023)与基于指数移动平均(EMA)的架构(Chen et al., 2020b))则进一步提升了聚类性能。I-Con 通过将聚类诱导的联合分布与源自相似性、结构或对比信号的目标分布对齐,将上述方法统一纳入自身框架。
表征学习的统一化探索 已有若干尝试:例如对比学习与 t-SNE 之间的联系(Hu et al., 2023;Böhm et al., 2023)、对比损失与交叉熵损失的等价性(Yang et al., 2022)、谱方法与对比方法的关系(Balestriero & LeCun, 2022;Sobal et al., 2025);其他工作如贝叶斯语法模型(Grosse et al., 2012)提供了概率视角;Tschannen 等人(Tschannen et al., 2019)在互信息框架下强调了估计器与架构设计的重要性,但未实现更广泛的统一。
尽管先前工作仅将这些方法中的子集相互关联,据我们所知,I-Con 是首个在单一损失函数下统一监督学习、对比学习、聚类与降维目标的框架。这一视角揭示了它们共有的内在结构,并为发现新的学习原理开辟了路径。
3 方法
I-Con 框架将多种表征学习方法统一于单一损失函数之下:即最小化两个条件“邻域分布”之间的平均 KL 散度——这两个分布定义了数据点之间的转移概率。该信息论目标泛化了聚类、对比学习、降维、谱图理论以及监督学习中的各类技术。通过改变监督分布与学习所得分布的构建方式,I-Con 涵盖了大量现有方法与新型方法。我们引入 I-Con,并展示其统一不同领域技术的能力,以及协调跨领域思想迁移的潜力,最终导出一种当前最优的无监督图像分类方法。
3.1 信息对比学习(I-Con)
3.2 利用 I-Con 统一表征学习算法
表1汇总了若干关键选择,它们可重建来自以下领域的流行方法:
- 对比学习:SimCLR、MoCo v3、SupCon、CMC、CLIP、VICReg;
- 降维:SNE、t-SNE、PCA;
- 聚类:k-Means、谱聚类、DCD、PMI;
- 监督学习:交叉熵损失、调和损失(Harmonic Loss)。
受篇幅所限,各类方法对应定理的证明详见补充材料。需指出的是,表1并非穷尽列举;我们鼓励研究社区进一步探索:其他学习框架是否在某种 p p 与 q q 的选择下,亦隐式地最小化公式 (1)。
3.2.1 示例:SNE、SimCLR 与 k-Means
尽管 I-Con 统一了广泛的方法,我们仍通过具体示例说明:不同的 p p 与 q q 选择如何复现 SNE、SimCLR 和 k-Means 等经典技术。完整细节见附录。
例如,对比学习中的技巧可应用于聚类任务——反之亦然。在本文中,我们展示了如何通过梳理现代表征学习方法,推动开发出超越先前性能水平的聚类与无监督分类算法。具体而言,我们整合了来自谱聚类、t-SNE 及去偏对比学习(Chuang et al., 2020)的洞见,构建了一个当前最优的无监督图像分类流程。
3.3 利用 I-Con 框架构建新型表征学习器
I-Con 框架将各类表征学习方法统一于一个统一的数学形式之下,并且关键在于,它促进了不同领域间技术的迁移与复用。
例如,对比学习中的某种技巧可应用于聚类任务——反之亦然。本文中,我们展示了:通过系统梳理现代表征学习方法,可开发出性能超越以往水平的聚类与无监督分类算法。
具体而言,我们融合了谱聚类、t-SNE 以及去偏对比学习(Chuang et al., 2020)的见解,构建出一种当前最先进的无监督图像分类流程。
3.3.1 去偏(Debiasing)
3.3.2 通过均匀分布实现去偏
我们的第一个示例采用一个简单的均匀混合分布:
其中 N 为局部邻域大小, α 表示混合程度。该方法为每个“负样本”分配一个较小的概率质量 α / N
,从而缓解对正样本分配过度置信的问题。在监督学习场景中,这类似于标签平滑(label smoothing;Szegedy et al., 2016);而 Chuang 等人(2020)则是在保留独热标签的同时直接修改 softmax 函数本身。
另一种理解该方法的视角是:它等价于采用尾部更重或分布更广(heavier-tailed or broader)的分布。通过引入均匀分量,我们复现了 t-SNE 中学生 t 分布(Van der Maaten & Hinton, 2008)的核心思想——即为更远的点分配更大质量。在这两种情形下,扩大分布范围均可降低模型对狭义定义的邻域过拟合的风险。
3.3.3 通过邻域传播实现去偏
第二种策略基于图结构进行邻域扩展。如表1所示,若将 k-Means 中的高斯邻域替换为按度加权的 k 近邻(degree-weighted k-NN),即可复现谱聚类——后者以鲁棒性和高质量解著称。受此启发,我们将对比学习器的邻域定义改为基于 KNN 的形式。在构建近邻图后,还可进一步通过更长的随机游走扩展该图(类似 Word-Graph2Vec 或 tsNET;Li et al., 2023;Kruiger et al., 2017),我们将此过程称为邻域传播(neighbor propagation)。
其中 I [ ⋅ ]
为指示函数。这种基于随机游走的平滑操作扩展了有效邻域,使模型能够从更稠密的监督信号中学习。
表3与表4证实:采用此类基于传播的邻域扩展策略,可在无监督图像分类任务上带来显著性能提升,凸显了邻域扩展作为一种去偏策略的有效性。
4 实验
本节中,我们验证 I-Con 框架不仅能生成可检验的假设,还为自监督与无监督学习提供切实可行的洞见。我们的目标并非单纯追求最优性能,而是旨在展示:借助这一统一的信息论视角,I-Con 如何切实提升现有无监督学习方法。通过该框架,我们亦凸显了聚类、对比学习与降维等不同机器学习领域间技术“交叉授粉”的潜力——而 I-Con 所促成的此类技术迁移,可显著改进既有方法,并开辟新的探索路径。
我们聚焦于聚类任务开展实验,因其相较于对比学习仍属相对未被充分探索的领域,且现有多类技术如今均可适配至该任务。通过在 I-Con 框架下联通 k-Means、SimCLR 与 t-SNE 等经典方法,我们发掘出大量改进聚类算法的潜在方向,并通过实验验证这些理论洞见,彰显 I-Con 的实际影响力。
我们采用 ImageNet-1K 数据集(Deng et al., 2009)评估 I-Con 框架——该数据集包含 1,000 个类别与逾百万张高分辨率图像,因其规模与复杂性,被视为无监督图像分类最具挑战性的基准之一。为确保与先前工作公平对比,我们严格遵循 Adaloglou 等人(2023)提出的实验协议。聚类性能的主要评估指标为 Hungarian 准确率:该指标通过匈牙利算法(Ji et al., 2019)寻找预测簇与真实标签间的最优匹配,从而度量簇分配质量。该方法为无监督场景(训练中无直接标签监督)下的聚类性能提供了稳健评估标准。
在特征提取方面,我们采用 DiNO 预训练的 Vision Transformer(ViT)模型三种变体:ViT-S/14、ViT-B/14 与 ViT-L/14(Caron et al., 2021)。选择这些模型既为与前人工作保持可比性,也便于探索 I-Con 框架在不同模型容量下的表现。实验设置(含训练流程、优化策略与数据增强方案)与 TEMI 保持一致,以确保方法论一致性。
训练过程为:在 DiNO 提取的特征之上优化一个线性分类器。各模型均训练 30 轮,使用 Adam 优化器(Kingma & Ba, 2017),批大小为 4096,初始学习率设为 1e⁻³,并每 10 轮将学习率衰减为前者的 0.5 倍,以保障稳定收敛。我们未对特征向量施加额外归一化。训练中采用了多种数据增强技术,包括随机重缩放、裁剪、色彩扰动与高斯模糊,以构建鲁棒的特征表征。
为进一步提升聚类性能,我们预先基于余弦相似度为数据集中每张图像计算全局最近邻(KNN)。这使得在每个训练批次中,可为每张图像采样两个数据增强版本与两个最近邻样本,从而将局部与全局信息共同融入所学表征。我们在表2中将此衍生方法命名为 “InfoNCE Clustering”:具体而言,其监督邻域由数据增强样本、KNN(k = 3)及长度为1的KNN游走构成;而所采用的学习邻域函数则为 k-Means 中的“按簇共享的簇似然”(shared cluster likelihood by cluster)形式(详见表1中的具体公式),以驱动簇结构学习。
4.1 基线方法
我们将所提方法与若干当前最先进的聚类方法进行了比较,包括 TEMI、SCAN、IIC 与对比聚类(Contrastive Clustering)。这些方法均依赖于数据增强与学习得到的表征,但通常还需引入额外的正则项或损失调整机制,例如控制簇的大小或降低亲和性(affinity)损失的权重。相比之下,我们基于 I-Con 的损失函数具有自平衡特性,无需此类人工调参,因而是一种更简洁、更具理论基础的方法。这使得我们在三种不同规模的骨干网络上均实现了更高的准确率与更稳定的收敛性。
4.2 实验结果
表 2 比较了去偏 InfoNCE 聚类(Debiased InfoNCE Clustering)在不同 DiNO 变体(ViT-S/14、ViT-B/14、ViT-L/14)以及若干其他现代聚类方法下的匈牙利匹配准确率(Hungarian accuracy)。I-Con 框架在所有模型规模下均持续优于此前的最先进方法。具体而言,在 DiNO ViT-B/14 与 ViT-L/14 模型上,去偏 InfoNCE 聚类相较于此前 ImageNet 聚类任务的最先进方法 TEMI,分别实现了 +4.5% 与 +7.8% 的匈牙利准确率提升。我们将这些改进主要归因于以下两点:
- 自平衡损失:不同于 TEMI 或 SCAN 等方法需手工调节正则项(例如平衡簇大小或调节亲和性损失权重),I-Con 的损失函数可自动平衡这些因素,无需额外调节正则化超参数——因为我们所采用的聚类核(clustering kernel)与 k-Means 完全一致。这一理论基础使得聚类结果更加稳健且准确。
- 跨领域洞见迁移:I-Con 借鉴对比学习中的思想,通过嵌入空间中的图像对来优化聚类过程,将数据增强样本与邻近样本以相似方式对待。该策略最初在对比学习中取得成功,如今被有效迁移至聚类任务中,从而显著提升了在高维、含噪图像数据上的性能表现。
4.3 消融实验
我们开展多项消融实验,以实证方式验证:通过 I-Con 框架分析对比聚类所衍生出的架构改进是否确有实效。这些消融实验聚焦两大关键方面:
- 在目标分布与嵌入空间中引入去偏(debiasing)的效果;
- 不同领域传播策略的影响。
我们针对目标分布中不同强度的去偏(以参数 α 表示)开展实验,并测试以下配置:仅在目标侧应用去偏、在目标侧与学习表征侧 双侧 应用去偏,或完全不应用去偏。如图6所示,引入去偏可提升性能,且最优 α 值通常位于 0.6 至 0.8 区间——尤其当去偏同时施加于学习过程的双侧时效果最佳。该方法与对比学习中的去偏思想类似:即假设每个负样本均有非零概率(α/N)实为正样本(即标签错误)。图5进一步展示了 α 取值变化如何在不同批次大小下持续提升性能。
在第二组实验中(见表4),我们考察了邻域传播策略的影响:评估在对比损失计算中纳入局部与全局近邻时的聚类性能。结果表明,邻域传播——尤其是小尺度传播(s = 1 与 s = 2)——在所有模型规模下均显著提升了性能,凸显了捕捉嵌入空间中局部结构的重要性。而更大尺度的传播(如 s = 3)则收益递减,表明过度传播邻域可能稀释来自最近、最相关样本的信息。值得注意的是,仅 DiNO-L/14 表现出对较大步长的偏好,这很可能源于其更强的 k-近邻识别能力,从而使生成的扩展连接更为准确。
我们的消融实验表明:对去偏参数 α 和邻域传播尺度的微小调整,即可通过一个简洁的损失函数实现当前最优性能。此外,不同模型对 α 与传播尺度的敏感性存在差异:通常,更大模型更能从增强的邻域传播中获益,但也需对 α 进行精细调优以达最佳效果。我们建议:将 α 设为 0.6–0.8,并将邻域传播限制在较小步长范围内,以在性能与计算效率之间取得良好平衡。
5 结论
综上所述,我们提出了 I-Con:一个统一众大多类机器学习方法的单一信息论方程。我们提供了超过15个定理,严格证明该方程涵盖聚类、谱图理论、监督与无监督对比学习、降维,以及监督分类与回归等领域中最主流的损失函数。
我们不仅在理论上实现了这些算法的统一,更进一步表明:这种统一性可切实指导我们发现新的前沿方法,并将某类方法中取得的改进迁移至同一大类中的其他方法。我们通过构建一种新型无监督图像分类方法予以验证——其性能相较先前最优方法提升了 +8%。
我们相信,本文所呈现的结果仅揭示了 I-Con 潜在统一能力的冰山一角;我们期望这一视角能被研究社区广泛采纳,以促进不同算法及机器学习子领域之间的协作与深度分析。
原文链接:https://arxiv.org/pdf/2504.16929
热门跟贴