本文介绍本组近期发表在ICML 2023上的理论工作。
论文题目: Revisiting Discriminative vs. Generative Classifiers: Theory and Implications 论文链接: https://arxiv.org/abs/2302.02334 代码链接: https://github.com/ML-GSAI/Revisiting-Dis-vs-Gen-Classifiers一、概述
近年来,深度表征学习(deep representation learning)已经在计算机视觉、自然语言处理、多模态任务等众多领域取得了长足的进展。一个基本的范式是先在大量(有标注或无标注)数据上预训练一个模型,然后在具体的下游任务迁移上对模型进行微调。在迁移过程中,一个常用的方法是线性评估(linear evaluation/ linear prediction),即将网络除最后一层外的预训练参数全部冻结,仅对最后一个线性层进行微调。线性评估由于其轻量简便,在模型日益增大的时代显得越发重要。
重新审视线性评估的训练过程,我们可以将网络倒数第二层之前看成一个固定的特征提取器,基于在下游任务上提取到的特征,我们对最后一个线性层进行微调。这完全等价于给定特征的情况下,训练一个多分类逻辑斯特回归(multiclass logistic regression)。一个问题自然地涌现了出来:这是最佳的选择吗?
于是,在本文中,我们挑战了线性评估中默认采用多分类逻辑斯特回归的设定,探索其他线性分类器在迁移中的潜在优势。具体地,我们考虑了一个极其简单的生成式线性分类器,即朴素贝叶斯(naive Bayes),并将其与默认的逻辑斯特回归进行对比。
这样的idea重新回顾了一个经典的机器学习课题,即生成式学习与判别式学习的对比。事实上,逻辑斯特回归与朴素贝叶斯间的对比已经在2002年的NIPS被吴恩达等人研究过[1],他们发现朴素贝叶斯需要更少的样本来训练至收敛,并在很多数据集上观察到了"two regimes"现象,即由于朴素贝叶斯能够更快的收敛,当样本量较少时,朴素贝叶斯总能在性能上击败逻辑斯特回归。如下图所示,其中 为样本量,error为分类错误率,虚线为逻辑斯特回归,实线为朴素贝叶斯:
但是,受时代影响,他们的论文存在如下限制:
理论上,他们仅考虑了二分类的情况,这与多分类的实际应用不同。
理论上,讨论逻辑斯特回归时,他们假设经验风险最小化(Empirical risk minimization)能够被用在0-1 loss上。而优化0-1 loss实际上是一个N-P hard的问题。
实验上,受于时代限制,他们只能在低维手工特征上观察实验现象。"two regimes"现象在深度表征时代仍否成立,仍不清楚。
弱弱提一句,作者搜遍全网也没搜到他们的具体证明。
对应地,我们充分考虑了这些问题,重新探讨了逻辑斯特回归与朴素贝叶斯间的对比。我们的亮点如下:
理论上,我们证明了多分类的情况,这与实际相符。
理论上,我们去除了假设经验风险最小化(Empirical risk minimization)能够被用在0-1 loss上的强假设,直接分析了实际使用的multiclass logistic loss(即交叉熵损失)。
为了实现第二点,我们引入了 -consistency的技术。特别地,我们提出了一个新的multiclass-consistency分析框架,它具有紧的保证。并针对具体的logistic loss得到了具体的 -consistency bound。
实验上,我们在大量视觉预训练模型(包括有监督和自监督)上进行实验,在很多情况都重新发现了"two regimes"现象,这表明当下游任务缺乏样本时,利用朴素贝叶斯做线性评估是有前景的。
我们把二分类情况下的具体证明也补充在附录了。
notations
2.2 我们的目标
我们最终关心的是朴素贝叶斯和逻辑斯特回归关于0-1 loss的样本复杂度, 即需要多少样本,训练得到的分类器和最优分类器(无穷样本下)的差距能够被控制在一个小范围内。具体地,我们需要分别bound以下两个估计误差(estimation error):
2.3 朴素贝叶斯
朴素贝叶斯部分,我们的假设与论文[1]保持一致。事实上,如果能把之前论文[^1]二分类的证明自己补全,多分类的证明其实就是将其中定义的一些关键量做多分类的推广,具体的证明思路是较为类似的。我们在此只对证明思路做一个high level的介绍,具体细节可见我们的论文。
因为朴素贝叶斯的参数是根据训练集可以直接利用闭式解计算的,而无穷样本下,最优的朴素贝叶斯的参数也只是训练得到参数的期望。所以,我们利用经典的集中不等式(如(Hoeffding不等式)就可以推出训练所得参数与最优参数之间距离的高概率界。当参数与最优参数的距离被bound时,我们可以进一步bound住两者泛化误差的差距,即目标式 。最终(非正式的)结果如下:
所以我们可以认为,只需要 ( 为数据维度)的样本,朴素贝叶斯就可以收敛到无穷样本下最优的形式。
2.4 逻辑斯特回归
逻辑斯特回归部分,我们去除了论文[1]中直接对0-1 loss做经验风险最小化的假设。我们基于实际深度表征学习的情况,引入了一个更弱的假设,即,对于logistic loss,最优逻辑斯特回归的泛化误差是接近贝叶斯误差(即任意可测函数能达到的最小损失)的。预训练模型抽取的特征是接近线性可分是这个假设的一个充分条件,而这已经在理论[2]和实验[3]中都得到一定印证。
为了bound逻辑斯特回归关于0-1 loss的估计误差
我们的推导分为两步。
2.4.1 关于logistic loss的估计误差
我们先考虑 logistic loss,利用经典的推导技术(如Rademacher complexity),我们可以很容易推得关于它的估计误差。
2.4.2 利用 -consistency bound链接 logistic loss和0-1 loss
目前的问题在于,如何从关于logistic loss的估计误差 ( ) 推导得到0-1 loss的估计误差 ( ) 。在这里,我们自然地引入了 -consistency bound的概念,它天然地用于连接两个不同loss的估计误差:
令 为logistic loss, 为0-1 loss,一旦我们找到 ,我们便可以利用已求得的 来bound住 。利用我们构建的通用的multiclass -consistency分析框架(将在下文介绍),并带入具体的logistic loss,我们可以得到如下结论:
综合假设和以上两个结果,我们可以最终得到逻辑斯特回归的样本复杂度:
2.5 Multiclass -consistency framework
现在,我们来介绍一下提出的 Multiclass -consistency framework。 -consistency bounds的开山之作是ICML 2022,论文[^4]提出了一个通用的二分类的 -consistency framework,并将其具体应用在众多典型loss及其对抗场景,得到了非常多的结果。尤其重要的是,该二分类框架具有紧的保证。该团队紧接着就在NeurIPS 2022[5]针对很多loss推得了多分类的 -consistency bounds。但一方面,这一工作是基于case by case的构造性证明,并没有统一框架的指导,同时也不具备紧的保证。另一方面,对于我们关心的,也是实际中用的最多的logistic loss,该论文并没有进行探讨。我们的框架优越性在于:
发现了二分类框架的一个非平凡的推广形式,它完全包含ICML 2022[^4]的结论,同时也享受着紧的保证。进一步地,我们将该框架应用到logistic loss上,首次得到了multiclass logistic loss的-consistency bound。我们将框架内容展示如下:
值得一提的是,在ICML 2023中,我们发现该创始团队的新文章[6]也分析了广义的multiclass logistic loss(orz,好险),对于狭义的multiclass logistic loss,他们的结果与我们完全一致,故也享受着紧的保证。
2.6 理论结果总结
基于更弱的假设,我们重新发现了论文[1]中样本复杂度 vs 的结论。这意味着朴素贝叶斯需要更少的样本收敛,当样本量较少时,朴素贝叶斯有可能取得更好的性能。
三、实验
3.1 模拟实验
我们在混合高斯分布上验证我们的理论。对于固定的特征维数 ,我们增加样本数量 ,直到两个模型接近相应的渐近误差,这在实验中是可估计的。例如,五分类的实验结果如下图所示:
3.2 深度表征实验
我们在多个预训练的视觉模型上进行了训练,囊括了有监督预训练和自监督预训练(对比学习,基于重建式的)。值得注意的是,在所有情况下,朴素贝叶斯比逻辑回归更快地接近其渐近误差,这与我们的理论结果一致。 在多数的模型下(主要是监督式训练的模型),我们也观察到了“two regimes”现象,这表明了当下游任务训练数据有限时朴素贝叶斯的前景。如下图所示,在样本量较少的情况下,及其简单的朴素贝叶斯也有机会取得更好的性能。
参考文献
[1]: Ng, A. Y. and Jordan, M. I. On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. In NIPS 2002.
[2]: HaoChen, J. Z., Wei, C., Gaidon, A., and Ma, T. Provable guarantees for self-supervised deep learning with spectral contrastive loss. In NeurIPS 2021.
[3]: Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision. In ICML 2021.
[4]: Awasthi, P., Mao, A., Mohri, M., and Zhong, Y. H-consistency bounds for surrogate loss minimizers. In ICML 2022.
[5]: Awasthi, P., Mao, A., Mohri, M., and Zhong, Y. Multi-class H-consistency bounds. In NeurIPS 2022.
[6]: Mao, A., Mohri, M., and Zhong, Y. Cross-entropy loss functions: Theoretical analysis and applications.
文章来源:知乎 文章链接:https://zhuanlan.zhihu.com/p/641042101
Illustration From IconScout By nanoagency
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
⤵一键送你进入TechBeat快乐星球
热门跟贴