在现代深度学习领域,模型能够在高精度和可解释性之间取得平衡,在实际场景部署时至关重要,尤其是在医疗、金融等高风险领域应用中。尽管传统深度学习模型能够提供极高的准确性,但由于其“黑箱”特性使得模型的决策过程不透明,最终得到的预测结果难以理解。本文介绍一篇来自慕尼黑工业大学医学成像人工智能实验室的最新工作SIC,SIC已被计算机视觉顶级会议ICCV 2025录用。本文提出一种基于相似性的解释方法SIC,通过提供其决策过程的局部和全局解释来提高模型的综合能力和可信度。实验结果表明,SIC不仅实现了与最先进的黑盒模型和固有可解释模型相当的准确率,还可以同时提供可视化的解释结果,使得预测结果更易于理解。
论文题目: SIC: Similarity-Based Interpretable Image Classification with Neural Networks 文章链接: https://arxiv.org/abs/2501.17328v2 代码仓库: https://github.com/ai-med/SIC一、介绍
近年来,深度学习在高风险领域的应用逐渐增多,但由于模型的“黑箱”特性,决策过程往往缺乏透明度,这使得模型在出现错误时难以追踪和纠正。为了解决这个问题,可解释人工智能(explainable AI,XAI)方法应运而生。
现有的可解释方法通常提供两种类型的解释:局部解释和全局解释,并且可以评估其信赖度,以验证这些解释是否忠实于模型。
局部解释(Local Explanation):模型能够针对单个样本提供的具体预测决策的解释,揭示模型如何做出特定决策;
全局解释(Global Explanation):模型能够提供关于整个模型行为的解释,描述每个特征如何影响所有实例的预测。
信赖度(Faithful):表示解释是否能够满足一些已知的可解释性准则,例如完整性、敏感性、线性等。
下表对比了本文提出的SIC方法与其他可解释性模型在不同解释维度上的表现。
从上表中可以看出,本文SIC方法在所有三个方面(局部解释、全局解释和信赖度)都能够提供很好的支持,这使得它相比其他方法具有更强的可解释性和透明度。
二、方法
SIC模型的核心思想是通过基于相似性的分类机制,结合B-Cos变换生成可解释性强的局部和全局解释。首先,输入图像通过特征提取器生成潜在特征向量,然后计算该特征向量与训练集中支持向量之间的相似度,从而得到各类别的预测分数。上图展示了SIC模型的工作流程。
接着,利用B-Cos变换简化前向传播过程,生成一个统一的权重矩阵,用于计算每个输入特征对最终决策的贡献,进而提供清晰的决策过程解释。
2.1 基于相似性的分类机制
与传统的分类方法不同,SIC依赖于从训练集中提取的类代表性支持向量来进行分类。支持向量 是从每个类别的训练样本中选择的,它们代表了该类别的典型特征。具体的支持向量提取过程如下:
1. 支持向量提取:在训练过程中,对于每个类别 ,SIC随机选 个支持向量。每个支持向量 是通过特征提取器 从训练图像中提取的特征向量,公式为:
其中, 是属于类别 的训练图像, 表示该图像的标签。
2. 支持向量聚类:SIC通过对每个类别的特征向量进行聚类来进一步提取具有代表性的支持向量。具体而言,SIC使用k-means算法对每个类别的特征向量进行聚类,选取聚类中心作为最终的支持向量。
3. 分类:一旦支持向量被选取并聚类,SIC就会计算输入图像特征向量与支持向量之间的相似度。分类决策通过计算相似性得分,并将其加权求和,生成类别logits ,然后通过Softmax函数将logit转化为最终的类别概率。
2.2 B-Cos变换
B-Cos变换是SIC方法中的一个关键技术,主要目的是通过强制输入特征和权重之间对齐,简化神经网络的计算过程,从而使得模型的决策更加透明和可解释。对于输入特征向量 和网络中的权重向量 ,B-Cos变换的数学公式如下:
其中, 是归一化后的权重, 是输入特征与权重的余弦相似度,sgn是符号函数。在该公式中,参数 来控制该相似度的放大或缩小,从而生成一个更符合解释性的线性变换。符号函数 根据余弦相似度的符号(正负)来决定特征的方向性。这个步骤确保了输入特征和权重之间的方向一致性。
在神经网络的每一层,B-Cos变换通过对权重和输入的对齐,使得模型的解释变得更加直观。具体来说,这个变换为每个输入特征提供了一个贡献度,并且这些贡献度可以通过余弦相似度来追溯到输入特征和权重之间的关系。每一层通过以下矩阵形式来计算:
其中, 代表网络输出,经过每一层的变换矩阵 处理输入数据 ,其中每一层的变换依赖于该层的输入。通过层与层之间的矩阵乘积,最终生成网络的输出 。该过程可以通过综合的变换矩阵 表示,简化为一个输入特征与权重之间的线性关系,增强了神经网络的可解释性。
三、实验
本文在三个任务上进行了评估验证,分别是Pascal VOC的多标签图像分类、Stanford Dogs的细粒度图像分类和RSNA数据集的病理预测任务。由于医学影像通常包含复杂的病变特征,并且这些特征可能在不同的病例中表现出很大的差异,因此,RSNA数据集的病理预测具有一定的挑战性。此外,本文还使用了FunnyBirds框架对SIC的解释性进行评估。
3.1 定量实验
下表展示了本文SIC模型和其他不同模型在Pascal VOC、Stanford Dogs和RSNA数据集上对比的结果。
在Pascal VOC数据集上,SIC在ResNet50架构上取得了97.00%的准确率,优于B-Cos[1]和ProtoPNet[2]。尽管SIC在Stanford Dogs数据集上的表现稍有下降,但在Pascal VOC和RSNA上的表现证明了它在提供高准确度方面的优势,尤其在医学影像分析PSNR中。
3.2 定性实验
下图展示了 SIC 模型在处理不同类别时如何根据支持样本和贡献图来解释其决策过程。
第一个例子展示了模型正确分类图像中猫的例子。蓝色的支持证据条表明模型的预测是正确的。并且模型是依赖于三个支持样本(Support Samples 21, 22, 23)中的猫眼睛特征来进行决策。贡献图也显示出模型在预测时主要关注了猫眼睛的位置。这既体现了模型如何通过支持样本和贡献图提供局部解释,又展示了如何通过支持样本的依赖来进行全局解释。但在某些情况下,模型可能会受到输入图像中某些特征的干扰,导致错误预测,如第三个例子中误识花为盆栽植物。总之,SIC 模型不仅能提供高准确度的分类,还能为其决策过程提供透明的可解释性,帮助分析和理解其行为。
3.3 可解释性评估
此外,为了验证 SIC 模型的可解释性,本文还在FunnyBirds框架下进行了验证,实验结果如下图所示。其中,A表示准确率,BI表示背景独立性,Com.表示完整性,是CSDC、PC、DC和D的平均值,Cor.表示正确性,Con.表示对比性。
如上图所示,虽然SIC其在某些指标上与ProtoPNet和B-Cos相当,但其在准确性、背景独立性、正确性和对比性等方面的综合表现更为优异,证明了其在多任务中的优势。尤其是在处理背景噪声和提供高质量可解释性方面,SIC显示出了强大的优势和鲁棒性。
四、总结
本文介绍了一种新颖的可解释图像分类方法SIC,该方法通过基于相似性的分类机制和B-Cos变换,在确保高精度的同时显著提高了模型的可解释性。SIC通过支持向量学习和相似性计算,提供透明的决策过程和详细的局部与全局解释,解决了传统深度学习中的“黑箱”问题。实验结果表明,SIC在多个数据集上表现出色,尤其在医学影像等高风险领域,展现了优异的可解释性和准确性,提出了新的深度学习模型透明性和可操作性的方法。
参考
[1] Moritz Bohle, Mario Fritz, and Bernt Schiele. B-cos networks: Alignment is all we need for interpretability. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pages10329–10338, 2022.
[2] Chaofan Chen, Oscar Li, Daniel Tao, Alina Barnett, Cynthia Rudin, and Jonathan K Su. This looks like that: deep learning for interpretable image recognition. Advances in neural information processing systems, 32, 2019.
llustration From IconScout By IconScout Store
-The End-
本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴