打开网易新闻 查看精彩图片

arxiv 2022 4月论文,只能说是骚操作,可以试试

论文题目:

Emphasis on the Minimization of False Negatives or False Positives in Binary Classification

论文地址:

https://arxiv.org/abs/2204.02526

摘要

随着人类开始在当前产品中实现更多的机器学习,二进制分类中特定情况(如假阴性或假阳性)的最小化变得越来越重要。虽然有一些方法可以偏向于减少特定情况,但这些方法不是很有效,因此它们在模型中的使用很少,为此,我们引入了一种新的方法,在不显著改变模型的整体性能或F1分数的情况下,降低假阴性假阳性,该方法涉及在预训练模型后小心地改变输入的真实值,介绍了该方法应用于各种数据集的结果,有些数据集比其他数据集更复杂,通过对这些数据集上的多个模型架构进行实验,找到了最佳模型,在所有模型中,在F1分数没有大幅下降的情况下,分别显示出召回率或精度的增加,假阴性或假阳性的最小化

1 简介

随着机器学习被纳入更多的领域,更具体的模型必须成为他们特定的任务,医疗保健就是这样一个领域,当机器学习用于诊断患者时,假阴性的最小化远远大于假阳性的最小化,同样,在犯罪部门,假阳性比假阴性更危险,因为一个无辜的人可能会被指控他们没有犯过的罪。为了创建一个对相应领域最有用的最佳模型,它应该偏向于更危险的情况,因此,一种减少特定情况而不破坏模型整体性能的方法应运而生。

为了验证该方法是否有效,我们在多个模型架构上对其进行了测试,模型架构从线性回归到深度卷积神经网络,目前可用来最小化假阴性等情况的方法包括改变权重,执行数据增强来创建有偏差的数据集,以及改变决策边界,这些方法中的许多都考虑了某种情况下的最小化,但当涉及到不改变整体性能时就失败了,执行权重变化是许多模型中使用的一种常见技术,用于获得对某个类别的偏差,但它保持较小,以避免将模型溢出到一侧,这是通过使该情况(例如FN)被错误检测时的损失下降比另一情况(例如FP)更低来实现的,因此模型更注重减少这些情况(例如FN)。

其他方法,如数据增强,只涉及获取或创建更多您希望模型更准确地预测的情况的数据,决策边界线改变是另一种常见的方法,简单地将y帽预测线从0.5改变到0.5以上(FP的减少)或0.5以下(FN的减少)。

然而,检查这些方法并了解它们的有效性,可以注意到它们在极端水平上没有多大帮助,他们最多可以改变1-2%的召回率或精度,研究人员设计了一种新方法,在不损失F1分数(用于衡量模型整体性能的指标)的情况下,将召回指标提高约13%。这种方法可以跨多个体系结构工作。

在本文中,使用肺炎数据集作为模型性能的比较,肺炎是世界上最致命的疾病之一,对模特和人类来说,通过胸部x光片检测肺炎都是一个挑战,肺炎难以检测的原因包括它与支气管炎等其他肺部疾病越来越相似,在完全黑白的图像中模糊,等等。

2 数据

主要使用的数据集是北美放射学会提供的RSNA数据集,包含26684张正面x射线图像,分为肺炎和非肺炎两类,进行增强以平衡无肺炎和有肺炎的图像,在真实数据集上执行水平和/或V垂直增强,共创建33,463张图像,(图1)该数据集被分为80%的训练和20%的测试,对训练数据集进行数据增强后,得到33463张图像,这个增强数据集进一步分为80%的训练和20%的验证。

打开网易新闻 查看精彩图片

与此肺炎数据集一起,许多模型通过迁移学习在臭名昭著的NIH胸部ChestX-ray8上进行训练,其中包含141665张正面x射线图像,分为8种不同的疾病,包括肺炎,该数据集不是单独使用的,而是用于执行转移学习模型,该模型也在假阴性方法上进行了测试(图2)。

打开网易新闻 查看精彩图片

3 方法

在不破坏模型整体性能的情况下尽量减少假阴性的方法背后的方法涉及数据更改,基于数据增强和阈值改变的结合,采用预训练模型,对同一组真实值略有不同的数据进行重新训练,数据增强是指你尝试为模型创建更多的数据来训练,这样它就会表现得更好,因为它有更多的资源来收集信息,阈值更改是将y帽决策边界从0.5更改为高于或低于0.5的值,在假阴性最小化的情况下,最佳阈值应该低于0.5,这种方法是可行的,但如果在测试中实现,就会产生问题,因为它会形成不必要的偏差,该方法改变部分数据,以便在训练期间学习改变决策边界,而不强迫模型以某种方式思考。

取训练集,用预训练模型对其进行预测,得到真阴性、假阴性、真阳性、假阳性的2x2混淆矩阵,属于假阳性类别的图像被更改为真实值为1,为了了解这种方法的真正有效性,我们对假阳性图像的不同部分进行了实验(图3)。

打开网易新闻 查看精彩图片

这是可行的,因为一些预测的假阳性与一些假阴性具有相似的特征,因此,当改变模型以假阳性为训练对象,并认为这些是“真实”特征时,它学会了对肺炎图像进行偏向识别,在(图4)可以看出,许多不正确的情况彼此靠近,这意味着模型在两者之间看到了相似的特征,训练模型将这些特征视为真实的,或者有肺炎,它将强调假阴性的最小化,决策边界理论上会向左移动,反之亦然,如果它想减少误报。

打开网易新闻 查看精彩图片

该方法可以与执行类似操作的阈值线变化进行比较,这两种方法的不同之处在于,模型不断学习完善其决策边界线,以适应新的数据点,而阈值线改变硬编码的变化,因此它的预测更少的学习和更多的强迫。

4 架构

由于我们的目标是测试所涉及的方法的效率,并强调将False Negatives最小化,因此整个过程的架构保持相对简单(图5),相反,更多地关注于制作复杂的模型来测试该方法所基于的深度架构和著名架构。

打开网易新闻 查看精彩图片

为了测试该方法对模型性能的影响,在应用该方法之前,最好能得到性能较高的模型,搜索从采用一层、两层、三层的最佳模型架构开始,然后通过验证集上的结果选择最佳模型,测试集在整个过程中完全没有受到影响。经过这一过程,选出了5个最佳模型,并很快应用了该方法,其中3个模型来自于这个实验过程,另外两个包括vgg16模型架构和迁移学习模型,迁移学习模型被训练来创建一个更深、更复杂的模型,它涉及在11层CNN模型上训练NIH数据集,并通过一个包含15个神经元的隐藏层将模型重新训练到二进制RSNA数据集上,根据模型的性能和复杂度选择模型,测试所设计的假阴性最小化方法的范围和值,前3个模型是深度神经网络架构,在验证集上表现得非常好,VGG16的表现也非常好,也是一个非常著名/复杂的模型,迁移学习模型对验证数据的处理效果较好,且模型复杂,因此选择迁移学习模型。(图6)

打开网易新闻 查看精彩图片

5 比较

A.类别权重

一个著名的方法经常用于创建一个模型,强调假阴性最小化是改变类权重,这最初是作为不平衡数据集的解决方案引入的,以平衡特定类的不足表示,这种方法很快就被认可,因为它也能够产生对特定类的偏见,类别权重法降低了假阴性数,从而提高了召回率,但F1评分不一致,且经常下降(表一),与本文提出的方法相比,该方法提高了召回率,但基本保持了F1评分,效果相对较差。

打开网易新闻 查看精彩图片

将这种类权值变化方法与召回率为0.53、F1分数为0.56的基础模型进行比较,可以看出召回率具有以F1分数或模型整体性能为大代价而增加的一致性,这些结果背后的原因是损失函数更倾向于阳性病例而不是阴性病例,这意味着当一个阴性图像(没有肺炎)被误诊时,它对损失的影响很小,因此模型继续学习,而不会过多关注精度的下降,类权值越大,查全率越高,查准率越低。一个极端的例子是,一个阳性病例(有肺炎)的一个错误与一个阴性病例(没有肺炎)的50个错误是一样的,所以模型本质上更倾向于阳性病例,这种方法的问题是,没有办法在不降低精度的情况下提高召回率,从而破坏模型的整体性能。

B.阈值线

另一种减少假阴性或假阳性的常见方法是改变决策边界,二元分类模型的基本决策边界为0.5,当y值大于0.5时,认为该预测为True,当该值小于0.5时,预测为False,为了减少假阴性,阈值线被降低,因为这将迫使模型预测更少的输入为假,从而减少假阴性案例的数量,类似地,增加阈值线可以减少假阳性的数量,与类权重方法一样,虽然这降低了假阴性或假阳性,但代价是增加了相反的假阳性情况(表二),虽然假阴性的数量有可能减少,但假阳性的数量急剧增加。

打开网易新闻 查看精彩图片

将这种阈值改变方法与召回率为0.53、F1评分为0.56的基础模型进行比较,可以看出,与类权值改变方法和提出的方法不同,这不是一种学习方法。

6 结果

当将所提出的方法应用于5个不同的基本模型时,我们进行了实验,试图改变不同数量的假阳性的真实值(表三),可以注意到,在20%和40%时,不太可能看到召回率或假阴性最小化的大变化,在假阳性的真实值的60%和80%左右的变化有一个明显的变化,F1分数通常保持一致,在100%变化时,考虑到所有假阳性的实际值都变成了1,这有点不可预测。

打开网易新闻 查看精彩图片

总体而言,这些模型强调在相同的总体表现或F1分数下,将假阴性最小化,这种方法的效果很大程度上取决于基本模型,值得注意的是,当基础模型精度较高(91,102,103)时,召回率增加1-5%,该方法的效果更加明显,有时精度也会提高,因为模型仍在学习,而不是“被迫以某种方式预测”,在基本模型中,精度开始较低,如迁移学习和VGG16,该方法的有效性不太明显,这背后的一个可能的原因是,精度越高,该方法应用的假阳性就越少,这种最小化假阴性的方法完全依赖于如何选择假阳性来改变的真实值,如果假阳性的数量一开始很小,那么可用于更改的假阳性就更集中,不太可能是异常值,由于精度低,有很多假阳性,这使得选择假阳性的问题更加困难,因为你选择的10%可能彼此非常不同,对模型的学习没有影响,对于80%和100%这样的大比例,你需要大量的数据并改变其真实值,这可能意味着一个不同的数据集,使用这种方法,您选择更改的数据量对于其在现实世界中的适当有效性至关重要。

为了观察这些模型是否真的在保持相同F1分数的情况下提高了召回率,在不强调假阴性最小化的情况下进行了最佳模型的集成,并将其与假阴性最小化的另一个集成模型进行了比较(表IV)。

打开网易新闻 查看精彩图片

7讨论

在数据科学社区中,已经有许多与医疗机器学习领域相关的实现,这包括改善模型的整体性能或创建方法来创建有利于实时使用的偏差,通过胸片x光进行诊断在这一领域相当流行,通过创建更深层次的神经网络,设计新的方法来最小化某些情况,以及添加新的方法来提高模型的整体性能,已经对这一点进行了许多改进。

将某一特定案件最小化的想法很受欢迎,因为现实世界中人工智能的日益融入需要偏见来生存和创造一个更安全的社区,其中一些方法包括keras文档中的类权重更改、数据扩充和阈值更改,该主题的一些进一步研究包括测试假阳性最小化方法和使用更深层次的神经网络,虽然该方法已经在VGG16等著名网络上进行了测试,但它可以应用于更大数据集上更深层次的神经网络,通过在不同的数据集上尝试该方法,可以在不同类型的数据上分析和显示其有效性。

8结论

机器学习技术正在飞速发展,当它们被应用到不同的领域时,重要的是要根据情况进行塑造,在大多数与医学相关的病例中,假阴性病例与假阳性病例相比是非常危险的,通过创建这种方法,诊断肺炎或其他可能疾病的模型在做出最终预测时将牢记这种危险的风险,可能挽救更多的生命,这个模型将作为一个二手工具,在艰难的决策任务,通过提高约13%的召回率,并在复杂的检测任务中保持F1分数,证明了其有效性。