机器学习(ML)有可能通过利用大量数据进行预测洞察来改变医疗决策。然而,当这些模型在不能充分代表所有人口群体的数据集上进行训练时,就会出现一个严重挑战。预测疾病患者治疗计划的模型可以在主要包含男性患者的数据集上进行训练。这可能会导致对女性患者的预测不准确。这种偏见可能会导致有害的建议,特别是对代表性不足的群体。

打开网易新闻 查看精彩图片

一种解决方案是调整或平衡训练数据集,以确保所有子组都得到平等表示。然而,这种数据平衡方法增加了复杂性,也可能降低模型的整体性能。此外,这种方法可能需要访问训练组注释,最终可能会删除数据集的大部分。

麻省理工学院的研究人员采取了不同的方法。他们开发了一种新技术,可以识别和删除训练数据集中对模型在代表性不足的群体中表现不佳影响最大的特定点。

这种技术没有假设每个数据点对模型的性能都有同等的贡献,而是认识到某些点对模型有偏见的预测产生了不成比例的影响。

研究人员的数据模型去偏(D3M)首先使用了一种称为最差组误差的指标,该指标衡量模型在某些亚群上的表现有多差。然后,该模型通过使用他们称之为数据建模的框架来提高性能,该框架将预测近似为列车数据的简单函数。这使他们能够量化单个数据点如何影响最差的团队绩效。

打开网易新闻 查看精彩图片

使用这种方法,研究人员可以识别出最有问题的数据点。然而,这种模型并没有删除大部分数据,而是选择性地只删除最有害的数据。

在代表性不足的数据缺失或未标记的情况下,D3M的方法仍然可以通过分析数据本身来发现隐藏的偏见,使其成为提高公平性的有力工具,即使数据有限或未标记。

麻省理工学院电气工程与计算机科学(EECS)研究生、在arXiv上发表的一篇论文的共同主要作者Kimia Hamidieh说:“许多其他试图解决这个问题的算法都假设每个数据点都和其他数据点一样重要。在这篇论文中,我们证明了这一假设是不正确的。我们的数据集中有一些特定的点导致了这种偏见,我们可以找到这些数据点,删除它们,并获得更好的性能。”

Hamidieh与来自麻省理工学院的Saachi Jain、Kristian Georgiev、Andrew Ilyas以及资深作者Marzyeh Ghassemi和Aleksander Madrt共同撰写了这篇论文。这项研究将在神经信息处理系统会议上发表。

研究人员的新技术建立在他们之前的工作基础上,他们开发了一种名为TRAK的方法,该方法可以为特定的模型输出确定最有影响力的训练示例。

麻省理工学院的团队声称,D3M方法提高了最差的组准确率,同时比传统的数据平衡方法减少了约20000个训练样本。

Hamidieh说:“这是任何人在训练机器学习模型时都可以使用的工具。他们可以查看这些数据点,看看它们是否与他们试图教授模型的能力相一致。”

研究人员计划验证这种方法,并通过未来的人体研究进一步发展它。他们的目标之一是使该方法易于使用,便于医疗保健专业人员使用,从而可以在现实环境中部署。

打开网易新闻 查看精彩图片

根据该论文的合著者Ilyas的说法,“当你有工具可以批判性地查看数据并找出哪些数据点会导致偏见或其他不良行为时,它就为你构建更公平、更可靠的模型迈出了第一步。”

这项研究的结果可能有助于解决人工智能和机器学习模型的一个长期问题:它们的有效性取决于它们所训练的数据。如果可以通过可扩展的算法识别和删除降低人工智能模型整体性能的数据点,特别是对于大型数据集,这可能会改变游戏规则,提高各种应用程序的模型准确性和可靠性。