麻省理工研究人员提高机器学习模型准确性|大模型|数据点|算法|麻省理工

机器学习（ML）有可能通过利用大量数据进行预测洞察来改变医疗决策。然而，当这些模型在不能充分代表所有人口群体的数据集上进行训练时，就会出现一个严重挑战。预测疾病患者治疗计划的模型可以在主要包含男性患者的数据集上进行训练。这可能会导致对女性患者的预测不准确。这种偏见可能会导致有害的建议，特别是对代表性不足的群体。

一种解决方案是调整或平衡训练数据集，以确保所有子组都得到平等表示。然而，这种数据平衡方法增加了复杂性，也可能降低模型的整体性能。此外，这种方法可能需要访问训练组注释，最终可能会删除数据集的大部分。

麻省理工学院的研究人员采取了不同的方法。他们开发了一种新技术，可以识别和删除训练数据集中对模型在代表性不足的群体中表现不佳影响最大的特定点。

这种技术没有假设每个数据点对模型的性能都有同等的贡献，而是认识到某些点对模型有偏见的预测产生了不成比例的影响。

研究人员的数据模型去偏（D3M）首先使用了一种称为最差组误差的指标，该指标衡量模型在某些亚群上的表现有多差。然后，该模型通过使用他们称之为数据建模的框架来提高性能，该框架将预测近似为列车数据的简单函数。这使他们能够量化单个数据点如何影响最差的团队绩效。

使用这种方法，研究人员可以识别出最有问题的数据点。然而，这种模型并没有删除大部分数据，而是选择性地只删除最有害的数据。

在代表性不足的数据缺失或未标记的情况下，D3M的方法仍然可以通过分析数据本身来发现隐藏的偏见，使其成为提高公平性的有力工具，即使数据有限或未标记。

麻省理工学院电气工程与计算机科学（EECS）研究生、在arXiv上发表的一篇论文的共同主要作者Kimia Hamidieh说：“许多其他试图解决这个问题的算法都假设每个数据点都和其他数据点一样重要。在这篇论文中，我们证明了这一假设是不正确的。我们的数据集中有一些特定的点导致了这种偏见，我们可以找到这些数据点，删除它们，并获得更好的性能。”

Hamidieh与来自麻省理工学院的Saachi Jain、Kristian Georgiev、Andrew Ilyas以及资深作者Marzyeh Ghassemi和Aleksander Madrt共同撰写了这篇论文。这项研究将在神经信息处理系统会议上发表。

研究人员的新技术建立在他们之前的工作基础上，他们开发了一种名为TRAK的方法，该方法可以为特定的模型输出确定最有影响力的训练示例。

麻省理工学院的团队声称，D3M方法提高了最差的组准确率，同时比传统的数据平衡方法减少了约20000个训练样本。

Hamidieh说：“这是任何人在训练机器学习模型时都可以使用的工具。他们可以查看这些数据点，看看它们是否与他们试图教授模型的能力相一致。”

研究人员计划验证这种方法，并通过未来的人体研究进一步发展它。他们的目标之一是使该方法易于使用，便于医疗保健专业人员使用，从而可以在现实环境中部署。