其中一个原因是“数据泄露”。也就是最后测试模型的时候,测试集中的样例是模型在训练时候见过的。就好比考试的卷子中,出现了你在练习过程中见过的完全一样的题目。你在这张卷子上的成绩很高,但是这个分数不能反映你真正理解内容的水平。还有另外一个导致模型在实际部署中性能变差的原因在于:预测式AI经常容易把相关性(Correlation)当作因果性(Causation)。
AI模型在训练的过程中,会从输入中寻找一切能够帮助其更好地预测输出的特征,但是到底这些特征和输出是否为因果关系,AI模型是无法分辨的。这导致的结果,就让AI模型在训练过程中表现出一种被称为“走捷径”的行为。这些“捷径”往往是基于非因果的虚假关联,而非我们所期望的、具有泛化能力的真实因果逻辑。一个典型的例子,和新冠肺炎(COVID-19)的影像学诊断有关。之前有大量研究声称能通过胸部X光片高精度区分新冠患者和普通肺炎患者。然而,一项针对400多篇相关论文的系统审查发现,这些研究因严重方法论缺陷几乎不具备临床应用价值。
其中一个致命缺陷和数据集有关。在多个研究的训练数据中,几乎所有新冠肺炎影像来自成人,而所有未患病影像来自儿童。AI精准捕捉到了这个统计规律:“成人→可能患新冠;儿童→可能只是普通感冒”。这个模式让AI在原数据集上取得极高准确率,但逻辑是错误的。模型并非识别磨玻璃影、白肺等真正的新冠影像特征,而是在判断图像是否来自成人。
但是值得我们注意的是,AI模型的设计者在部署之前,并不容易发现这个问题。我们来回顾一下AI模型的设计者在部署之前是如何测试自己的模型的:他们总是把采集到的数据集分成“训练集”和“测试集”,然后用测试集来测试模型的性能。由于“训练集”和“测试集”来自同一批数据,只是人为把这批数据分成了两个集,因此“测试集”中,上面的统计规律“如果病人是成人,那么他很可能患有新冠;如果病人是儿童,则他很可能只是普通感冒”仍然成立。所以模型在这个测试集上的表现仍然很好,但是到现实中就不行了。这就是因为把相关性当作因果性导致的预测错误。
值得注意的是,当前的许多AI模型本质上是“黑箱”,其决策依据并非以显式的逻辑规则呈现,而是隐含在数以万计的复杂参数中。这种固有的不透明性,导致我们通常无法直接审视模型做出具体判断的内在机理。因此,当模型依赖虚假关联而非真实的因果特征做出判断时,这类错误将变得极为隐蔽,难以在标准测试中被发现。如何打开AI的“黑箱”,实现模型的可解释性,已成为人工智能领域至关重要的前沿方向。
热门跟贴