用准确的成功衡量标准取代对人工智能的炒作|人工智能|基线|流体|物理学|科学

一篇新文章指出，期刊文章对机器学习模型如何解决某些类型的方程式的报道往往过于乐观。研究人员提出了两条报告结果的规则和系统性变化，以鼓励报告的清晰度和准确性。

机器学习是人工智能的一种形式，人们对它的热议让人觉得，用这种技术解决所有科学问题只是时间问题。虽然人们经常提出令人印象深刻的说法，但这些说法并不总是经得起推敲。机器学习可能有助于解决某些问题，但对其他问题却不够。

在《自然机器智能》杂志的一篇新论文中，美国能源部普林斯顿等离子体物理实验室 (PPPL) 和普林斯顿大学的研究人员对机器学习与传统流体相关偏微分方程 (PDE) 求解方法进行了系统性比较研究。此类方程在许多科学领域都很重要，包括支持电网聚变能发展的等离子体研究。

研究人员发现，在解决流体相关偏微分方程的机器学习方法与传统方法之间的比较中，机器学习方法往往更具优势。他们还发现负面结果一直被低估。他们建议制定公平比较的规则，但认为还需要进行文化变革来解决看似系统性的问题。

“我们的研究表明，尽管机器学习具有巨大的潜力，但目前的文献对机器学习如何解决这些特定类型的方程式描绘了过于乐观的图景，”PPPL 计算科学副主任兼研究首席研究员 Ammar Hakim 说。

将结果与弱基线进行比较

偏微分方程在物理学中无处不在，尤其适用于解释自然现象，如热、流体流动和波。例如，这类方程可用于计算放入热汤中的勺子沿其长度方向的温度。知道汤和勺子的初始温度以及勺子中的金属类型后，偏微分方程可用于确定放入汤中后某一时刻勺子沿线任意一点的温度。这类方程用于等离子体物理学，因为控制等离子体的许多方程在数学上与流体方程相似。

科学家和工程师已经开发出各种解决 PDE 的数学方法。其中一种方法被称为数值方法，因为它以数值方式而不是分析或符号方式解决问题，以找到难以或无法精确解决的问题的近似解。最近，研究人员探索了是否可以使用机器学习来解决这些 PDE。目标是比其他方法更快地解决问题。

系统性回顾发现，在大多数期刊文章中，机器学习并没有宣传的那样成功。“我们的研究表明，在某些情况下，机器学习在解决流体相关的偏微分方程时可能会稍微快一些，但在大多数情况下，数值方法更快，”尼克·麦格雷维说。麦格雷维是这篇论文的主要作者，最近在普林斯顿大学等离子体物理学项目获得了博士学位。

数值方法在准确性和运行时间之间有一个基本的权衡。“如果你花更多的时间来解决问题，你会得到更准确的答案，”McGreivy 说。“许多论文在比较中没有考虑到这一点。”

此外，数值方法之间的速度差异也很大。McGreivy 表示，为了发挥作用，机器学习方法需要超越最好的数值方法。然而，他的研究发现，人们经常将数值方法与速度比最快的方法慢得多的数值方法进行比较。

进行公平比较的两条规则

因此，本文提出了两条规则来尝试克服这些问题。第一条规则是仅将机器学习方法与具有相同精度或相同运行时间的数值方法进行比较。第二条规则是将机器学习方法与有效的数值方法进行比较。

在研究的 82 篇期刊文章中，有 76 篇声称机器学习方法与数值方法相比表现更佳。研究人员发现，在那些吹捧机器学习方法的文章中，79% 的文章实际上基础较弱，违反了至少一条规则。其中四篇期刊文章声称与数值方法相比表现不佳，两篇文章声称表现相似或不同。

McGreivy 说：“很少有文章报道机器学习的表现较差，这并不是因为机器学习几乎总是表现更好，而是因为研究人员几乎从不发表机器学习表现较差的文章。”

McGreivy 认为，低门槛比较通常是由学术出版中的不良动机所驱动的。“为了让论文被接受，取得一些令人印象深刻的结果会有所帮助。这会激励你让你的机器学习模型尽可能地发挥作用，这是好事。然而，如果你所比较的基线方法效果不佳，你也会得到令人印象深刻的结果。因此，你没有动力去改进你的基线，这是不好的，”他说。最终的结果是，研究人员最终努力研究他们的模型，而不是寻找最好的数值方法作为比较的基线。

研究人员还发现了报告偏见的证据，包括出版偏见和结果报告偏见。出版偏见发生在研究人员意识到他们的机器学习模型的表现并不比数值方法好后选择不发表他们的研究结果时，而结果报告偏见可能涉及丢弃分析中的负面结果或使用非标准的成功衡量标准，使机器学习模型看起来更成功。总的来说，报告偏见往往会抑制负面结果，并给人一种整体印象，即机器学习在解决流体相关的 PDE 方面比它更好。

“这个领域有很多炒作。希望我们的工作能为使用机器学习来改善技术水平的原则性方法提供指导，”哈基姆说。

为了克服这些系统性和文化性问题，哈基姆认为，资助研究和大型会议的机构应该制定政策，防止使用不可靠的基线，或者要求更详细地描述所使用的基线及其被选中的原因。“他们需要鼓励研究人员对自己的研究结果持怀疑态度，”哈基姆说。“如果我发现结果好得难以置信，那么它们很可能就是假的。”

这项工作是在 DOE 拨款 DE-AC02-09CH11466 和 DE-AC02-09CH11466 的资助下完成的。