哈佛团队报告：AI已在科学界广泛应用，但并未被有效整合|专业领域|人工智能|哈佛|学术|科学界|论文

人工智能与科学研究的结合无疑越来越紧密，这项技术已经嵌入并重塑如数学、分子生物学、材料学等各类学科研究的多个维度。

图丨相关文章（来源：Nature）

但除了那些“一夜颠覆”、“彻底革命”的口号，似乎，我们并不真正了解人工智能到底给科研带来多大的影响，也不知道它们到底在科学中参与了多少。

在此背景下，近期由哈佛大学的Karim Lakhani教授领衔的研究团队，就通过一项系统性的分析，深入探究了人工智能在各个领域学术研究中的渗透程度，为我们理解人工智能如何融入并影响科学研究提供了线索。

研究选取了从 1985 至 2022 年——即从人工智能的“联结主义转向”至今的关键时期——20 个不同学科的共 8000 万份研究出版物作为样本，主要围绕三个问题展开：

1. AI 相关科研产出的演变趋势如何？

2. AI 在各个领域的参与程度如何？

3. 人工智能参与的普遍度变化与各学科知识发展轨迹的变化有什么关联？

AI 相关科研产出的演变趋势如何？

首先是第一个问题。

为了囊括所有与人工智能相关的文献，研究团队创建了一个语料库，除了“人工智能”、“深度神经网络”、“机器学习”等关键词，也包括了 80 年代早期 GOFAI (Good Old-Fashioned Artificial Intelligence) 时期的相关术语。

同时通过纳入arXiv的 AI、ML 等相关分类下的所有文献的关键词语料、利用 Gensim 工具进行扩展以及相关专家审核等，研究尽可能地覆盖到了所有 AI 相关的论文，再此基础上进行了数据分析。

结果显示，截至 2022 年，在所有领域之内大约有 9% 的论文与人工智能存在关联。自 1985 年至 2022 年，在所有学科范围内，人工智能的参与程度总体增长率达到了惊人的 1293%。

图丨1985 年至 2022 年各领域人工智能参与度的变化（来源：arXiv）

对各学科进行更细致地考察可以发现，科学界整体上对人工智能的接纳与融合速度都非常快。

从 1985 年至 2022 年间，20 个不同学科的论文中，AI 的参与率基本都翻了几倍甚至数十倍。

尤其是工程学、环境科学，其参与率分别上涨了2402.29%和2343.47%（当然，一部分原因也是它们原本的基数较小），即便是变化幅度最小的农业与食品科学领域也上涨了 275.37%。

图丨1985 年至 2023 年各领域 AI 参与度百分比变化（来源：arXiv）

而这种趋势，早在OpenAI发布 ChatGPT 之前，就已经显现。所以，在强大的大语言模型出现之前，AI 实际上就已经在加速参与到科研之中了。

AI 在各个领域的参与程度如何？

虽然所有学科领域中涉及 AI 的学术出版数量均在快速增长，但这种增长可能源于一些干扰性因素，例如新出版平台的涌现，这些新平台可能会吸纳大量新增的 AI 研究成果。

因此，为了辨别这种增长是否真正反映了 AI 应用的普及趋势，团队又对各学科领域内 AI 相关出版物在其学术出版中的分布集中度进行了量化。

团队采用基尼系数这一统计指标来衡量 AI 相关论文在各领域出版机构中的分布均衡性，以此评估其普及程度。

基尼系数的数值范围是从 0 到 1，0 即一个领域内所有 AI 论文均匀分布于所有出版机构；而 1 则表明所有 AI 论文仅由单个出版机构发布。

具体操作上，对于每一年及每一个领域各自构建一个数组，其长度等于该领域当年活跃的出版机构数量（记作 n）。

数组中的元素 Pi 代表第i个出版机构发表的 AI 论文占比。基于此数据，依据公式，计算基尼系数 G：

进而，团队定义了“普及性”(Ubiquity)指标，其公式为：Ubiquity=1−G。普及性得分越接近 1 时，代表 AI 的普及程度越高。

结果表明，从 1985 年到现在，AI 在科学界的总体普及度大幅上升。

图丨1985 年至 2023 年普及性的总体变化

在各个领域内，人工智能的普及率呈现出普遍的提升，在商科、化学等领域，其普及性的提升幅度尤其突出。而且我们可以看到，在 2020 年左右，几乎所有学科的普及度都猛然激增。

图丨1985 年至 2022 年期间不同领域的普及率变化（来源：arXiv）

人工智能参与的普遍度变化与各学科知识发展轨迹的变化有什么关联？

虽然我们已经了解了人工智能参与各个学科的普遍性程度，但这并不能直接反映人工智能对各个学科的具体影响力。我们还需要明确的是，这种普及性的变化，到底与各个学科本身知识的发展有什么关系？

而这种关系则可以通过文献语义内容的变迁（如主题、议题、核心研究重点的转移等）来捕捉。为了探查知识发展的轨迹变化，团队分析了在文档嵌入空间中表示的分类嵌入最近语料库中论文之间相对距离随时间的变化。

研究首先关联了语料库中论文的 AI 参与情况、发表年份、时间戳及领域特定出版机构信息与其对应的嵌入表示。

基于这些数据，为每个领域每年的 AI 参与论文集与非 AI 参与论文集计算了语义质心（即平均向量），这些质心分别表达了两类论文的“典型”语义特征，便于直接比较两者在语义上的接近程度。

然后，对于每一年，研究都计算了所有领域内 AI 参与论文集和非 AI 参与论文集与同年计算机科学领域 AI 参与论文质心间的语义相似度，采用公式来度量这种相似性。

由此来了解不同学科论文在涉及人工智能方面的变化趋势，尤其是分析它们倾向于采用计算机科学中 AI 研究的语义特点，还是更注重结合各自学科的特有语义来探讨 AI 问题。

通过上述相似性指标，团队分析了各领域内论文（不论是否涉及 AI）与计算机科学领域，尤其是在人工智能子领域的语义趋近情况。

在预期中，这可能会出现两种情况：一是论文因采用与计算机科学中 AI 研究相类似的语义框架而愈发体现出人工智能的特征；二是论文在探讨 AI 相关问题时，仍保持紧密联系于其母学科的语义特征。

据此，团队分别计算了 ai_similarity、non-ai_similarity 以及 inner_similarity 这三个关键变量，分别代表每年各领域 AI 参与论文质心与计算机科学 AI 参与论文质心的语义相似度、非 AI 参与论文质心与计算机科学 AI 参与论文质心的相似度，以及同一领域内 AI 参与论文与非 AI 参与论文质心的内部语义相似度。

这些测量结果为理解 AI 普及率变化与学科知识发展路径之间的关系提供了量化的视角。

研究表明，在样本涉及的所有学科范围及时间段内，与那些未涉及人工智能的论文相比，涵盖了人工智能内容的论文在语义上通常展现出与计算机科学领域内同类人工智能论文更高的相似度。

图丨1985 年至 2023 年期间所有非 AI 参与和所有 AI 参与论文的质心与所有领域中计算机科学领域 AI 参与论文的质心之间的语义相似性分布密度。x 轴上的值越接近 1，表示语义相似度越高（来源：arXiv）

这并不出乎意料，因为跨学科的 AI 研究往往围绕着一些共通的主题和技术，从而在语义层面呈现出一致性。

此外，还有一个并不意外的情况是，无论是否涉及 AI，同一学科内的论文在语义上保持着较高的相似性（即 inner_similarity），这说明它们总归还是需要符合该学科的贡献标准才能得以发表。

然而，需要注意的是，从 1985 年至 2020 年，尽管每个学科也各自维持其学科认同和贡献标准等，但除了 4 个例外学科，绝大多数学科的内在相似性出现了下滑趋势。

图丨从 1985 到 2022 年间，计算机科学的 AI 参与论文与其他不同领域的 AI 参与和非 AI 参与论文之间的相似性变化（来源：arXiv）

这表明，即使在确保本学科贡献的同时，AI 的融入可能正在逐步推动各学科内部语言和概念框架的分化，虽然这种分化在多数情况下依然相对温和。

图丨1985 与 2022 年所有非 AI 参与的论文和所有 AI 参与的论文的质心之间的语义相似性分布。y 轴上越接近 1 的值表示内在相似性越高。（来源：arXiv）

尽管不少领域中非 AI 参与论文与计算机科学 AI 研究的相似度有所上升，但增幅普遍较小，这可能是因为计算机科学对跨学科问题的关注程度日益增长，比如在数据科学和信息科学等研究领域中。

为了深入分析 ai_similarity、non-ai_similarity 以及 inner_similarity 这三个变量与因变量普及性变化之间的关系，团队使用每一级学科的固定效应的进行了面板回归分析。以此揭示这三个测量指标的变化趋势与普及性变化之间的联系，其公式如下：

其中，学科特定的固定效应为 αi（表示特定学科领域的截距）， ai_similarity、non-ai_similarity 以及 inner_similarity 随时间 t 在各领域的变化值分别记为X1，it、X2，it、X3，it，以及两者的交互项 β4，it(X1，itxX2，it)，以此来探究这些术语对普及性影响是协同的（大于其各个影响的总和）或拮抗的（小于其各个影响的总和）。

通过这种方式，团队得以精确量化这些语义相似度指标是如何共同作用于 AI 在各学科领域的普及程度的。

研究结果揭示了两个现象：一方面，当某一学科领域的 AI 参与论文或非 AI 参与论文与计算机科学领域的 AI 论文在语义上更加接近时，该领域的 AI 普及度会升高。

这意味着，当某个领域内的 AI 参与论文或非 AI 参与论文变得更像计算机科学领域的人工智能论文时，该领域内就会有更多的机构参与发表 AI 参与的论文。