撰文丨王聪

编辑丨王多鱼

排版丨水成文

2024 年 8 月,Sakana AI 公司、不列颠哥伦比亚大学、牛津大学的研究人员组成的研究团队在预印本平台 arXiv 推出首个旨在全面自动化科学流程的人工智能工具——“AI 科学家”(AI scientist),其能够完成科学发现的整个周期——从提出想法到验证想法再到撰写科学论文。

如今,一年多过去了,可供研究人员使用的 AI 研究助手种类繁多,其中一些也能够像“AI 科学家”那样进行自主研究甚至撰写科学论文。

而现在, “AI 科学家”再次完成了一个新壮举——其完成了首个通过人类专家同行评审的完全 AI 生成论文 ,从 研究想法、编写代码、运行实验、绘制和分析数据,到撰写完整的科学论文,均由“AI 科学家”自主完成。

2026 年 3 月 25 日,研究团队在国际顶尖学术期刊Nature上发表了题为:Towards end-to-end automation of AI research 的研究论文,更新了 2024 年的这篇描述“AI 科学家”的预印本论文,对其能力进行了适度调整,进一步展示了“AI 科学家”将生成的三篇原创研究论文提交给了一个顶级机器学习会议——国际学习表征会议(ICLR),其中一篇论文通过人类专家同行评审后被接收,且评分超过了该会议接收论文的平均值。

这一成就展示了 AI 在科学贡献方面日益增强的能力,并预示着科学研究方式可能发生的范式转变。研究团队表示,如果负责任地开发,“AI 科学家”等自主系统能够极大地加速科学发现。

打开网易新闻 查看精彩图片

什么是“AI 科学家”?

“AI 科学家”是一个端到端自动化科学研究全过程的 AI 系统,由一系列“智能体”(Agent)构成,这些智能体建立在现有的大语言模型(LLM)之上(例如 GPT-4o 或 Claude Sonnet 4)。

它能够自主完成从研究构思到论文发表的整个科研生命周期,包括——

1、生成研究想法:在用户指定的机器学习研究子领域中,迭代生成高水平的研究方向和假设;

2、执行实验:编写代码、运行实验、可视化结果;

3、撰写论文:按照标准机器学习会议论文格式,使用 LaTeX 模板逐节撰写完整论文;

4、进行同行评审:通过自动评审系统评估论文的科学质量。

这个“AI 科学家”有两种工作模式:基于模板的模(使用人类提供的代码模板作为起点)和模板自由的模式(完全自主生成代码并进行更广泛的科学探索)。

打开网易新闻 查看精彩图片

“AI 科学家”工作流程

突破:AI 论文通过同行评审

为了验证“AI 科学家”的实际能力,研究团队进行了一项大胆的实验:将完全由“AI 科学家”生成的研究论文提交给国际学习表征会议(ICLR)的一个研讨会进行同行评审。ICLR 是由图灵奖得主Yoshua Bengio杨立昆于 2013 年创立的深度学习领域学术会议,其与 NeurIPS、ICML 并称为机器学习领域主要会议,在谷歌学术会议期刊排名中位列全球前十。

整个实验过程完全透明且符合伦理规范:

  • 会议组织者事先知情并同意;

  • 人类评审专家被告知有部分论文是 AI 生成的,但不知道具体是哪几篇;

  • 所有 AI 生成的论文在评审后都会被撤回,避免在科学界建立明确标准前设定先例。

结果令人震惊:“AI 科学家”提交的三篇 AI 生成论文中,有一篇获得了人类评审专家的平均分 6.33 分(个人评分分别为 6、7、6),成为第一篇完全由 AI 生成并通过了标准的科学同行评审流程的研究论文,这一分数超过了该研讨会接收论文的平均分数。这篇题为:Compositional regularization: Unexpected obstacles in enhancing neural network generalization(组合正则化:增强神经网络泛化能力中的意外障)的论文报告了一个负面结果,与研讨会关注“有趣负面结果”的主题高度契合。

打开网易新闻 查看精彩图片

“AI 科学家”生成的一篇论文的精选部分,该论文已通过同行评审,在顶级机器学习会议的研讨会上被接受

自动评审系统:与人类评审者媲美

“AI 科学家”不仅能够生成论文,还配备了“自动评审器”来评估论文质量。这个自动评审系统的表现如何?

根据论文中的对比数据,自动评审器在关键指标上与人类评审者表现相当甚至更优:

  • 平衡准确率:自动评审器 69% vs 人类评审者 66%;

  • F1 分数:自动评审器 0.62 vs 人类评审者 0.49;

  • 曲线下面积(AUC):自动评审器 0.69 vs 人类评审者 0.65。

即使在训练数据截止日期后的 2025 年的新论文上,自动评审器仍保持 66% 的平衡准确率,与人类评审者水平相当。

系统工作原理:四阶段科研流程

“AI 科学家”按照四个主要阶段顺序工作——

第一阶段:想法生成与筛选,系统迭代生成研究想法档案,为每个方向生成描述性标题、研究理由和实验计划。然后通过连接语义学者API和网络访问工具,筛选掉与现有文献过于相似的想法。

第二阶段:实验执行与可视化,系统执行提出的实验计划,可视化结果,并为后续写作做好笔记记录。在模板自由模式下,系统会从零开始生成代码,并通过树搜索优化实验执行。

第三阶段:论文撰写,系统使用笔记和图表,按照会议论文模板逐节填充内容,通过查询获取相关文献,并在 20 轮比较中为论文添加适当引用。

第四阶段:自动评审,生成的论文由自动评审系统评估,提供数值评分、优缺点列表和接受/拒绝的二元决策。

打开网易新闻 查看精彩图片

“AI 科学家”工作的四个阶段

意义与局限:科学研究的范式转变

这项研究的成功标志着 AI 在科学贡献能力上的重大进步,可能预示着科学研究方式的范式转变。如果负责任地开发,这种自主系统可以极大地加速科学发现。

当然,研究团队也坦诚指出了当前系统的局限性:三篇提交论文中只有一篇被接受,且研讨会接受率(70%)远高于主会议(32%);提交的论文尚不能达到顶尖论文的标准;常见失败模式包括想法幼稚、实现错误、方法严谨性不足、实验错误和多种类型的幻觉。

未来展望与伦理考量

随着 AI 系统能力的指数级增长和成本的指数级下降,“AI 科学家”的性能有望大幅提升。未来,同样的方法可以应用于其他科学领域,例如自动化化学实验室。

然而,自动化论文生成能力也带来了重要的伦理和社会关切——可能压垮同行评审系统、人为夸大研究资历、未经适当认可地挪用他人想法、消除科学家工作岗位、进行不道德或危险的实验等等。

研究团队强调,在科学界建立明确的披露和评估标准前,需要谨慎推进这类 AI 系统的应用,确保它们被用于促进而非破坏科学诚信。

“AI 科学家”生成并通过同行评审的论文,是 AI 发展史上的一个重要里程碑。它不仅是技术能力的展示,更是对传统科研模式的深刻挑战。当 AI 开始涉足人类智慧的最高殿堂——科学发现时,我们既看到了加速进步的巨大潜力,也面临着重新定义科研伦理边界的紧迫任务。

论文链接

https://www.nature.com/articles/s41586-026-10265-5