MLGym：推进AI agents研究的新框架与基准|基准|工作流|算法|通用

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

MLGym：推进人工智能研究代理的新框架与基准

https://arxiv.org/pdf/2502.14499

我们推出了Meta MLGym和MLGym-Bench，这是一个用于评估和开发面向人工智能研究任务的大型语言模型（LLM）代理的新框架和基准测试。这是首个面向机器学习任务的“健身房”环境，支持对用于训练此类代理的强化学习（RL）算法的研究。

MLGym-Bench包含13个来自不同领域的多样化、开放式人工智能研究任务，涉及计算机视觉、自然语言处理、强化学习和博弈论等。解决这些任务需要具备真实世界的人工智能研究技能，例如生成新的想法和假设、创建和处理数据、实现机器学习方法、训练模型、运行实验、分析结果，并通过这一过程的迭代来改进给定任务。

我们在基准测试中评估了多个前沿大型语言模型（LLM），例如Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview和Gemini-1.5 Pro。我们的MLGym框架便于添加新任务、集成和评估模型或代理、大规模生成合成数据，以及开发用于在人工智能研究任务上训练代理的新学习算法。

我们发现，当前的前沿模型可以在给定的基线上取得改进，通常通过找到更好的超参数，但它们并未生成新的假设、算法、架构或显著改进。我们开源了我们的框架和基准测试，以促进未来在提升LLM代理的人工智能研究能力方面的研究。

1 引言

加速科学发现一直是人工智能（AI）研究中的长期目标。早在1979年，橡树岭应用人工智能项目（Team, 1985; Emrich et al., 1988; Johnson and Schaffer, 1994）就已开展相关探索。最近，随着基础模型的发展（Achiam et al., 2023; Anthropic, 2024; Team et al., 2024; Dubey et al., 2024），端到端生成科学论文的全自动流程（Lu et al., 2024）已得到概念验证。未来，我们设想开发能够独立进行文献检索、生成科学假设、设计实验、实现新方法、分析结果、撰写科学论文以及将研究成果应用于产品的AI研究代理，从而协助科学研究的全过程。这些代理应既能完全自主运行，也能在人类监督下工作，并根据用户反馈进行调整。

这一愿景源于对AI能力的认可：AI能够处理海量数据并识别复杂模式，有望在药物发现和材料科学等领域加速科学突破，例如通过识别有潜力的药物候选物或预测新材料的性质（Hessler and Baringhaus, 2018; Schneider et al., 2020; Guo et al., 2021）。与传统方法不同，AI代理可以通过分析大规模知识图谱揭示隐藏的跨学科关系，从而为复杂挑战（如气候建模）提供新的见解和解决方案。通过自动化繁琐任务并探索非常规途径，AI代理可以解放科学家，使其专注于更高层次的认知活动，最终推动创新并拓展知识边界。机器学习（ML）研究强调经验验证和系统性模拟实验，是探索和改进LLMs在科学研究中应用的理想试验场。

然而，科学方法本质上依赖于经验验证、严格评估和标准化基准，以确保研究结果的可靠性和可重复性。尽管在开发用于各个领域的AI代理方面取得了显著进展（Yang et al., 2024; Wu et al., 2024; Ma et al., 2024; Deng et al., 2023; Wang et al., 2023），我们目前仍然缺乏专门用于评估AI代理在多样化领域开展开放式研究任务能力的综合性框架和基准。这种标准化评估工具的缺失阻碍了我们在此新兴领域客观衡量进展和识别改进方向的能力。

最近，一些研究开始在各种软件工程（SWE）和机器学习（ML）任务上评估LLM代理，例如SWE-Bench（Jimenez et al., 2023）、SWE-agent（Yang et al., 2024）、ScienceAgentBench（Chen et al., 2024）、SUPER（Bogin et al., 2024）、MLE-Bench（Chan et al., 2024）、MLAgentBench（Huang et al., 2024）和RE-Bench（METR, 2024）。然而，现有的AI研究代理基准要么不包括开放式研究任务，要么仅涵盖狭窄的研究领域。此外，现有框架并未设计用于支持对AI研究代理的不同训练算法（如强化学习、课程学习或开放式学习）的研究。最后，当前框架不允许灵活评估多种成果（例如代理研究的不同输出，如模型、算法或一组预测）。

在本文中，我们介绍了MLGym——首个面向AI研究代理的Gym环境（Brockman et al., 2016），以及一个统一框架，旨在将多样化和开放式的AI研究任务整合到一个平台上，用于开发和评估LLM代理（见图1了解MLGym的示意图）。作为Gym环境，我们的框架支持对AI研究代理的不同训练算法（如强化学习、课程学习和开放式学习）的研究。我们还发布了MLGym-Bench，这是一套精心设计的13个开放式研究任务，涵盖计算机视觉、自然语言处理、强化学习和博弈论等广泛领域，用于评估代理在真实、多面的工作流程中的表现。MLGym和MLGym-Bench通过提供对开放式研究任务的灵活评估能力，扩展了当前LLM代理框架和基准所考虑的问题范围。例如，可以根据模型权重、强化学习训练算法或代表博弈论策略的代码等多种成果来衡量表现。我们在MLGym-Bench的各个任务上，对五种前沿LLM进行了比较，突出了它们的优势和局限性。最后，我们提出了一种新的代理评估指标，该指标借鉴了优化（Dolan and Moré, 2002）和自动化机器学习（AutoML; Roberts et al., 2022a）领域的文献，以更公平地评估具有各自独特性能指标的LLM代理在不同任务上的相对表现。

总结我们的贡献，我们（i）介绍了MLGym——首个用于评估和开发AI研究代理的Gym环境，（ii）发布了MLGym-Bench——一套用于评估LLM代理的多样化开放式AI研究任务，（iii）提出了一种新的评估指标，用于比较多种任务上的多个代理，以及（iv）在MLGym-Bench上广泛评估了前沿LLM。最后，MLGym使研究人员和开发人员能够轻松集成和评估新任务、代理或模型。

在本文的其余部分，我们将讨论相关的LLM代理框架和基准，概述MLGym框架，介绍MLGym-Bench及其评估机制，展示我们的实验设置和结果，并以对局限性和未来扩展的讨论作为结尾。

1.1 AI研究代理的能力层级

我们提出了一个分层框架，用于对加速AI研究的LLM代理的能力进行分类。该框架包含六个层级，每一层代表不同程度的自主性和科学贡献。

层级0：复现 在这一层级，LLM代理能够复现现有的研究论文，无论是否能够访问原始代码。这一层级展示了对研究领域的基本理解以及复制已知结果的能力。

层级1：基线改进 在层级1，LLM代理能够在给定非最先进（SOTA）基线代码的情况下，改进某个基准任务的性能。这一层级表明代理能够分析并优化现有解决方案，即使这些解决方案并非最先进的。

层级2：达到SOTA 在层级2，LLM代理仅通过任务描述和在SOTA方法发明之前发布的文献（但无法访问SOTA论文或代码），能够在某个基准任务上达到SOTA性能。这一层级表明代理能够为开放性研究问题提出与人类发现的同等水平的解决方案。

层级3：新的科学贡献 在层级3，LLM代理能够做出新的科学贡献，例如提出一种新方法，在多个基准任务上建立新的SOTA，并且值得在NeurIPS等顶级机器学习会议上发表。

层级4：突破性科学贡献 在层级4，LLM代理能够识别关键的研究问题、方向和解决方案，并做出值得在NeurIPS等知名机器学习会议上作为口头报告或最佳论文奖发表的显著科学贡献。

层级5：长期研究议程 在层级5，LLM代理能够开展长期研究议程，提出研究问题、方向和解决方案，并在数周、数月甚至数年的跨度内持续产生科学发现。这一层级的LLM应具备能够获得诺贝尔奖或图灵奖等重大奖项的范式转变性研究成果。

通过定义这些能力层级，我们为评估前沿AI研究代理提供了一个框架。MLGym-Bench专注于上述分类中的层级1：基线改进。

2 相关工作

2.1 AI研究框架和基准测试

表1展示了MLGym和MLGym-Bench与其他相关LLM代理框架和基准测试的比较。以下，我们详细说明MLGym与这些工作的区别。

首先，MLGym是首个为AI研究代理提供Gym接口的框架，使得使用强化学习算法集成和训练这些代理变得容易。MLGym-Bench也是首个包含需要在多个领域（如强化学习、博弈论或SAT）进行算法研究任务的基准测试。

其次，MLGym-Bench涵盖了广泛的开放式AI研究任务，包括监督学习、语言建模、强化学习、博弈论和SAT。相比之下，SWE-Bench/SWE-Agent（Yang et al., 2024）专注于解决GitHub问题，因此代码更改要么修复代码，要么不修复（与监督学习问题中的损失度量等更细粒度的优化任务不同）。同样，MLE-Bench（Chan et al., 2024）包含来自Kaggle竞赛的狭窄范围的机器学习任务。尽管这些任务存在质量水平的差异，但它们通常已被当前最先进的方法解决。另一方面，MLAgentBench（Huang et al., 2024）既包含ML专业任务（回归、分类、代码速度改进），也包含关注最新研究挑战的任务（例如CLRS推理语料库（Veličković et al., 2022）、BabyLM挑战（Oba et al., 2023））。RE-bench（METR, 2024）也由广泛范围的ML工程任务组成，这些任务难以饱和，并且奖励越来越复杂的方法。ScienceAgentBench（Chen et al., 2024）纳入了从同行评审出版物中提取的数据驱动科学发现任务，但这些任务过于具体，更像是Kaggle竞赛，而不是开放性研究问题。

第三，MLGym允许灵活的评估工件：只需提供代理可以调用的Python代码，以检查其当前解决方案的质量，例如模型检查点或强化学习算法。相比之下，MLE-Bench要求提交CSV文件以对每个问题进行评分，而SWE-Bench/Agent则要求通过一系列单元测试来评估代码片段。MLAgentBench、RE-Bench和ScienceAgentBench提供了用于计算评估分数的Python脚本。

最后，MLGym便于对模型和代理进行评估。为了便于模型评估，MLGym提供了一个默认的代理框架，可以开箱即用，用于评估任何基础模型。

2.2 LLM代理

关于工具增强型LLM的研究（Schick等人，2023）激发了“代理型”LLM（Kaddour等人，2023；Wang等人，2024a）的新研究议程，其中LLM与外部环境进行交互。现有研究探索了如何教会LLM使用工具或API（Schick等人，2023；Qin等人，2023）、浏览网页（Nakano等人，2022；Deng等人，2023；Zhou等人，2023）、与操作系统交互（Wu等人，2024）、玩游戏（Paglieri等人，2024；Wang等人，2023）或与其他模拟（Wang等人，2024b；Lin等人，2023）或物理世界（Zhang等人，2024a）进行交互。评估代理型LLM通常涉及设计受控环境、提供合适的工具、定义任务和目标，以及建立定量指标来衡量系统的性能。

沿着这些方向，Yoran等人（2024）介绍了AssistantBench，强调了开放网络导航的复杂性，并展示了当前系统在处理现实的、耗时的任务（如监控房地产市场或识别附近企业）时的困难。与此同时，Kapoor等人（2024）强调了标准化评估协议的重要性，该协议既考虑准确性也考虑成本，警告不要过度拟合，并倡导更具可重复性的基准测试。将这些关注点扩展到多维环境，Liu等人（2023）提出了AgentBench——一套包含八个互动场景的测试，用于测试代理的推理、决策和长期指令遵循能力。同样，Mialon等人（2023）通过GAIA（一个旨在评估对需要稳健工具使用和多模态推理的现实问题的表现的基准测试）专注于整体规划技能，揭示了人类水平熟练度与当前LLM之间的巨大差距。最后，Trivedi等人（2024）强调了通过AppWorld实现复杂工具集成的必要性，在这个互动环境中，代理必须通过API操作各种应用程序，并以迭代方式生成复杂代码。这些工作不仅强调了代理型LLM能力的广度，还强调了系统性、多方面的基准测试的迫切需求，这些基准测试能够捕捉复杂任务并提供可验证的结果，从而推动该领域的可重复性进展。然而，这些工作没有一个专注于评估或开发用于开放式AI研究任务的LLM代理。

2.3 软件工程和数据科学中的代理

与可重复性和可验证性原则一致，软件工程任务为LLM代理提供了一个试验场，其中任务可以被严格限定，结果可以被严格衡量。最近的研究探索了代理如何在允许系统评估的受控环境中解决代码级挑战。如上所述，Yang等人（2024）介绍了SWE-agent，它在受限的代理-计算机界面中运行，便于文件创建、仓库导航和代码测试——从而增强了在SWE-bench和HumanEvalFix等基准测试上的可追溯性和可重复性。同样，Wang等人（2024c）描述了OpenHands，这是一个将代理交互限制在沙盒环境中的平台，用于更安全的命令执行和可验证的网页浏览，从而为基准测试提供了标准化的基础。Magentic-One（Fourney等人，2024）是另一个擅长软件工程的代理系统，它还增强了网页浏览能力，这一点从其在GAIA、AssistantBench和WebArena（Zhou等人，2023）等代理基准测试中的出色表现中得到了证明。另一方面，Zhang等人（2024b）通过AutoCodeRover在SWE-bench上实现了有竞争力的表现，与代理型方法不同，它通过结合基于LLM的编程和程序的抽象语法树表示来解决GitHub问题。

为了实现自动化数据科学工作，Li等人（2024）介绍了AutoKaggle，一个多代理人类辅助系统，Grosnit等人（2024）提出了AgentK v1.0，一个端到端的自主数据科学代理；这两个系统在Kaggle竞赛数据上表现良好。仍然在数据科学领域，Lei等人（2024）构建了Spider 2.0，这是一个用于自动化文本到SQL工作流的具有挑战性的基准测试和代码代理框架。更进一步，Cao等人（2024）介绍了Spider 2-V，一个与专注于自动化企业数据科学和工程工作流的基准测试相结合的自主多模态代理。

更具搜索导向的方法包括SWE-Search（Antoniades等人，2024），这是一个多代理框架，将蒙特卡洛树搜索（MCTS）与迭代细化相结合，使代理能够持续评估并改进其对仓库级任务的方法。类似地，Koh等人（2024b）探索了LLM代理的树搜索，并表明为LLM代理配备最佳优先搜索可以提升其在WebArena和VisualWebArena（Koh等人，2024a）代理基准测试中的表现。同样在增强LLM代理的搜索能力方面，Yu等人（2025）提出了基于MCTS的测试时搜索和自我学习技术，这些技术在VisualWebArena上取得了更好的性能。最后，Xia等人（2024）证明，即使是相对简单的做法，只要经过彻底监控，也能表现出色：一个“无代理”的系统遵循三步流程，在SWE-bench Lite上超越了更复杂的基于代理的方法，这凸显了受约束、可验证的环境在推动自主SWE代理可重复性进步中的价值。

2.4 科学研究中的代理

受控的SWE（软件工程）环境为更复杂的自动化奠定了基础，同时保持了可重复性和可验证性。然而，仅靠软件基础还不足以弥合实现科学加速目标的剩余差距。从具有明确指标的有限环境和明确定义的任务向开放式问题的不太明确的领域迈进，需要付出巨大的努力来提升研究代理的能力。例如，提出可自动化的标准来衡量科学创新性，或者构建继承自不同学科的自动化发现的理论，这些领域都需要进一步的细化和实验。

尽管如此，我们可以在机器学习研究和数据科学领域迈出第一步，因为这些领域对我们来说是一个科学游乐场，其任务既明确定义，又具有正式的可验证性标准（基准测试和测试）、可证伪性（消融研究、数据泄露测试、记忆化测试、领域外泛化等）和可重复性。

数据科学

许多近期的研究将经典数据科学任务和基于真实仓库的任务作为代理的试验场，这些任务具有已知的测试集和指标。尽管这些研究基于相似的基础，但代理的自主性水平存在差异。例如，ML-Bench（Tang等人，2024）专注于现有GitHub仓库中的明确任务——在以代码为中心的设置中评估代理，而不涉及开放式目标。相比之下，Data Interpreter（Hong等人，2024）将代理测试扩展到更广泛的数据科学问题，涵盖编码任务、数学推理以及有限的开放式应用套件（例如OCR、网络搜索和小游戏生成），从而反映了更具灵活性的自主性方法。代理基准测试SUPER（Bogin等人，2024）通过要求代理自行制定任务，并在研究仓库中对NLP相关数据和任务进行迭代，从而强调了自我导向的问题解决能力。

人工智能研究

机器学习中模型和模拟的存在不可避免地导致这一领域也成为自动化的对象。让代理自行制定任务并处理开放式任务，自然会导致机器学习方法本身的自动代理增强。AutoML（Eggensperger等人，2019；Lindauer和Hutter，2020；Tornede等人，2023）和NAS（Elsken等人，2019；Nasir等人，2024）方法此前已在具有内置限制的环境中为机器学习自动化奠定了基础（明确的方法集、搜索空间和策略的定义），而代理方法可以在没有这些具体规范的情况下提出开放式解决方案。

例如，MLAgentBench（Huang等人，2024）包含一个环境，代理可在其中解决从改进图像分类到语言建模的13个复杂任务，而当前最先进的LLM在这些任务中最难的一项中成功率为0%。该环境中为代理提出的流程包括设计和运行实验、分析结果，并通过迭代改进定义的指标。类似地，RE-Bench（研究工程基准测试）（METR，2024）是一组包含7个多样化的具有挑战性的机器学习任务，并在方法上增加了真实人类专家的参与和进展比较：机器学习专家与LLM代理的限时会话。作者指出，当双方在每个环境中总共分配2小时的时间预算时，最佳代理的得分是人类专家的4倍。然而，目前人类在增加时间预算时表现出更高的回报率，在8小时预算下勉强超过顶级AI代理的得分，并且在双方总共分配32小时时，人类的得分是顶级代理的2倍。MLE-bench（Chan等人，2024）专注于将Kaggle任务作为代理评估的来源。代理在明确定义的指标、数据集和真实竞赛结果分布方面进行评估，尝试时间限制为24小时。然而，与MLGym相比，所有这些工作都包含更狭窄的领域，不评估算法推理能力。此外，其中一些工作没有提供标准化的代理框架以允许模型评估，而是在比较性能时既改变了框架（也称为支架），也改变了LLM。虽然我们的工作专注于创建具有客观和标准化评估指标的评估框架，但其他近期的研究则专注于开发用于基于端到端实验周期生成论文这一更具主观性任务的代理框架（Lu等人，2024）。

科学发现 近期的多项研究通过LLM代理针对科学发现的过程，探索科学自动化的方向。DiscoveryWorld（Jansen等人，2024）是一个科学代理的基准测试，这些代理在一个类似游戏的虚拟发现环境中接受评估。120个任务要求代理形成假设、设计和运行实验、分析结果并根据结论采取行动，涉及蛋白质组学、化学、考古学、物理学、农业、火箭科学、语言学或流行病学等领域。其自定义的模拟引擎仅支持有限的对象列表和14种可能的动作。该研究的一个显著特点是，它专注于通用的发现技能，而不是特定任务的解决方案，并且评估、对象空间和动作空间对所有科学领域都是通用的。

然而，ScienceAgentBench（Chen等人，2024）以不同的方式处理类似的创建基于发现的代理基准测试的任务：任务基于44篇精心挑选的同行评审出版物，这些出版物包括具有明确定义指标的数据驱动发现任务。涵盖的科学领域包括生物信息学、计算化学、地理信息科学和神经科学，共产生102种不同类型的任务，如数据处理、建模或可视化。每个任务都由基于Python的评估环境、最终结果指标和中间评估标准定义。特殊的指标控制数据污染和代理捷径问题。作者通过比较不同的基线，包括带提示的纯LLM，指出执行反馈对于代理生成有用解决方案是必要的。

研究任务的执行反馈和迭代改进的想法已在ResearchAgent（Baek等人，2024）中被提出。基于文献的发现展示了基于代理概念的方法在端到端迭代解决方案生成方面的巨大改进，这也得到了基于知识与随机事实的消融研究的支持。该代理仅通过主观人类偏好标注和自动人类偏好评估进行评估。尽管涵盖了端到端实验流程的结构化方面（如问题的清晰度、可行性、重要性、相关性、原创性、方法的普适性、创新性、实验的可重复性、有效性等），但仅依赖人类判断而不辅以客观指标是不够的，正如Si等人（2024）所展示的那样。

3 MLGym

LLM代理可以通过与shell环境交互的一系列命令来执行机器学习研究/开发。给定任务描述、一些起始代码以及对其动作和观察历史的访问权限，LLM会生成适当的shell命令以实现研究目标，例如产生想法、处理数据、实现新方法、训练和评估模型、分析结果以及推理下一步要进行的实验。代理会根据任务描述和前一个命令的执行反馈，迭代地被提示采取行动，从而允许它在上下文中开发并自我完善解决方案。

MLGym框架为评估和开发用于AI研究任务的代理和模型提供了一个统一的框架。我们从长期存在的强化学习领域中汲取灵感，构建了一个可以在本地Docker机器shell中执行shell命令的Gym环境（Brockman等人，2016）。MLGym提供了对四个核心组件的访问：代理、环境、数据集和任务。MLGym的模块化设计使得研究人员可以轻松地利用和扩展该库。例如，研究人员可以轻松实现其他代理框架以提升性能，他们可以通过添加更多工具来扩展环境以供代理使用，在给定任务中添加更多数据集（例如，如果任务是图像分类，他们可以在Cifar-10之外添加ImageNet），甚至可以向MLGym基准测试中添加更多任务。以下，我们将详细讨论每个组件。

3.1 代理

MLGym提供的Agent类作为基础LLM的包装器，并提供用于集成各种基础模型、历史处理器和成本管理的功能。此外，与其它框架（Huang等人，2024；Yang等人，2024）不同，MLGym将代理与环境分离，便于轻松集成外部代理。这也使得人们能够在相同的代理框架下公平比较不同的基础模型，而无需自行实现它们的代理编排。

代理被期望以所有先前观察和动作的历史作为输入，并返回下一步要采取的动作。提供的动作随后被传递给环境，环境执行命令并根据命令输出返回下一个观察结果。代理可以在环境中执行任何bash命令。此外，它还可以访问一组工具（即，类似于编辑文件的bash脚本），它也可以像使用任何其他bash命令一样使用这些工具。MLGym提供了一个基于SWE-Agent（Yang等人，2024）的默认代理框架。我们在第3.5节中描述了工具的设计和配置。完整的系统提示可以在代码清单1中找到。

3.2 环境

MLGym环境被设计为Gymnasium（gym）环境（Towers等人，2024）。环境组件负责在本地Docker机器中初始化一个shell环境，安装所有必要的工具，安装特定任务的Python依赖项，将所有必要的数据和代码复制到一个独立的代理工作空间，并管理LLM代理与系统之间的交互。此外，为了支持开放式研究任务并使环境安全且灵活，MLGym环境还管理各种文件和目录的权限。具体来说，当在Docker容器中运行时，由于使用root用户存在各种安全问题，我们创建了一个名为“agent”的非root用户，并为工作目录设置了适当的权限。

在本工作中，我们有意识地将工具和ACI（代理计算接口）从SWE-Agent（Yang等人，2024）中解耦。这确保了代理和环境不会紧密耦合，从而便于实现其他代理架构。实际上，这意味着当环境被初始化时，它也会初始化工作环境中的工具，并准备工具文档，这些文档可以添加到LLM代理的提示中。关于工具的更多细节在第3.5节中提供。

3.3 数据集

MLGym通过配置文件提供了一个简单的抽象来定义数据集。它支持本地存储的数据集和Hugging Face数据集。我们将数据集定义与任务定义解耦，以便一个数据集可以在多个任务中使用。同样，一个任务可以有多个数据集，以便代理的代码可以在所有数据集上进行评估，从而展示实现方法的通用性。

此外，如果数据集文件存储在本地，环境会自动将相关文件以只读权限复制到代理工作空间。这确保了代理无法更改数据集文件，这对于可重复性和防止作弊至关重要。

如果数据集存储在Hugging Face中，代理将通过起始代码或提示获得数据集的URL，并被要求使用它。注意，如果LLM代理未能遵循指示或使用了不同的数据集，评估代码将无法工作或导致性能问题。

3.4 任务

我们提供了一个简单的抽象，用于通过配置文件定义任何机器学习研究任务。每个任务可以包含一个或多个数据集、自定义评估脚本（只读访问）、特定任务的conda环境、可选的起始代码、训练超时设置以及内存管理设置。这为定义涵盖广泛难度的多样化开放式机器学习研究任务提供了灵活的框架。例如，可以通过提供基线代码来定义任务的较易版本，通过不提供起始代码或提供有错误的代码来定义较难版本，从而自然地形成课程。

评估是任何机器学习任务的关键组成部分。每个任务都需要不同的评估协议，因此，像MLE-Bench（Chan等人，2024）中所做的Kaggle风格评估（要求代理提交CSV文件）并不适用于每个问题。例如，在强化学习环境中，评估工件是一组在预定义随机种子上训练的模型，然后用于在一组环境种子上获得平均奖励。同样，对于博弈论任务，它可以是一个包含策略函数的Python文件，该文件将与一组固定的策略函数进行评估。由于我们旨在对代理进行开放式和多样化的任务评估，因此不可能将所有提交转换为CSV格式。

为了确保对这种开放式任务的可扩展性，任务定义需要提供评估脚本和提交工件说明。然后可以提示LLM代理遵循提交说明并编写适当的代码。此外，评估脚本对LLM代理是只读的，因此它虽然可以检查评估格式，但不能修改脚本来改变评估逻辑。

现有的工作，如Huang等人（2024）、METR（2024）和Chen等人（2024），也采用了基于脚本的评估方法，而MLE-Bench（Chan等人，2024）则采用了Kaggle风格的评估。

我们对代理、环境、数据集和任务的所有设计决策，旨在减少开发人员和研究人员的负担，并增强这一新兴领域的可重复性。

3.5 工具和ACI

为LLM代理赋予使用外部工具的能力是知识密集型任务取得进展的关键组成部分。在本工作中，我们在SWE-Agent（Yang等人，2024）首次引入的代理-计算机接口（ACI）的基础上，针对机器学习研究代理所需的额外功能进行了扩展。具体来说，我们通过权限管理系统扩展了搜索、导航、文件查看器、文件编辑器和上下文管理的命令，并引入了新的文献搜索和记忆模块命令。例如，如果代理尝试打开没有读取权限的文件，文件查看器工具将为代理生成文本反馈。同样，如果代理尝试编辑被标记为只读的评估脚本，编辑工具将输出反馈字符串，而不是默默地失败。文献搜索以及在记忆中维护实验日志的能力对于代理在开放式研究任务中超越现有最先进（SOTA）解决方案至关重要。

与SWE-Agent类似，工具被定义为bash或Python脚本，并在环境中作为bash命令提供给代理。所有工具的文档都通过系统提示提供给代理。有关可用工具的描述，请参见表2。

验证和提交

我们为代理提供了两个命令，用于验证提交并提交结果。验证和提交命令都用于运行评估脚本，并向代理反馈其在测试集上的当前得分。然而，尽管提交命令是一个终止动作（即，代理的轨迹被终止，并执行评估脚本以记录最终得分），验证命令可以在运行过程中根据需要多次使用，以获取在测试集上的当前性能。验证命令的加入帮助代理持续改进其在测试集上的表现。

文献搜索和PDF解析器

我们为代理提供了两种工具，用于从外部来源查找和提取知识。文献搜索工具允许代理通过Semantic Scholar API查询与给定主题相关的研究论文，这些论文需有开放获取的PDF版本；PDF解析工具则允许代理下载PDF文件，并将其转换为基于文本的表示形式。论文内容可以存储在上下文窗口中，也可以存储在记忆模块中，用于长期任务。结合这两种工具，代理可以在其工作流程中查找和分析研究论文。有关这些工具及其调用方式的更多信息，请参见表2。

记忆模块——研究日志

我们为MLGym引入了记忆模块，这是提升代理在长期人工智能研究任务中表现的重要工具。记忆模块使代理能够通过结构化的记忆系统持久存储关键发现和成功的训练配置，克服了长期任务中上下文保留有限的挑战。在实验中，我们观察到，当代理可以访问记忆模块时，它可以从记忆中检索最佳训练配置，并继续在此基础上进行迭代（见图11和图12）。如果没有记忆模块，代理的轨迹可能会超过模型的上下文长度，从而无法检索到最佳配置，实际上忘记了早期的实验，只能在最近的配置上进行局部迭代。

该模块配备了两个核心功能：`memory_write`和`memory_read`。`memory_write`功能允许代理通过以JSON格式保存文本数据及其对应的嵌入和标签，存储关键见解和有效的配置。相比之下，`memory_read`方法根据与给定查询的余弦相似度检索最相关的前k个存储条目，使代理能够回顾过去的知识，并从以前成功的配置中进行迭代。

实证结果表明，记忆模块对长期任务的积极影响。配备记忆模块的代理能够在延长的试验序列中保持进展，重用最优配置和发现，从而实现比受固定上下文窗口限制的代理更优越的结果。为了进一步增强其能力，我们将记忆的状态（记忆标签和记录数量）添加到系统提示中，以便代理了解存储数据的类型。记忆记录的标签通过识别与记忆记录最接近的3-gram来提取。

该模块显著减少了受限上下文长度的限制，使代理能够在长期实验设置中有效运行。然而，这只是一个早期版本，有许多方法可以改进该模块。例如，一个可能的方向是引入更结构化的记忆格式，如层次化或关系模型，允许精确存储和检索信息，并支持对存储知识进行更复杂的推理。另一个方向是将记忆操作直接纳入模型的训练或微调过程中，使代理能够原生利用存储知识以提升性能。或者使用一个子代理自动管理记忆，选择重要见解、删除不必要的条目并更新记忆。这些方向中的每一个都需要进行广泛的实验和严格的测试，以确保其稳健性和可扩展性。

在本文中呈现的所有实验中，代理仅使用了SWE-Agent工具和验证命令。

4 MLGym-Bench

我们基准测试的主要动机是在机器学习的不同方面挑战模型，包括数据处理、模型架构和战略决策。通过纳入数据科学、博弈论、计算机视觉、自然语言处理和强化学习的任务，该基准测试旨在提供一个多样化且全面的代理评估平台。

基准测试中包含的任务经过精心挑选，以代表现实世界的挑战，确保模型能够在各种场景中泛化并有效表现。每个任务都附带标准化的评估脚本和基线实现，为性能评估和比较提供了明确的参考点。

基准测试套件分为四个主要类别，每个类别专注于机器学习的一个特定领域：数据科学、博弈论、计算机视觉、自然语言处理和强化学习。以下我们描述基准测试中的每个任务。

4.1 数据科学

房价预测（Kaggle，2016）在房价预测任务中，目标是使用Kaggle房价数据集预测房价。该任务根据模型从各种特征中准确预测房价的能力进行评估，使用均方根误差（RMSE）和决定系数（R²）作为性能指标。此任务的基线是一个简单的岭回归模型，仅进行了最小限度的特征工程。

4.2 3-SAT

3-SAT（Cook，1971）在3-SAT任务中，LLM代理被提供了一个DPLL代码，并被提示优化变量选择启发式算法。相关的DPLL代码存储在一个只读文件中，代理可以查看它以构建其启发式函数代码，但它不能修改它。一个简单的随机选择启发式算法被用作LLM代理的基线和起始代码。性能通过解决100个生成的3-SAT实例所需的总墙钟时间来衡量。这些实例是使用Selsam等人（2018）描述的算法生成的。

4.3 博弈论

我们考虑了多个与在重复博弈中做出战略性选择相关的任务，涵盖了多种知名博弈。具体来说，我们考虑了为重复的两人博弈生成策略代码的任务。在每个任务中，我们提供了一个对手策略，形式为一个用于博弈的对手机器人，并要求代理生成一个针对该对手的最佳应对策略代码，即生成一个在对抗该对手时最大化得分的策略代码。我们简要回顾一下博弈论的术语，相关教科书对这一主题有更详细的介绍（Fudenberg和Tirole，1991）。

我们考虑了以下知名博弈的重复版本，这里简要讨论：重复囚徒困境（Flood, 1958; Fudenberg和Tirole, 1991; Axelrod, 1980）、性别之战（Cooper等人, 1989; Luce和Raiffa, 2012）和Blotto博弈（Roberson, 2006）。由于我们的目标是展示如何使用我们的代理框架解决博弈论任务，而不是对许多博弈论环境进行严格的评估和分析，因此我们只包括了少数几种博弈。然而，可以很容易地添加更多博弈。

囚徒困境（Axelrod, 1980）在这个博弈中，两名玩家各有两种选择：合作或背叛。当双方都选择合作时，他们将获得中等程度的奖励。如果一方背叛而另一方选择合作，背叛者将获得高额回报，而合作者则获得较低的回报。如果双方都选择背叛，他们都将获得较低的回报。由于回报的结构，尽管双方合作能够实现最佳的集体结果，但个体激励通常会推动双方选择背叛。我们设计了一个重复博弈，包含 (k = 20) 轮游戏。在重复版本中，玩家会记住之前的互动，并可以根据包含过去结果的历史记录调整他们的策略。多次重复阶段博弈允许信任和合作的发展，因为玩家认识到，持续合作能够带来比短期背叛更好的长期利益（Axelrod, 1980）。作为对手策略，我们提供了一个简单的模型，该模型在合作、背叛或仅基于上一轮互动选择的行动之间随机切换。

性别之战（Cooper等人，1989）性别之战是一个简单的博弈，用以说明两个具有不同偏好的参与者之间的协调挑战。在这个博弈中，两个参与者需要就一个地点达成一致（例如，决定去哪里度过一个晚上）。有两个可能的地点可供选择，而两位玩家都更倾向于做出相同的选择，而不是不同的选择。策略上的困境在于，尽管每位玩家都想与对方协调自己的选择，但他们对地点的偏好顺序不同（一位更倾向于第一个地点，另一位更倾向于第二个地点）。与重复囚徒困境类似，我们使用了包含 (k = 20) 轮的重复博弈，并采用了一个简单的对手策略，该策略基于上一轮的信息进行随机选择。

布洛将军博弈（Roberson, 2006）布洛将军博弈是一种在竞争环境下对有限资源进行战略性分配的模型。两名玩家（“将军”）必须同时将他们的资源（例如士兵）分配到多个备选位置（“战场”）。在每个战场上分配更多资源的玩家赢得该战场。最终的胜者是赢得最多战场的玩家。关键挑战在于，玩家必须在不知道对手将如何分配资源的情况下做出自己的分配决策。这创造了一个环境，玩家试图预测对手的行动，以决定如何最有效地分配自己的资源，从而最大化获胜的机会。游戏的一个重要启示是多样化和不可预测性的重要性：对手如果在多个战场上分配资源并改变策略，将更难被利用。我们的目标对手使用了一个非常简单的随机分配规则（重新调整到资源的总预算）。

需要指出的是，在所有博弈论任务中，代理都可以查看对手的策略，因此这些任务衡量的是代码理解和LLM利用对手策略的能力。在未来，我们计划增加一些任务，其中对手的策略不提供给代理，代理将与多个对手进行循环赛，类似于Axelrod最初的囚徒困境锦标赛中使用的设置。

4.4 计算机视觉

图像分类（CIFAR-10）（Krizhevsky等人，2009） CIFAR-10图像分类任务涉及使用CIFAR-10数据集将图像分类到十个类别中。该任务测试模型学习视觉模式和特征的能力，基线准确率为49.71%，鼓励进一步改进。

图像分类（Fashion MNIST）（Xiao等人，2017）Fashion MNIST图像分类任务涉及使用Fashion MNIST数据集将时尚物品分类到预定义的类别中。代理被提供了一个简单的两层卷积神经网络（CNN）作为基线，并需要优化测试集上的准确率。代理可以优化模型架构和训练的超参数。

图像描述（MS-COCO）（Lin等人，2014）在图像描述任务中，代理需要编写建模代码，并为MS-COCO数据集中的图像-文本对提出一个好的架构和训练设置。我们向代理提供了一个基线训练代码，该代码使用图像编码器和文本解码器。我们使用了去除所有包含人类的图像后的MS-COCO训练集和验证集。代理需要优化模型生成的描述与真实描述之间的BLEU分数（Papineni等人，2002）。

4.5 自然语言处理

在语言任务中，我们测试代理对自然语言理解（NLU）和自然语言生成（NLG）的训练设置的理解和修改能力，具体如下：

自然语言推理（Williams等人，2018） 在该任务中，代理从预训练的BERT模型（Devlin等人，2018）开始，我们向代理提供了一个基线代码，用于在MNLI基准测试的训练集上进行微调。代理需要提出好的超参数和微调策略，以优化MNLI测试集的准确率。

语言建模（Jordan等人，2024）在语言建模任务中，代理需要使用FineWeb数据集（Penedo等人，2024）的一个较小版本训练一个用于下一个标记预测的语言模型。LLM代理被提供数据集和NanoGPT代码库（Jordan等人，2024）作为基线和起点。我们使用modded-nanogpt3的第8个版本作为起点。训练集和验证集分别包含17.73亿和1亿个标记。性能指标是验证集上训练模型的困惑度。

4.6 强化学习

MetaMaze导航（Miconi等人，2020）MetaMaze导航任务模拟了一个网格世界环境，代理需要使用局部观测导航并到达目标位置。

连续山地车（Brockman等人，2016）我们使用Brockman等人（2016）引入的连续山地车环境的连续版本，任务是在连续控制环境中学习一个策略，将汽车开上陡坡。

Breakout MinAtar（Young和Tian，2019）Breakout MinAtar任务涉及在模拟环境中玩街机游戏Breakout。该环境由Young和Tian（2019）引入，是评估强化学习代理的流行基准测试。

对于所有强化学习任务，我们使用Gymnax库（Lange，2022）中的环境，并将Gymnax-blines4中的PPO算法作为LLM代理的基线和起始代码。

5 实验设置

5.1 代理和模型

在我们的实验中，我们使用了一个基于SWE-Agent的模型，该模型专门为MLGYM环境进行了适配。SWE-Agent遵循一个简单的ReAct风格的思考和行动循环（Yao等人，2023），其中代理被提示以ACI文档、任务和数据集描述，以及作为机器学习研究者的轻量级通用指令。代理被配置为每步使用单个命令，并且不允许使用任何交互式会话命令（例如，Python REPL、vim）。

我们为实验选择了一组5个最先进的模型：OpenAI O1-preview、Gemini 1.5 Pro、Claude3.5-sonnet-20241022（在论文中称为Claude-3.5-sonnet）、Llama-3-405b-instruct和GPT-4o。所有模型均使用温度参数为0.0和top-p为0.95，除了OpenAI O1-preview，它不支持更改解码参数，默认温度为1.0。

5.2 环境配置

MLGYM环境通过配置几个关键参数来促进代理与任务之间的有效交互：

窗口配置：环境使用1000行的窗口大小，重叠2行，使代理能够在保持上下文的同时有效导航和编辑大文件。

上下文管理：一个处理器维护一个滚动窗口，包含最近五次交互（动作和观察）的内容，帮助代理保持对最近交互的上下文感知，同时保持输入大小在可管理范围内。

命令接口：环境提供了一组超出标准bash操作的专用命令，包括文件导航命令（goto、scroll_up、scroll_down）、带代码检查支持的文件编辑命令（edit、insert）、文件和目录搜索命令（search_file、search_dir、find_file）以及评估命令（validate、submit）。

单次代理运行限制为50步（即与环境的交互次数），之后代理将被终止，并自动提交最后的代码状态。此外，为了控制代理的运行时间并防止其简单地增加模型中的参数数量，我们为训练命令设置了特定任务的超时时间。

在下一节中，我们将讨论实验中使用的评估指标。

6 评估

为了在MLGym中比较代理，我们将每种方法（即代理架构与基础模型的组合）在我们任务中的分数进行汇总。汇总分数的方法有很多种。常见的选择包括计算每种方法在所有任务上的平均分数，或者计算每种方法在所有任务上的平均排名。尽管这些方法简单，但它们可能会以不理想的方式对指标进行加权，并不成比例地惩罚某些方法。对不同指标进行平均可能会根据它们的相对尺度不公平地对指标进行加权，而平均排名可能会不成比例地惩罚那些有效解决了任务但与其他也解决了任务的方法并列的方法。

为了避免简单地平均分数或排名，我们采用了性能曲线（Dolan和Moré，2002），这使我们能够在方法和任务之间比较相对性能提升。性能曲线最初是为比较一组优化问题中的优化技术而开发的。此后，它们已被AutoML社区用于比较跨不同领域的AutoML方法，每个领域都有其特定领域的指标（Tu等人，2022；Roberts等人，2022b）。

使用性能曲线的一个挑战是，它们为每种方法生成一条曲线（曲线越高越好），而不是直接对方法进行排名。为了解决这个问题，AutoML Decathlon竞赛（Roberts等人，2022a）引入了AUP分数，它计算每种方法的性能曲线下的面积，其中更高的值表示更好的性能。AUP分数的变体此后已被用于评分AutoML Cup5和MLCommons AlgoPerf竞赛（Dahl等人，2023）。

接下来，我们定义性能曲线、AUP分数及其在MLGym中的使用细节。

6.1 性能曲线和AUP分数

对于给定的方法m ，其性能曲线定义为

6.2 在MLGym中的使用

在MLGym的背景下，一种方法被定义为代理框架与基础模型的组合。由于在本工作中我们仅使用了一种代理框架（SWE-Agent），因此我们比较的是不同基础模型的性能。此外，我们对性能曲线和AUP分数进行了调整，以应对MLGym任务引入的各种特殊情况。

指标方向处理：对于高值更优的指标（例如准确率、R²），我们将性能比的计算方向反转，并使用最大值而不是最小值：

得到的AUP分数提供了互补的信息：

表示模型将最佳尝试作为最终解决方案的一致性能力。需要注意的是，为了做到这一点，LM代理必须能够保持最佳尝试的内部状态，并在最佳尝试后从任何错误中恢复。

捕捉了模型的探索能力，是模型性能上限的指示。

除了AUP分数和性能概况，我们还报告了每个模型在每个任务上的原始性能分数。与性能概况类似，我们将原始分数分为两组：Best Submission@4和Best Attempt@4。

7 结果

7.1 AUP分数和性能曲线

如第6节所述，我们使用性能曲线和性能曲线下的面积（AUP）分数，评估每个模型在基于SWE-Agent的代理框架中的表现。

此外，由于我们的代理可以记录中间步骤的性能，我们将每个模型的性能分为两类：最佳提交（Best Submission）和最佳尝试（Best Attempt）。最佳提交反映了LLM代理为任务生成有效最终解决方案的能力，以及在某些实验未能成功时回退到最佳中间解决方案的能力。而最佳尝试则表示LLM代理解决给定任务的潜在上限。

图2展示了最佳尝试（左侧）和最佳提交（右侧）的性能曲线。同样，表4列出了所有模型的最佳尝试和最佳提交的AUP分数。

在我们的实验中，我们发现OpenAI O1-preview在我们的任务集合中，无论是最佳尝试还是最佳提交，都是表现最好的模型，Gemini 1.5 Pro和Claude-3.5-Sonnet紧随其后。

7.2 原始性能分数

为了比较每个模型在每个任务上的表现，我们还在表5和表6中分别报告了4次不同种子运行的聚合指标，即 Best Attempt@4和 Best Submission@4。

尽管OpenAI O1-Preview并非在所有任务中都占据主导地位，Gemini-1.5-Pro、Claude-3.5-Sonnet和Llama-3.1-405b-Instruct偶尔会领先，但它在大多数任务中始终处于表现最好的模型之列，因此在AUP分数和性能曲线上位居榜首。这表明性能曲线是用于比较不同模型在一组具有多样化指标的任务上的表现的良好指标。

我们还发现，Llama-3.1-405b-Instruct和GPT-4o是唯一未能为语言建模和Breakout任务分别生成任何有效解决方案的模型。

7.3 计算成本

正如Kapoor等人（2024）所讨论的，为了更全面地评估代理的能力及其计算成本，还需要考虑性能与成本之间的帕累托曲线。在本工作中，我们没有比较不同的代理框架，但帕累托曲线仍然可以用于为一组任务选择最平衡的模型。图3展示了所有模型的最佳尝试AUP@4与平均成本的关系。

我们使用最佳尝试AUP分数来绘制此图，以突出每个模型在给定成本下可实现的最大性能。

根据第7.1节中讨论的结果，OpenAI O1-Preview是表现最好的模型，但其计算成本远远高于其他模型。相比之下，Gemini-1.5-Pro和Claude-3.5-Sonnet在成本效益方面表现更好，同时达到了接近OpenAI O1的高性能，其中Gemini-1.5-Pro最具成本效益。

Gemini-1.5-Pro的成本低于GPT-4o和Llama-3.1-405b-Instruct，并且相对于它们提供了巨大的性能提升。GPT-4o是运行成本最低的模型之一，但其性能显著低于顶级模型，如Claude-3.5-Sonnet、Gemini-1.5-Pro或OpenAI O1-Preview。总体而言，Gemini-1.5-Pro在MLGym-Bench上实现了性能与成本之间的最佳平衡：它是运行成本最低的模型（大约比OpenAI的O1便宜9倍），同时达到了OpenAI O1 AUP的99%（OpenAI O1是表现最好的模型）。

OpenAI O1-preview、GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-Pro的API定价取自它们各自的定价页面，而Llama-3.1-405b-Instruct的定价取自together.ai。有关API定价、消耗的token数量和上下文长度的详细信息，请参阅表8。

7.4 代理行为分析

7.4.1 失败模式分析

在本节中，我们从三个关键角度分析代理在MLGym-Bench任务中的失败模式：终止错误分布、失败或未完成运行率以及特定任务的失败模式。我们收集了来自11个任务和5个模型的轨迹，每个任务和模型分别使用4个不同的随机种子。这总共产生了220个轨迹，每个任务有20个轨迹，每个模型有44个轨迹。

终止错误 图4展示了每个模型在任务执行过程中遇到的不同终止错误原因的分布，错误类型由错误消息的第一个词指示。我们将错误分为以下几类：上下文长度超出、评估错误、文件权限错误、成本限制超出、格式错误和运行时错误。

首先，我们观察到几乎所有模型都遇到了评估错误，这通常是出现频率最高的最终错误，占所有终止错误的75%。评估错误通常是由最后一步或提交命令发出时缺少提交工件或提交格式不正确触发的。Gemini-1.5-Pro是唯一一个没有提交任何无效解决方案的模型，OpenAI O1-Preview和Claude-3.5-Sonnet紧随其后。

OpenAI O1-Preview和Claude-3.5-Sonnet展示了卓越的错误处理能力，具有最低的整体错误率。成本限制是Claude-3.5-Sonnet、Gemini-1.5-Pro和OpenAI O1-Preview遇到的第二频繁的错误，这表明如果提供更多的预算，它们可以进一步提升性能。然而，值得注意的是，尽管Gemini-1.5-Pro是所有任务中最具成本效益的模型，但它仍然是所有模型中遇到成本限制错误最频繁的模型。

失败和未完成运行 图5中的失败和未完成运行分析揭示了模型可靠性的显著差异。如果代理运行因终止错误失败且未产生任何有效的中间提交，则我们将其标记为失败。而如果运行因终止错误失败但产生了有效的中间提交（即至少在测试集上获得了一个分数），则我们将其标记为未完成。请注意，模型的提交不必超过基线才能被视为有效的中间提交。我们在这里关注的不是模型提交的性能，而是代理按照给定指令产生有效提交的能力。

GPT-4o表现出最高的失败率，而Gemini-1.5-Pro和OpenAI O1-Preview实现了最佳的完成率。尽管Claude-3.5-Sonnet是所有任务中表现最好的模型之一（见第7.1节），但它的失败率很高。另一个有趣的观察是，OpenAI O1-Preview的未完成率很高，但它总是为所有任务至少产生一个有效的解决方案。

我们在附录A.2节中报告了更多的结果和失败模式分析。

7.4.2 行为动作分析

在本节中，我们分析了整体的行为动作分布，以及在不同模型和轨迹步骤中的分布情况。为了有效地分析行为动作分布，我们根据表2中定义的类别对行为动作进行分组：编辑（Edit）、查看（View）、搜索（Search）、验证（Validate）和提交（Submit）。我们将验证和提交视为两个独立的类别。

此外，我们还有两个开放式类别：Python 和 Bash。所有匹配正则表达式模式 `python.`、`deepspeed.`、`torchrun.` 的行为动作都被视为Python行为动作。这些行为动作通常对应于代理尝试运行模型评估或训练脚本。所有其他行为动作都被归类为Bash类别，即被视为开放式的bash命令。

整体行为动作分布 图6展示了所有运行中的行为动作分布。文件命令（如编辑和查看）是最常使用的命令之一，其中编辑行为动作占总行为动作的50%。相比之下，搜索命令的使用频率极低，仅占总行为动作的1%。这种分布表明，模型将大量时间用于编辑和查看文件的迭代开发循环中。此外，我们还观察到，模型通过频繁使用Python和验证命令来进行定期的实验评估和解决方案的周期性验证。

按模型的行为动作分布 图7展示了每个模型的行为动作分布。GPT-4o的整体行为动作数量最少，表明该模型要么出现错误，要么过早提交，而未能达到最优解。这与图5中展示的失败分析一致。

在表现最好的模型中，Claude-3.5-Sonnet和OpenAI O1-Preview在单次运行中执行的行为动作数量最多，而Gemini-1.5-Pro的行为动作数量最少。这与第7.3节中讨论的成本分析一致，Gemini-1.5-Pro较短的行为轨迹长度使其成为最具成本效益的模型。

按步骤的行为动作分布 图8展示了代理在轨迹步骤中采取的行为动作分布。最初，Bash命令占主导地位，表明代理从检查和设置环境开始，使用诸如`ls`、`pwd`、`cd`等基本命令。随着步骤的推进，编辑（Edit）行为动作变得最为频繁，反映出代理专注于修改和完善代码。与此同时，查看（View）命令的持续使用表明，代理采用了一种迭代开发模式，频繁回顾自己的更改。

Python和验证（Validate）命令在整个过程中稳定使用，表明代理处于实验和评估的迭代循环中。提交（Submit）行为动作较为稀疏，通常出现在流程的末尾，与任务的最终化相一致。然而，我们观察到在第5步就出现了提交行为动作，这表明一些模型过早提交了它们的解决方案，可能未能达到击败其他模型的最优解。

有趣的是，搜索（Search）命令很少被使用，这表明代理可能需要改进搜索策略，以提高在编辑代码时的效率。

总体而言，我们的分析揭示了一个有条理的流程：代理从熟悉环境和任务开始，进行多次实验和验证的迭代，最后以提交结束。我们在附录A.3节中报告了更多的行为动作分析。

8 讨论与局限性

我们的研究结果既展示了利用大型语言模型（LLMs）作为科学工作流代理的机遇，也揭示了其中持续存在的挑战。提出的MLGym框架和配套的MLGym-Bench任务表明，现代LLM代理能够成功应对多样化的定量实验，展现了高级技能和领域适应性。然而，我们的结果也揭示了显著的能力差距，这些差距指出了几条改进的方向：

超越机器学习任务的扩展：为了进一步评估代理的AI研究能力，扩展评估框架以容纳大规模特定领域的数据集、更复杂的任务以及AI之外的领域至关重要。这将使社区能够评估不同方法的稳健性和泛化能力，同时识别潜在的局限性和改进领域。

跨学科消融和泛化：在方法评估阶段，一种方法是测试解决方案的泛化能力：

自动评估新方法在不同领域的适用性。例如，像Mamba（Gu和Dao，2024）这样的新LLM架构可以自动应用于DNA、化学分子、音乐生成等数据。

自动运行跨学科和多学科的消融实验，其中我们系统地移除或修改所提出的ML系统的特定组件，以评估它们对性能的影响。这将使社区能够更快地识别出对不同领域泛化贡献最大的关键因素。

应对科学创新性：尽管代理基准测试已在评估不同领域的复杂任务方面证明了其有效性，但必须认识到，所提出的跨学科外推方法只是对“创新性”和“发现”更广泛科学理解的一个方面（Popper, 2005; Langley, 1987）。目前尚不清楚科学创新性的概念是否能够成功自动化，甚至是否能够以适合代理的形式明确定义。对于许多科学学科而言，发展可能是不均衡的，并且依赖于开放数据的可用性、所使用的方法、指标和定义的发展。

数据开放性的重要性：最后，我们强调数据开放性在推动科学进步中的重要性。通过广泛提供我们代表性的“世界语料库”，包括科学工件、可复现的代码和特定领域的建模数据，我们可以促进合作并加速发现。这一要求对于推进我们对复杂系统的理解以及开发更有效的现实世界问题解决方案至关重要。将已进入LLM训练的资源从公共访问中移除可能会对科学进步的加速产生不可弥补的影响，因为无法识别事实的来源，并且无法区分科学工作中超出分布的结果是来自幻觉还是一个全新的结果。

9 伦理考量

精通解决我们基准测试中的开放式研究挑战的AI代理，可能会极大地加速科学进步。这一前景令人振奋，但也要求我们仔细理解模型的进展，以确保这些突破能够负责任且有控制地被部署。例如，MLGym-Bench可以作为OpenAI准备框架中模型自主性的指标、Anthropic责任扩展政策中的自主能力指标，以及Google DeepMind前沿安全框架中的机器学习研发指标。

如果AI代理能够熟练地自主开展AI研究，其积极影响将是多方面的，包括在医疗保健、气候科学等领域加速科学进步、加快模型的安全性和对齐研究，以及由新型产品开发推动的经济增长。代理提供高质量研究的能力可能标志着经济领域的一次变革性飞跃。

然而，能够执行开放式AI研究任务（例如改进自己的训练代码）的代理可能会以超过人类研究者的速度增强尖端模型的能力。如果创新的速度超过了我们理解其影响的能力，我们可能会在没有相应进展来确保、对齐和控制这些模型的情况下，开发出具有灾难性危害或滥用潜力的模型。

我们相信，能够解决MLGym-Bench中大部分任务的模型很可能具备执行许多开放式AI任务的能力。我们开源MLGym和MLGym-Bench，以促进对AI研究代理的代理能力的理解和研究，并推动对前沿AI实验室中加速风险的透明度。在这样做的同时，我们承认MLGym-Bench的局限性，并强烈鼓励开发更多针对自动化AI研究能力的评估，特别是那些针对训练尖端模型的研究人员工作流程的评估。

10 结论

本文介绍了MLGym和MLGym-Bench，作为构建稳健、灵活且透明的LLM代理用于AI研究的初步尝试。随着这一领域不断发展，改进长文本推理能力、优化代理架构、训练和推理算法，以及丰富评估方法，对于充分挖掘LLM在科学发现中的潜力——无论是广义的科学发现还是特定的AI研究——都是至关重要的。

通过促进机器学习、科学计算以及多样化应用领域研究人员之间的合作，我们可以更接近一个由AI驱动的代理真正加速科学研究的未来，同时在科学发现中保持可验证性、可重复性和完整性。

原文链接：https://arxiv.org/pdf/2502.14499