近日,在 OpenAI 发布的机器学习工程师基准测试(MLE-bench)中,一个名为 AIBuildAI 的智能体系统以 63.11% 的整体得分稳居第一。

AIBuildAI 是一个可以自动构建 AI 模型的 AI 智能体。这意味着,你只需给它一个自然语言任务描述和数据文件夹,它就能在一天内独立完成模型设计、代码生成、模型训练、超参数调优、性能评估,并持续迭代改进模型性能。

(来源:受访者提供)
打开网易新闻 查看精彩图片
(来源:受访者提供)

这个“AI 工程师”背后的主要负责人,正是加州大学圣地亚哥分校(UCSD)电气与计算机工程系副教授谢澎涛(Pengtao Xie)。他拥有卡内基梅隆大学机器学习系博士背景,研究方向聚焦人类学习技能启发的机器学习,并将其应用于大语言模型、基础模型以及生物医学领域。

据谢澎涛介绍,AIBuildAI 的诞生,最初是为了解决实验室内部一个非常现实的困境。

“我们团队有两类学生。一类是生物医学背景的,他们希望用 AI 预测 RNA 功能、蛋白质结构等具体问题,但缺乏建模和编程能力;另一类是 AI 方法背景的,虽然能自己写代码,却要花好几天甚至几周反复实验。”谢澎涛告诉 DeepTech。

“如果有一个智能体,能让用户只用自然语言描述任务,后续所有步骤——模型架构设计、代码编写、训练、超参数调优、性能评估、甚至自我复盘改进——全部自动完成,那对两类学生都是巨大解放。”他补充道。

于是,AIBuildAI 项目正式启动。“智能体本身大约做了半年,但底层的推理、合成数据等技术我们已经积累了好几年。”谢澎涛透露,团队对于这款智能体的定位也十分明确:基于成熟 AI 模块组合设计模型,解决落地性强的常规任务。

据悉,AIBuildAI 是一套模块化、可闭环运行的 AI 智能体系统,整体分为三层,各司其职又深度联动,实现从任务理解到模型交付的全流程无人干预。

顶层是任务理解与决策层。当用户输入“预测 RNA 功能”或“蛋白质酶分类”等自然语言指令时,这一层负责解析意图、判断任务类型并拆解执行步骤。它是整个系统的“指挥中心”,决定了建模的方向和逻辑。

在这一核心中枢的选择上,团队选用了 Claude-Opus-4.6 大模型。“我们测试对比了多个模型,虽然 GPT-5 在某些设计思路上表现出色,但在智能体最关键的环节——‘写代码’上,Claude 的稳定性、长流程逻辑理解和结构化指令执行力是最适配建模场景的。”

中层是推理与代码生成层,也是 AIBuildAI 的技术核心,搭载团队自研的 Dream PRM(过程奖励模型)、Dream ORM(结果奖励模型)推理模块,负责模型设计、代码编写、迭代复盘。PRM 负责步骤级精准推理,ORM 负责结果校验与优化建议,双重保障每一步执行不出错,避免“一步错、全流程崩”的问题,也是实现自动复盘改进的关键。

底层是执行与训练层,其承接中层生成的代码和方案,自动完成数据加载、模型训练、超参数调优、性能评估、结果输出,同时管控硬件资源和算力消耗。这一层把上层的“设计思路”转化为可运行、可部署的实际模型。

(来源:受访者提供)
打开网易新闻 查看精彩图片
(来源:受访者提供)

为了验证 AIBuildAI 的能力,团队在 MLE-bench 的 75 个任务(涵盖医疗、物理、生物等多个学科)中进行了测试。MLE-Bench 是 OpenAI 推出的全球顶尖的全自动机器学习测评平台,专门考核 AI 智能体 “独立构建有效 AI 模型” 的能力,测评覆盖简单(Low)、中等(Medium)、高难度(High) 三类真实 AI 任务,最终按整体准确率排名,是行业内公认的“全自动 ML 能力试金石”。

AIBuildAI 在这个测评中交出了亮眼的成绩,在无测试数据泄露的前提下排名第一。其中简单任务准确率77.27%;中等任务准确率 61.40%;高难度任务准确率 46.67%;整体综合准确率 63.11%。

以“蛋白质酶类别预测”为例,该任务基于发表在 Science 论文的数据集,AIBuildAI 自动构建的模型,效果完全对标论文成果,普通用户借助简化数据集就能快速复现。

“对比学生手动写代码需要好几天,AIBuildAI 十几分钟就能完成代码编写,大多数数据量不大的任务,一天内就能落地。”谢澎涛介绍道。

目前,AIBuildAI 已深度融入团队实验室工作,主要服务生物医学背景的研究者,完美适配分类、回归、序列分析等单模态任务,无论是生物信息数据分析,还是产业界的预测建模需求,都能轻松胜任。但对于 AI方向博士生的前沿研究、多模态融合任务,目前仍无法完全满足,团队仍在持续迭代优化。

针对用户关心的系统适配问题,谢澎涛表示,现阶段 AIBuildAI 仅支持 Linux 系统,暂无适配 Mac、Windows 的计划。“AI 模型训练依赖 GPU,而 99% 的 GPU 环境都部署在 Linux 上,足以覆盖绝大多数使用场景。”

据悉,AIBuildAI 已开启中小企业试用,收获了不少真实反馈,也明确了下一步优化方向。用户反馈的核心问题集中在两点:数据处理能力不足,难以应对缺失值、标注混乱等问题;对用户意图理解不够精准。

谢澎涛坦言,数据处理的技术难点并不大,通过增加数据质量检查工具就能逐步优化,但现实场景中数据问题繁杂,实现泛化适配仍有挑战。这也是团队接下来的重点攻坚方向。

对于 AIBuildAI 的长远未来,谢澎涛有着更宏大的构想:让智能体具备自我学习、自我进化的能力。“未来它能主动阅读最新论文,归纳新知识、转化为自身技能,不用人工干预就能实现能力升级。”

1.https://pengtaoxie.github.io/

2.https://github.com/aibuildai/AI-Build-AI

3.https://github.com/openai/mle-bench/pull/126

4.https://www.science.org/doi/10.1126/science.adf2465

运营/排版:何晨龙