这个AI能自己造AI，十几分钟写完代码，一天交付可用模型|代码|大模型|智能体

近日，在 OpenAI 发布的机器学习工程师基准测试（MLE-bench）中，一个名为 AIBuildAI 的智能体系统以 63.11% 的整体得分稳居第一。

AIBuildAI 是一个可以自动构建 AI 模型的 AI 智能体。这意味着，你只需给它一个自然语言任务描述和数据文件夹，它就能在一天内独立完成模型设计、代码生成、模型训练、超参数调优、性能评估，并持续迭代改进模型性能。

这个“AI 工程师”背后的主要负责人，正是加州大学圣地亚哥分校（UCSD）电气与计算机工程系副教授谢澎涛（Pengtao Xie）。他拥有卡内基梅隆大学机器学习系博士背景，研究方向聚焦人类学习技能启发的机器学习，并将其应用于大语言模型、基础模型以及生物医学领域。

据谢澎涛介绍，AIBuildAI 的诞生，最初是为了解决实验室内部一个非常现实的困境。

“我们团队有两类学生。一类是生物医学背景的，他们希望用 AI 预测 RNA 功能、蛋白质结构等具体问题，但缺乏建模和编程能力；另一类是 AI 方法背景的，虽然能自己写代码，却要花好几天甚至几周反复实验。”谢澎涛告诉 DeepTech。

“如果有一个智能体，能让用户只用自然语言描述任务，后续所有步骤——模型架构设计、代码编写、训练、超参数调优、性能评估、甚至自我复盘改进——全部自动完成，那对两类学生都是巨大解放。”他补充道。

于是，AIBuildAI 项目正式启动。“智能体本身大约做了半年，但底层的推理、合成数据等技术我们已经积累了好几年。”谢澎涛透露，团队对于这款智能体的定位也十分明确：基于成熟 AI 模块组合设计模型，解决落地性强的常规任务。

据悉，AIBuildAI 是一套模块化、可闭环运行的 AI 智能体系统，整体分为三层，各司其职又深度联动，实现从任务理解到模型交付的全流程无人干预。

顶层是任务理解与决策层。当用户输入“预测 RNA 功能”或“蛋白质酶分类”等自然语言指令时，这一层负责解析意图、判断任务类型并拆解执行步骤。它是整个系统的“指挥中心”，决定了建模的方向和逻辑。

在这一核心中枢的选择上，团队选用了 Claude-Opus-4.6 大模型。“我们测试对比了多个模型，虽然 GPT-5 在某些设计思路上表现出色，但在智能体最关键的环节——‘写代码’上，Claude 的稳定性、长流程逻辑理解和结构化指令执行力是最适配建模场景的。”

中层是推理与代码生成层，也是 AIBuildAI 的技术核心，搭载团队自研的 Dream PRM（过程奖励模型）、Dream ORM（结果奖励模型）推理模块，负责模型设计、代码编写、迭代复盘。PRM 负责步骤级精准推理，ORM 负责结果校验与优化建议，双重保障每一步执行不出错，避免“一步错、全流程崩”的问题，也是实现自动复盘改进的关键。

底层是执行与训练层，其承接中层生成的代码和方案，自动完成数据加载、模型训练、超参数调优、性能评估、结果输出，同时管控硬件资源和算力消耗。这一层把上层的“设计思路”转化为可运行、可部署的实际模型。

为了验证 AIBuildAI 的能力，团队在 MLE-bench 的 75 个任务（涵盖医疗、物理、生物等多个学科）中进行了测试。MLE-Bench 是 OpenAI 推出的全球顶尖的全自动机器学习测评平台，专门考核 AI 智能体 “独立构建有效 AI 模型” 的能力，测评覆盖简单（Low）、中等（Medium）、高难度（High）三类真实 AI 任务，最终按整体准确率排名，是行业内公认的“全自动 ML 能力试金石”。

AIBuildAI 在这个测评中交出了亮眼的成绩，在无测试数据泄露的前提下排名第一。其中简单任务准确率77.27%；中等任务准确率 61.40%；高难度任务准确率 46.67%；整体综合准确率 63.11%。

以“蛋白质酶类别预测”为例，该任务基于发表在 Science 论文的数据集，AIBuildAI 自动构建的模型，效果完全对标论文成果，普通用户借助简化数据集就能快速复现。

“对比学生手动写代码需要好几天，AIBuildAI 十几分钟就能完成代码编写，大多数数据量不大的任务，一天内就能落地。”谢澎涛介绍道。

目前，AIBuildAI 已深度融入团队实验室工作，主要服务生物医学背景的研究者，完美适配分类、回归、序列分析等单模态任务，无论是生物信息数据分析，还是产业界的预测建模需求，都能轻松胜任。但对于 AI方向博士生的前沿研究、多模态融合任务，目前仍无法完全满足，团队仍在持续迭代优化。

针对用户关心的系统适配问题，谢澎涛表示，现阶段 AIBuildAI 仅支持 Linux 系统，暂无适配 Mac、Windows 的计划。“AI 模型训练依赖 GPU，而 99% 的 GPU 环境都部署在 Linux 上，足以覆盖绝大多数使用场景。”

据悉，AIBuildAI 已开启中小企业试用，收获了不少真实反馈，也明确了下一步优化方向。用户反馈的核心问题集中在两点：数据处理能力不足，难以应对缺失值、标注混乱等问题；对用户意图理解不够精准。

谢澎涛坦言，数据处理的技术难点并不大，通过增加数据质量检查工具就能逐步优化，但现实场景中数据问题繁杂，实现泛化适配仍有挑战。这也是团队接下来的重点攻坚方向。

对于 AIBuildAI 的长远未来，谢澎涛有着更宏大的构想：让智能体具备自我学习、自我进化的能力。“未来它能主动阅读最新论文，归纳新知识、转化为自身技能，不用人工干预就能实现能力升级。”

1.https://pengtaoxie.github.io/

2.https://github.com/aibuildai/AI-Build-AI

3.https://github.com/openai/mle-bench/pull/126

4.https://www.science.org/doi/10.1126/science.adf2465