清华、中关村学院团队如何构建能自主完成从代码到新SOTA闭环系统|代码|大模型|实验|智能体|清华|算法|闭环系统

编辑丨ScienceAI

对于每一位在实验室彻夜调参的研究者来说，最繁琐的部分往往不是灵光一现，而是其后的环境配置、Bug 修复与实验迭代。现在的 AI 科研就像是一场追求极致性能的漫漫征途。

看看近年 AI 顶会的投稿数据就知道了：NeurIPS 投稿量高达 21575 篇，其中口头报告（Oral）仅占 0.4% ；ICML 投稿 12107篇，Oral 占比 0.9% ；ICLR 投稿 11603 篇，Oral 也不过 1.8%。

在这样千军万马过独木桥的竞争中，SOTA（当前最佳水平）成为了衡量研究价值的唯一金标准。但攀登这座高峰需要巨量的研究力量投入，一个好的 Idea 可能只占研究过程的一小部分，剩下的全是漫长而痛苦的打磨优化。

近期，清华大学电子工程系助理教授、北京中关村学院兼职导师徐丰力课题组与北京中关村学院联合发布了AutoSOTA 项目，为这一难题提供了一套工业级的解决方案。目前，AutoSOTA 项目已发布预印本论文。

论文地址：https://arxiv.org/abs/2604.05550

AutoSOTA 致力于实现端到端的 AI 科研自动化，其核心理念是将 AI 智能体的赋能边界延伸到实验的每一个底层细节。不同于那些局部加速的工具，AutoSOTA 构建了一个完整的闭环流程，涵盖了从原始论文输入到最终优化方法产出的全生命周期。

一支永不疲倦的超级研究团队

图 1：AutoSOTA 流程。

在架构层面，AutoSOTA 采用了精密的“多智能体协作”逻辑。整个系统由一个强大的认知架构驱动，具备规划、推理、记忆和工作流管理能力。我们可以把它想象成一个分工明确的超级研究团队，具体分工如下：

第一步：资源准备与目标设置

这一环节由AgentResource和 AgentObjective 负责。它们会从海量的 AI 顶会研究（如 ICML、KDD、The Web Conf、AAAI 等）中提取原始论文和代码库。

AgentResource 负责管理 PDF 文档和模型参数，而 AgentObjective 则根据论文目标构建评价指标体系（Rubric Construction），确立优化方向。简单来说，它们负责搞清楚要研究什么，以及怎么才算研究得好。

第二步：实验评估闭环

这可能是最让研究者头疼的环节，但在AutoSOTA 里，一切都是全自动的。AgentInit 负责底层的环境初始化，AgentMonitor 实时追踪实验状态，而 AgentFix 则负责接收反馈并执行修复指令（Repair Command），直至代码通过各种复杂的测试与调试。这个过程就像是有个永不疲倦的师兄在帮你改 Bug、配环境，不仅高效而且零出错。

第三步：代码优化引擎

AutoSOTA 利用程序数据库（Program Database）与提示词采样（Prompt Sampler），结合大模型集成（LLMs Ensemble）和评估器池（Evaluators pool），实现算法实现的持续精炼。通过不断地反馈（Feedback）与执行（Execution），模型性能在一次次迭代中稳步提升。

第四步：反思构思引擎

这是AutoSOTA 最像“人类科学家”的地方。AgentScheduler 会协调 AgentIdeator 进行文献检索与创新构思（Ideation），并由 AgentSupervisor 进行监督验证（Supervision & Validation），确保方案的创新性与合规性。这套受人类研究启发的创新构思引擎，使得系统不再是盲目地调参，而是具备了顶层设计的思考能力。

为了支撑这一复杂的协作模式，AutoSOTA 配备了完善的工具库（Toolkit）与技能集（Skill Set），这使得智能体能够独立完成原本需要人类干预的繁重任务。

图 2：AutoSOTA多智能体架构。

5小时 vs 数月

在一周的密集实验中，这套系统交出了一份惊人的成绩单。在消耗了约220 亿 Token、约 10 万元人民币成本的前提下，系统基于前一年的顶会论文成功发现了 105 个性能显著提升的模型。

最令人兴奋的是，这些发现中超过 60% 具备新颖的 AI 模型结构设计，平均性能提升接近 10%。这证明了 AutoSOTA 并非只是在既有路径上机械搜索，而是展现出了真正的算法创新能力。

更具冲击力的数据在于研发周期的缩减。在传统路径下，一名博士生要阅读论文、准备资源、配置环境、修正评测、调研构思再到迭代优化，通常需要数月时间才能完成一个SOTA 模型的迭代优化。然而，AutoSOTA 将这一闭环流程的时间压缩到了 5 小时以内。这意味着系统可以在同一时间内开展数百个并行的研究任务，实现科研产出的爆发式增长。

图 3：AutoSOTA实验结果。

项目网站：https://tsinghua-fib-lab.github.io/AutoSOTA/

AutoSOTA 的价值不仅在于刷新了性能数据，更在于它为科研范式提供了全新的可能。它证明，通过多智能体系统的赋能，可以将繁琐的科研流程从“手工打磨”升级为“智能制造”。正如徐丰力课题组所强调的，AutoSOTA 更像是一个“创造力放大器”。它通过接管那“1到100”的高强度迭代过程，让人类研究者能够将最宝贵的注意力重新投入到“0到1”的颠覆式创新中。

这一项目的发布，不仅展示了科研智能体在端到端优化中的巨大潜力，也标志着人类进入了人智协同科学研究的新阶段。

未来，当AI 可以大规模自动发现 SOTA 模型时，我们或许该重新思考：科学突破的本质到底是什么？答案可能就藏在那些大胆的问题和未知的方向中。