解决智能体手工构造难题！浙大&腾讯提出 ReCreate，从零自动构建领域智能体|agent|大模型|工作流|知名企业|腾讯|领域智能体

AI 的「自我制造」时代正在到来。

如果你用过 Cursor、Copilot、CodeBuddy、Claude Code 这类 LLM Agent 产品，很快就会有这样的感受：强大的基座模型固然重要，而优质的智能体才是把模型能力兑现成 “可靠交付” 的关键。

智能体往往通过搭建一套脚手架来实现—— 它包含提示词设计、工作流编排、工具设计、失败反思机制、记忆组织方式等关键模块。正是这套看不见的 “底层架构”，决定了智能体的行为模式：在一套成熟的脚手架支撑下，同一个基座模型能按部就班完成复杂任务：读 repo → 跑测试 → 定位失败 → 输出最小补丁；而换一套粗糙的脚手架，模型就可能陷入盲目修改、重复试错的困境，甚至越做越偏。

提示词怎么写、工作流怎么编排、工具怎么调用、失败后如何反思、记忆如何组织 —— 这些智能体脚手架的实现细节，直接决定了这个智能体是 “高效助手” 还是 “麻烦制造者”。

但现实是，这些脚手架几乎全靠手工打磨，这带来两方面的问题。

1、成本方面：对于每个细分领域，都要投入若干智能体研发工程师长期跟进效果，带来高昂的成本，这阻碍了智能体向更多细分领域的普及；

2、性能方面：现实场景中，智能体研发工程师对智能体细节优化能力良莠不齐，导致无法长期对智能体优化做出有效的迭代。一个好的智能体脚手架和差的脚手架的差别很大；例如，测试发现， SWE-bench Verified 中 37% 的错误换个脚手架就能够被解决。

想象一下：如果 AI 能像人类工程师一样，从一次次试错中摸清门道，自己设计出适配特定领域的智能体，而不是靠人类从零开始搭建 —— 这会不会彻底改变我们使用大模型的方式？

为了探索这种范式的可能性，来自浙大、腾讯等机构的研究者提出了ReCreate框架：它不依赖人类手工设计，而是让智能体自主分析交互经验、定位优化方向、迭代完善脚手架，最终实现 “用智能体构建智能体” 的全新范式。

01
核心观念：从 “看结果” 到 “学过程”

传统方法的致命缺陷，在于把智能体的执行过程压缩成了一个冰冷的性能数值 —— 就像只看考试分数，却不管学生哪个题没做对、也不管学生如何思考的，自然无法精准改进。而 ReCreate 的核心洞察是：交互经验里藏着成功与失败的全部密码。

智能体在解决任务时留下的每一步推理、每一次工具调用、每一次环境反馈，甚至是那些看似无用的尝试，都是宝贵的教学素材。比如在数据科学任务中，智能体可能会直接用训练集评估模型性能，导致误以为模型效果很好；在软件工程任务中，可能因为提交前的操作顺序错误，导致生成的补丁为空。这些细节，光看最终分数永远无法发现，但恰恰是优化脚手架的关键。

ReCreate 的优越性，就在于把 “黑箱优化” 变成了 “白箱调试”—— 它不依赖抽象的性能指标，而是直接剖析智能体的交互轨迹、执行日志和环境状态，从中提炼出可落地的改进方案。这就像医生不再只看体检报告上的异常数值，而是通过完整病历和症状轨迹精准诊断病因，治疗自然更有效。

这里的图示能直观展示ReCreate框架的双循环结构——Agent在内层循环解决问题，ReCreate-Agent 在外层循环分析经验并优化自身。现有Agent搜索的方法只依赖于Agent的执行分数（Scores），而ReCreate通过分析完整的交互经验（Experience）来找到Agent优化的方向。

02
技术内核：Agent as Optimizer的三重设计

要实现从交互经验到脚手架改进的跨越，ReCreate 搭建了一套 “Agent as Optimizer” 的架构，靠三个核心组件打通了 “经验提取 - 推理归因 - 迭代优化” 的闭环：

1、经验存储与检索：在海量日志中精准定位关键线索

智能体的交互数据往往庞大且杂乱，直接投喂给 LLM 会造成信息过载。ReCreate 把每一次任务交互都整理成一系列可检索的文件，这个文件系统构成了ReCreate-Agent的环境，专门用于检索和分析轨迹中的证据。

这个由交互经验构成的环境中还内置了证据检索器 —— 它会自动索引错误、测试失败、文件操作等关键事件，让ReCreate-Agent能像侦探查案一样，从最终结果反向追溯到问题根源。比如发现一个任务失败了，优化器可以直接定位到哪一步工具调用导致失败，而不用在海量日志里大海捞针。

2、推理归因 - 把交互经验转化为精准改进

光有经验还不够，关键是要把交互经验变成脚手架的 “升级包”。ReCreate 的优化器会先通过推理环节分析经验：这个失败是因为缺少某个规则？还是因为重复操作没有自动化？或是工作流程顺序错了？然后通过创造环节生成针对性改进：需要加规则就补充约束，需要自动化就创建工具，需要调整流程就优化步骤。

除此之外，ReCreate-Agent还配有“行动路由器”，能根据成功或失败的证据决定修改或创造脚手架的哪个部分 —— 是调整智能体的规则流程，还是优化推理策略；需要新增工具，还是调整记忆模式。

例如，在成功案例中，如果ReCreate-Agent发现可复用的模式，会自动将其提取为skills，作为后续任务的工具和经验；在失败案例中，ReCreate-Agent发现缺少某种规则而导致失败，则会更新规则库，加入可以规避这类失败的规则。

这就像一位精准的工匠，不会对着作品盲目敲打，而是哪里有问题就针对性修补。

3、分层更新机制：从个体经验到通用规律

如果只针对单个任务优化，智能体很容易 “学死” —— 在这个任务上表现很好，换个任务就失灵。ReCreate 的分层更新机制解决了这个问题：首先收集多个任务的实例级改进建议，再通过领域级更新提炼出通用模式。

比如多个数据科学任务都出现了 “未划分验证集” 的问题，就会把 “必须使用训练 - 验证分割进行评估” 变成通用规则，而不是只在某个任务中临时添加。这样一来，智能体学到的就是领域通用知识，而不是单个任务的 “特化技巧”。

值得注意的是，ReCreate 和同类方法完全不同：它不依赖粗粒度性能指标，也不用预定义模块池（区别于现有的ADAS、AgentSquare），更能从 0 开始创建智能体（区别于只能现有Self-Evolve方法），真正实现了 “经验驱动的白箱优化”。

另外，ReCreate的工具实现方式采用skills，完全可以实现在不同智能体之间的迁移和组合。

03
实验结果：小成本，大提升

为验证 ReCreate 框架的实际效能，研究者在软件工程（SWE）、数据科学（DS）、数学（Math）、数字助理（Digital）四大核心领域，选取 13 个权威基准测试集展开全面评估。实验不仅对比了传统手工设计方案、自进化方法及自动化智能体生成技术，还通过消融实验、成本分析等多维度验证。

1、相比于传统方案，多个领域任务通过率大幅提升

在所有测试场景中，ReCreate 的平均性能较当前最强对比方法提升超 5%，多个核心任务实现大幅提升：

▪ 数据科学领域的 NumPy 任务，通过率从 62% 提升至 77%，解决了数据处理中工具调用不规范、流程缺失等关键问题；

▪ 数学领域表现尤为突出，代数任务通过率从 81.45% 提升至 92.74%，数论与概率统计任务更是实现 100% 通过率，展现了对复杂推理场景的强大适配能力；

▪ 数据科学下的机器学习子任务，通过率从 34.32% 提升至 42.88%，成功规避了模型评估无验证集、特征工程不规范等常见陷阱。

2、突破手工脚手架性能壁垒，超越人类专家设计

长期以来，手工设计的脚手架被视为领域智能体的通用范式，但ReCreate 凭借经验驱动的迭代优化实现了突破：

▪ 数据科学领域的 Data Wrangling 任务，手工方案通过率仅 42.81%，ReCreate 优化后达到 51.94%，成功解决了数据清洗、格式转换中的流程混乱问题；

▪ 可视化任务 Matplotlib 中，ReCreate 将通过率从 78.52% 提升至 85.19%，自动生成的图表优化工具和流程规范大幅降低了语法错误和逻辑偏差。

▪ 在软件工程领域的 Django 项目测试中，人类专家设计的脚手架通过率为 58.29%，而 ReCreate 将这一数值提升至 60.19%；

3、成本指数级下降，无需大规模评估快速收敛

与 ADAS 等依赖预定义模块池和大规模重复评估的自动化生成方法相比，ReCreate 凭借精准的经验归因机制，实现了成本与性能的平衡：

▪ 成本较 ADAS 降低 36%-82%，在相同大小的开发集下，ADAS 单次智能体生成15轮以上的迭代，而 ReCreate 仅需 2 轮开发集上的迭代即可实现更优的性能；

▪ 迭代效率显著提升，无需海量任务试错，仅通过分析关键交互轨迹就能定位优化方向，在 Django 项目中，从初始脚手架到最优状态仅需 4 个任务批次的经验积累；

04
进一步验证：消融实验与分析实验

1、消融实验：经验组件的不可替代性

为明确各核心组件的作用，研究者开展了针对性消融实验，结果显示：

▪ 移除完整交互轨迹后，性能平均下降 8.3%，证明 step-by-step 的推理过程、工具调用记录是精准诊断失败原因的关键，缺失后无法定位流程顺序错误、重复操作等隐性问题；

▪ 去除执行结果与评估反馈后，性能下降 6.7%，说明任务执行结果、测试结果等具象反馈是锚定优化方向的核心依据，缺少后易导致优化脱离实际场景；

▪ 关闭环境状态访问后，性能下降 3.2%，验证了 Docker 沙箱中的代码库状态、文件系统信息等环境数据，对解决 “提交空补丁”” 文件路径错误 “ 等场景化问题的重要性。

2、领域适配性：不同领域的优化路径差异化展现

ReCreate 在不同领域展现出高度自适应的优化能力，其行为模式与领域特性深度匹配：

▪ 软件工程领域：ReCreate重点优化代码编辑工具与提交流程，自动创建 “方法替换工具”（replace_method.py）等工具，避免手工修改的语法错误，同时明确”提交前必须运行特定测试” 等流程和记忆；

▪ 数据科学领域：ReCreate聚焦评估流程规范与特征工程工具，自动添加多个特征工程skills，把领域内可泛化的成功案例提炼成为可复用的skills；

▪ 数字助理领域：ReCreate倾向于进行轨迹分析与记忆更新，针对多步骤工具调用场景优化流程顺序，挑战级任务通过率从 34.05% 提升至 40.29%，复杂指令理解准确率显著提高。

3、推理能力消融：核心能力的决定性作用

ReCreate 的优化效果高度依赖 ReCreate-Agent 的推理能力，针对性消融实验清晰展现了这一核心前提：

▪ 当使用推理能力较弱的 GPT-5-mini 作为 ReCreate-Agent 时，在多数领域无法超越人类设计的脚手架。其中软件工程领域通过率仅 57.09%，数据科学领域 DA-Code 任务通过率 37.13%，较 Claude-4.5-opus 版本平均下降 8.5%；

▪ 仅保留初始领域信息、移除 ReCreate-Agent 的推理优化环节后，除数学领域因任务逻辑相对固定仍有一定表现外，其余领域性能大幅滑坡。数字助理挑战级任务通过率从 40.29% 降至 34.05%，数据科学机器学习任务从 42.88% 回落至 34.32%，与原始基线持平；

▪ 采用 Claude-4.5-opus 作为 ReCreate-Agent 时，凭借强大的推理归因能力，能精准定位交互轨迹中的各类问题，并转化为针对性优化，最终在全领域实现对人类设计脚手架的超越，验证了强推理能力是 ReCreate 实现 “白箱优化” 的关键支撑。这说明当前最强的模型已经可以在设计Agent这样的任务上超越人类了。

4、鲁棒性验证：温度敏感性与泛化能力测试

▪ 温度稳定性：在 ReCreate-Agent 的不同采样温度（0.0、0.5、1.0）下，平均性能波动不超过 1%，证明前沿大模型的推理能力已足够支撑稳定的智能体优化，无需依赖特定的推理方式；

▪ 泛化能力：通过分层更新机制，ReCreate 将多个任务的实例级改进提炼为领域通用规则，在未见过的测试任务中，性能保持率达 95% 以上，远高于传统方法的 80%，避免了 “单任务特化” 陷阱。

更值得关注的是，在多个Case Study中可以发现：即使从极其简陋的初始脚手架开始, ReCreate 也能在交互经验的驱动下，逐步进化出复杂的工具集、严谨的推理规则和高效的记忆机制。比如在 Django 任务中，它会自动创建 “函数替换”工具，避免手动修改代码的语法错误；还会积累 “提交前必须运行特定测试” 的经验记忆，从而降低失败率。

05
未来启示：AI 的 “自我制造” 时代正在到来

ReCreate 的价值，核心在于为领域智能体的构建提供了一条更务实的路径 —— 用经验驱动的方式解决了手工设计的痛点。对开发者而言，这意味着无需投入大量精力从零搭建适配特定领域的脚手架：无论是缺少成熟方案的小众科研场景，还是需求快速迭代的工业任务，只要提供基础任务数据和环境，ReCreate 就能自主沉淀规律、优化流程，生成贴合需求的专业智能体，大幅降低开发成本和试错周期。

ReCreate 契合了人类学习的本质：不是靠他人灌输的完美指令，而是在实践中试错、在反思中沉淀、在迭代中成长。随着模型的能力逐渐突破某个边界，Agent 开始像人类一样 “从做中学”，智能体的创造或许将不再是少数专家的专利，而是Agent自身的本能。这一天，已经不再遥远。

06
搭建 ReCreate 框架的人

本研究的第一作者郝哲正，现为浙江大学计算机学院2025级博士研究生，研究方向聚焦于 AI Agents 与 LLM RL，导师为陈佳伟研究员。

2023年-2024年，郝哲正曾师从李学龙、聂飞平教授，在机器学习领域发表多篇研究工作。2025 年以来，郝哲正从事代码智能体的研究与构建。

本研究的通讯作者为董汉德、陈佳伟。

董汉德，腾讯技术专家，毕业于中国科学技术大学，负责腾讯CodeBuddy产品大模型研发。在大模型领域具有丰富的研究和落地经验，包括大模型训练、智能体等细分领域，谷歌学术引用超1500次。当下，主要致力于研发利用AI Agent产品收集到的用户数据训练高质量大模型的训练范式。

陈佳伟，浙江大学计算机学院“百人计划”研究员，博士生导师，于2020年获得浙江大学计算机科学与技术博士学位，曾师从陈纯院士、何向南教授，主要致力于推荐系统、大语言模型、智能体等领域的研究，谷歌学术引用超5000次，特别是在用户行为分析与建模方面取得了一系列成果，曾获SIGIR 2023最佳论文提名奖（CCF-A类）、WSDM 2025最佳论文奖（清华A类），多项成果也在快手、抖音、蚂蚁、省公安等企事业单位落地应用，服务于上亿用户。