告别「单科专家」：首个Agent全面进化框架EEVEE发布|agent|eevee|上下文|代码|真实世界

过去两年，AI Agent 的能力边界被不断刷新：会写代码、会调用工具、会反思失败，也开始能在任务执行中积累经验。

但一个更现实的问题正在浮现：

如果一个 Agent 真的被部署到真实世界，它还能继续变强吗？

不是在一个固定 benchmark 上反复刷分，也不是只针对某一种任务改 prompt，而是在真实使用中同时面对代码、数学、知识问答、公式计算、复杂推理等不断变化的任务输入，还能不能持续适应、稳定提升？

这正是 EEVEE 想解决的问题。

来自上海交通大学与普林斯顿大学的研究团队发布了 EEVEE，一个面向 LLM Agent 的测试时提示学习框架。它试图把 prompt learning 从 “单一任务优化” 推向更接近真实部署的场景：让智能体在多类型任务不断涌入时，仍然能够继续学习，而不是顾此失彼。

论文链接：https://arxiv.org/abs/2606.11182
项目主页：https://princeton-ai2-lab.github.io/EEVEE/
开源代码：https://github.com/Princeton-AI2-Lab/EEVEE

单一任务上的进步，还不够

今天已经有很多 prompt optimization 方法可以让模型在一个任务上变得更好。

例如，在一个数学题集上学会更严谨的解题步骤；在一个代码任务上学会输出更规范的函数体；在一个问答任务上学会更符合评测格式的回答。

这很有价值，但它离真实 Agent 还差一步。

真实部署中的 Agent 不会只遇到一种任务。它可能上一秒在写代码，下一秒在做金融公式计算，再下一步又要回答科学问题。不同任务需要的行为完全不同：有的要求严格输出格式，有的要求符号推理，有的要求知识判断，有的要求可执行代码。

如果所有反馈都被塞进同一个 prompt，问题就会出现：

一个任务上学到的经验，可能会伤害另一个任务。

比如，为了公式题学到 “只输出数字”，可能会影响需要解释推理过程的题；为了代码题学到 “只输出函数体”，也可能不适合知识问答。任务越多，单一 prompt 越容易变成一个互相冲突的杂糅体。

这就是 EEVEE 要面对的核心挑战：智能体不能只在单科变强，而要在多种任务中一起进化。

任务越多，差距越明显

EEVEE 最有说服力的结果，不是单个任务上的分数，而是任务不断增加时的表现。

研究团队把多个不同类型的任务依次加入同一个学习过程，观察 prompt learning 方法能不能持续累积收益。

结果非常直接：

当任务越来越多时，一些强基线方法的收益开始停止叠加，甚至跌到负数；而 EEVEE 仍然保持正向提升，最终在任务全部加入后达到约+42 的累计提升

换句话说，EEVEE 的优势不是 “单点提分”，而是任务变复杂之后还能继续往上走。

这非常关键。因为真实世界里的 Agent，面对的永远不是一个干净、封闭、单一的任务环境，而是不断变化的任务组合。

全方位提升：不同模型上都有效

在主实验中，研究团队使用了四类代表性任务：知识问答、公式计算、数学 / 符号推理、代码生成。这些任务放在一起，构成了一个更接近真实 Agent 工作负载的混合环境。

在这个设置下，EEVEE 在不同 backbone 上都带来了明显提升：

在 Qwen3-4B-Instruct 上，平均分从 41.37 提升到 51.75，相对提升约25%
在 DeepSeek-V3.2 上，平均分从 39.75 提升到 64.07，相对提升约61%
相比现有 SOTA prompt-learning 方法，最高相对提升达到48.2%

这说明 EEVEE 并不是只对某个模型、某个任务有效，而是在更广泛的混合任务设置中，都能让智能体获得更稳定的整体提升。

不只是 “多开几个 prompt”：EEVEE 如何让智能体分工进化？

EEVEE 的思路可以用一句话概括：

先分流，再用专门 prompt 推理。

它不再让所有任务共享一个 prompt，而是维护多个 specialized prompts。每当输入到来，EEVEE 会先判断它更适合哪一类 prompt，再让模型带着对应 prompt 去回答。

但这不是简单的人工分类。

EEVEE 不会事先规定 “数学题走数学 prompt，代码题走代码 prompt”。因为真实任务的差异往往不在表面任务名称上，而在不同 prompt 的实际表现上。

同样是数学题，有的需要公式计算，有的需要定理推理，有的需要严格输出格式。真正有用的划分，是在学习过程中逐渐形成的。

这也带来了关键难点：router 和 prompt 不能分开学。

router 决定每个 prompt 会看到哪些样本；prompt 的能力又决定了怎样的路由是有意义的。

因此，EEVEE 采用 router–prompt co-evolution：先优化 router，重新划分任务；再优化每个 prompt；随后把更新后的 prompt 反馈给下一轮 router。这个过程不断循环，让路由更清晰，prompt 更专门化。

最终，智能体不是靠一个越来越长、越来越混乱的 prompt 适应所有任务，而是把经验组织起来，让不同任务模式进入更合适的学习路径。

单一任务上依旧优秀

一个自然的问题是：如果 EEVEE 是为多任务设计的，它会不会牺牲单任务能力？

实验显示并没有。

当每个 benchmark 单独进行 prompt learning 时，EEVEE 仍然保持很强的竞争力。例如：

Formula 任务达到
HumanEval 任务达到
TheoremQA 从 14.73 提升到

这说明 EEVEE 不是靠 “路由” 掩盖 prompt learning 本身的不足。相反，它的 prompt 学习机制在单任务上同样有效；当任务变多时，router 才进一步发挥组织经验、避免互相干扰的作用。

不靠堆砌上下文

很多让 Agent 变强的方法，都有一个共同副作用：上下文越来越长。

系统不断把经验、规则、案例、playbook 追加进 prompt，短期看可能有效，但任务一多，成本就会迅速上升，prompt 也会变得冗长混乱。

EEVEE 没有走这条路。

虽然它增加了一个路由步骤，但整体 token 成本仍然保持在较低水平。实验显示，EEVEE 平均每个测试样本使用4.32K tokens，接近高效 prompt-learning 基线 GEPA 的3.47K，远低于 ACE 的21.30K

也就是说，EEVEE 的提升并不是靠无限扩展上下文堆出来的，而是来自更有效的任务组织和 prompt specialization。

Prompt learning 真正学到的是什么？

论文中的案例分析也揭示了一个很重要的现象：

Prompt learning 最擅长学习的，不是凭空补充知识，而是把反馈转化成可复用的做事方式。

在代码任务中，它能学会保持函数接口、输出可执行代码、处理边界条件；在公式任务中，它能学会正确套公式、保持单位尺度、输出符合评测要求的答案格式。

但对于知识密集型问答，情况会更复杂。Prompt learning 可以让模型推理更系统，却不一定能补上缺失的领域知识。如果模型本身缺少关键事实，单靠 prompt 不一定能解决。

这说明 EEVEE 并不是在宣称 prompt learning 可以解决一切。它真正展示的是：当反馈能够变成可复用的过程、格式和策略时，智能体可以在测试时持续吸收这些经验，并把它们组织到更合适的 prompt 中。

这比单纯 “改一个 prompt” 更接近真实 Agent 的学习方式。

让 Agent 从单科进步走向全方位进化

过去的 prompt optimization，更像是在训练一个 Agent 做好某一门课。

它可以在一个固定任务上反复练习，逐渐摸清规律，拿到更高分数。

但真实世界要求的不是 “单科提分”，而是更接近 “全科成长”：任务不断变化，反馈不断变化，能力需求也不断变化。一个真正有用的 self-improving Agent，必须能在部署后继续适应这些变化，而不是只在单一 benchmark 上越来越熟练。

EEVEE 的意义就在于此。

它把 test-time prompt learning 从单一任务推向多类型任务共同到来的场景，让智能体开始学习如何组织经验、区分任务模式、保留不同能力，并在复杂任务流中继续提升整体表现。

这还不是最终形态。论文也指出，EEVEE 仍然依赖 ground-truth 或 rule-based feedback，还不是完全在线、完全自监督的自我提升系统。

但它迈出了关键一步：当智能体真正面对真实世界中复杂、多样、不断变化的任务时，prompt learning 仍然可以成为一种有效的持续适应机制。

从单一任务到全方位进化，这正是 EEVEE 想打开的一扇门。

告别「单科专家」：首个Agent全面进化框架EEVEE发布

热搜

热门跟贴

热搜

热门跟贴

相关推荐

强化学习之父Sutton联手Carmack：让机器人进入真实世界打游戏

入选ECCV2026！清华开源空间模型打败Gemini：世界变化中持续学习

微信Agent“小微”亮相：能力是明牌，边界才是真正的悬念

恩和发布BPL协议语言，定位生物制造的“工业级编译器”

代码放权与算法收权：数智时代领导者如何用“智能合约”激活组织自驱引擎

在清华，我拍到了物理AGI第一幕！

经典之作PPO算法：曾被NeurIPS拒了

从眼控到脑控，蔡磊化身“赛博躯体”称将把意识传送到具身机器人

朱旻琦：具身智能用一天进化一天、聪明一天 机器人普及核心痛点是需要二次开发和适配

灵巧手的第一份高难度考卷，中科院自动化所发布DexJoCo

中科院工业人工智能研究所世界模型PAIWorld登顶WorldArena榜单！

AI for Computing迎来破局者，国产黑马智子芯元两个月融了两轮！

微信终于要给 AI 手机开门了｜AI 器物志

AI“黑船”来袭？日本企业界忧心重重 软银提网络安全倡议

00后小哥复刻Claude最强神话模型OpenMythos

“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

王晓野：Working Agent将是下一个爆发点

这个时代必须以Agent为中心：三个趋势回顾

AI Agent是科技革命中的一次真正的范式转移

Agent输出到底该用谁？ 卡帕西转发：试试让AI输出HTML

朱旻琦：具身智能用一天进化一天、聪明一天机器人普及核心痛点是需要二次开发和适配

AI“黑船”来袭？日本企业界忧心重重软银提网络安全倡议

Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML