打开网易新闻 查看精彩图片

过去两年,AI Agent 的能力边界被不断刷新:会写代码、会调用工具、会反思失败,也开始能在任务执行中积累经验。

但一个更现实的问题正在浮现:

如果一个 Agent 真的被部署到真实世界,它还能继续变强吗?

不是在一个固定 benchmark 上反复刷分,也不是只针对某一种任务改 prompt,而是在真实使用中同时面对代码、数学、知识问答、公式计算、复杂推理等不断变化的任务输入,还能不能持续适应、稳定提升?

这正是 EEVEE 想解决的问题。

来自上海交通大学与普林斯顿大学的研究团队发布了 EEVEE,一个面向 LLM Agent 的测试时提示学习框架。它试图把 prompt learning 从 “单一任务优化” 推向更接近真实部署的场景:让智能体在多类型任务不断涌入时,仍然能够继续学习,而不是顾此失彼。

首个Agent全面进化框架EEVEE发布
打开网易新闻 查看更多视频
首个Agent全面进化框架EEVEE发布

打开网易新闻 查看精彩图片

  • 论文链接:https://arxiv.org/abs/2606.11182
  • 项目主页:https://princeton-ai2-lab.github.io/EEVEE/
  • 开源代码:https://github.com/Princeton-AI2-Lab/EEVEE

单一任务上的进步,还不够

今天已经有很多 prompt optimization 方法可以让模型在一个任务上变得更好。

例如,在一个数学题集上学会更严谨的解题步骤;在一个代码任务上学会输出更规范的函数体;在一个问答任务上学会更符合评测格式的回答。

这很有价值,但它离真实 Agent 还差一步。

真实部署中的 Agent 不会只遇到一种任务。它可能上一秒在写代码,下一秒在做金融公式计算,再下一步又要回答科学问题。不同任务需要的行为完全不同:有的要求严格输出格式,有的要求符号推理,有的要求知识判断,有的要求可执行代码。

如果所有反馈都被塞进同一个 prompt,问题就会出现:

一个任务上学到的经验,可能会伤害另一个任务。

比如,为了公式题学到 “只输出数字”,可能会影响需要解释推理过程的题;为了代码题学到 “只输出函数体”,也可能不适合知识问答。任务越多,单一 prompt 越容易变成一个互相冲突的杂糅体。

这就是 EEVEE 要面对的核心挑战:智能体不能只在单科变强,而要在多种任务中一起进化。

任务越多,差距越明显

EEVEE 最有说服力的结果,不是单个任务上的分数,而是任务不断增加时的表现。

研究团队把多个不同类型的任务依次加入同一个学习过程,观察 prompt learning 方法能不能持续累积收益。

结果非常直接:

当任务越来越多时,一些强基线方法的收益开始停止叠加,甚至跌到负数;而 EEVEE 仍然保持正向提升,最终在任务全部加入后达到约+42 的累计提升

换句话说,EEVEE 的优势不是 “单点提分”,而是任务变复杂之后还能继续往上走。

这非常关键。因为真实世界里的 Agent,面对的永远不是一个干净、封闭、单一的任务环境,而是不断变化的任务组合。

打开网易新闻 查看精彩图片

全方位提升:不同模型上都有效

在主实验中,研究团队使用了四类代表性任务:知识问答、公式计算、数学 / 符号推理、代码生成。这些任务放在一起,构成了一个更接近真实 Agent 工作负载的混合环境。

在这个设置下,EEVEE 在不同 backbone 上都带来了明显提升:

  • 在 Qwen3-4B-Instruct 上,平均分从 41.37 提升到 51.75,相对提升约25%
  • 在 DeepSeek-V3.2 上,平均分从 39.75 提升到 64.07,相对提升约61%
  • 相比现有 SOTA prompt-learning 方法,最高相对提升达到48.2%

这说明 EEVEE 并不是只对某个模型、某个任务有效,而是在更广泛的混合任务设置中,都能让智能体获得更稳定的整体提升。

打开网易新闻 查看精彩图片

不只是 “多开几个 prompt”:EEVEE 如何让智能体分工进化?

EEVEE 的思路可以用一句话概括:

先分流,再用专门 prompt 推理。

它不再让所有任务共享一个 prompt,而是维护多个 specialized prompts。每当输入到来,EEVEE 会先判断它更适合哪一类 prompt,再让模型带着对应 prompt 去回答。

但这不是简单的人工分类。

EEVEE 不会事先规定 “数学题走数学 prompt,代码题走代码 prompt”。因为真实任务的差异往往不在表面任务名称上,而在不同 prompt 的实际表现上。

同样是数学题,有的需要公式计算,有的需要定理推理,有的需要严格输出格式。真正有用的划分,是在学习过程中逐渐形成的。

这也带来了关键难点:router 和 prompt 不能分开学。

router 决定每个 prompt 会看到哪些样本;prompt 的能力又决定了怎样的路由是有意义的。

因此,EEVEE 采用 router–prompt co-evolution:先优化 router,重新划分任务;再优化每个 prompt;随后把更新后的 prompt 反馈给下一轮 router。这个过程不断循环,让路由更清晰,prompt 更专门化。

最终,智能体不是靠一个越来越长、越来越混乱的 prompt 适应所有任务,而是把经验组织起来,让不同任务模式进入更合适的学习路径。

打开网易新闻 查看精彩图片

单一任务上依旧优秀

一个自然的问题是:如果 EEVEE 是为多任务设计的,它会不会牺牲单任务能力?

实验显示并没有。

当每个 benchmark 单独进行 prompt learning 时,EEVEE 仍然保持很强的竞争力。例如:

  • Formula 任务达到
  • HumanEval 任务达到
  • TheoremQA 从 14.73 提升到

这说明 EEVEE 不是靠 “路由” 掩盖 prompt learning 本身的不足。相反,它的 prompt 学习机制在单任务上同样有效;当任务变多时,router 才进一步发挥组织经验、避免互相干扰的作用。

打开网易新闻 查看精彩图片

不靠堆砌上下文

很多让 Agent 变强的方法,都有一个共同副作用:上下文越来越长。

系统不断把经验、规则、案例、playbook 追加进 prompt,短期看可能有效,但任务一多,成本就会迅速上升,prompt 也会变得冗长混乱。

EEVEE 没有走这条路。

虽然它增加了一个路由步骤,但整体 token 成本仍然保持在较低水平。实验显示,EEVEE 平均每个测试样本使用4.32K tokens,接近高效 prompt-learning 基线 GEPA 的3.47K,远低于 ACE 的21.30K

也就是说,EEVEE 的提升并不是靠无限扩展上下文堆出来的,而是来自更有效的任务组织和 prompt specialization。

打开网易新闻 查看精彩图片

Prompt learning 真正学到的是什么?

论文中的案例分析也揭示了一个很重要的现象:

Prompt learning 最擅长学习的,不是凭空补充知识,而是把反馈转化成可复用的做事方式。

在代码任务中,它能学会保持函数接口、输出可执行代码、处理边界条件;在公式任务中,它能学会正确套公式、保持单位尺度、输出符合评测要求的答案格式。

但对于知识密集型问答,情况会更复杂。Prompt learning 可以让模型推理更系统,却不一定能补上缺失的领域知识。如果模型本身缺少关键事实,单靠 prompt 不一定能解决。

这说明 EEVEE 并不是在宣称 prompt learning 可以解决一切。它真正展示的是:当反馈能够变成可复用的过程、格式和策略时,智能体可以在测试时持续吸收这些经验,并把它们组织到更合适的 prompt 中。

这比单纯 “改一个 prompt” 更接近真实 Agent 的学习方式。

打开网易新闻 查看精彩图片

让 Agent 从单科进步走向全方位进化

过去的 prompt optimization,更像是在训练一个 Agent 做好某一门课。

它可以在一个固定任务上反复练习,逐渐摸清规律,拿到更高分数。

但真实世界要求的不是 “单科提分”,而是更接近 “全科成长”:任务不断变化,反馈不断变化,能力需求也不断变化。一个真正有用的 self-improving Agent,必须能在部署后继续适应这些变化,而不是只在单一 benchmark 上越来越熟练。

EEVEE 的意义就在于此。

它把 test-time prompt learning 从单一任务推向多类型任务共同到来的场景,让智能体开始学习如何组织经验、区分任务模式、保留不同能力,并在复杂任务流中继续提升整体表现。

这还不是最终形态。论文也指出,EEVEE 仍然依赖 ground-truth 或 rule-based feedback,还不是完全在线、完全自监督的自我提升系统。

但它迈出了关键一步:当智能体真正面对真实世界中复杂、多样、不断变化的任务时,prompt learning 仍然可以成为一种有效的持续适应机制。

从单一任务到全方位进化,这正是 EEVEE 想打开的一扇门。