无需人工奖励,AI自主探索即能进化——解开无奖励原生自演进之谜。
作者丨成仲轩
编辑丨董子博
从被动响应的“工具”到自主进化的“学徒”,AI Agent 每进化一个阶段,都在摆脱一层对人类的依赖。
如今,随着 AI Agent 逐步迈入自主进化的全新阶段,一场从“人优化 Agent”到“Agent 优化自己”的革命性突破正在发生。无论是大幅降低使用和维护成本,还是让其能自主应对连设计者都无法提前预料的复杂情况,等等,一个突破了设计者预设的能力边界的 Agent,究竟能成长到怎样的地步?不免让人心潮澎湃。
尤其在当下 Agentic AI 和 OpenClaw 大行其道的范式里,AI Agent 执行一个单一任务已不再是简单的单轮推理,而是要进行多轮推理和验证,这就意味着其需要的 Token 消耗较之前有数倍甚至十倍的提升。
如何借力自主进化,降低 Token 消耗,进而在竞争趋于白热化的战场上占据更多先机?显然成为当下各大厂商的竞争焦点之一。
不久前,腾讯混元团队与香港科技大学(广州)联合发表论文《Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration》,就为上述问题提供了一种前沿的解决思路。
先来看它的亮眼结果。
在网页 Agent 任务上,参数量仅 14B 的 Qwen3-14B(33.1),直接击败了 Gemini-2.5-Flash(28.5)和 Kimi-K2-Turbo(28.6)。Qwen3-30B(42.5)更是超越了万亿参数量旗舰模型 Gemini-2.5-Pro(36.1)和 Kimi K2.5(36.2)。
轻量级模型能击败万亿级巨无霸,靠的不是新架构或秘密配方,而是一种被称为“原生自演进”的能力。不同于过去被动等待指令的“提线木偶”,“原生自演进”为模型赋予了自我驱动的“生命力”,不需要人类给它指令或奖励就能够实现自我进化。而一个更加“聪明”的模型,无疑能减少反复拉扯过程中的“沟通成本”,做到事半功倍,进而有效降低 Token 的消耗。
除了能力的“特殊”,详细论述了这项能力的论文也有一个特殊身份——腾讯 AI Lab 在 NLP 方向的最后一篇论文。而九年前,即 AI Lab 成立后的第二年,其在 NLP 方向的第一篇论文进入公众视野,同样引发行业思考。
世间之事,有时就是这么奇妙。
(关于腾讯的 AI Lab 往事,雷峰网仍在持续跟进中,并将在不久后为大家带来新的隐秘往事,欢迎添加作者微信:GO-GO-ZEPPELI,交流爆料。)
01
“不靠奖励”是怎么做到的
——原生自演进的技术路径
要理解这项工作的价值,先看它解决什么问题。
过去几年,“Agent 自我进化”无疑是一大研究热点,但翻阅市面上的各方讨论,我们发现论文的通讯作者王琰在社交媒体上指出了一个扎心的事实:大多数所谓的“进化”,本质上还是被人牵着走的——依赖人类设计的奖励函数、流程规则、任务目标——外部监督一撤,成长就停止了。
就连作者本人也曾在工作中遇到类似的问题。比如团队做的冥想盆范式和 StateLM,哪怕 StateLM 能够及时将存储在“冥想盆”中的信息去粗取精,以免上下文窗口被越堆越多的信息撑爆,但二者实现的还是 task-dependent记忆——一种相对死板的记忆方式。只要用户任务稍有变化,模型就得从零开始探索,无法复用之前的记忆缓存。
那么,真正的自演进应该长什么样?
王琰在社媒上为大家举了个形象的案例,假设我们给 Agent 下了条指令:“过几天用户们就会问很多关于哈利波特的问题了,我给你买好了七本哈利波特,你准备一下。”然后 Agent 开始夜以继日地学习,等真有用户来提问时能做到对答如流,这才是真正的自演进,即在在没有下游任务的情况下能够自适应地熟悉环境。
带着这个目标,团队提出了名为“原生自演进”的技术方案。整个方案分两个阶段:
第一,探索阶段。Agent 获得新环境的自由访问权限,以及写入和修改文件的权限。它的任务是把环境中真正重要的信息提取出来,记录到一个world_knowledge.md文件里。这份文件,就是该环境的世界知识。
第二,执行阶段。当下游任务开始时,Agent 不需要再从零开始探索,而是直接把预先生成的世界知识加载到 prompt 中,然后开工。整个推理过程没有任何人工奖励、预设流程或任务提示,完全自主地用它自己积累的知识做事。
思路虽然清晰,但落地并不容易。
核心难题在于:没有 ground-truth。此外,同样是因为没有训练 signal,团队也无法直接判断生成的世界知识是好还是坏。
用下游任务的准确率来反推世界知识的质量,是团队给出的解法。简单来说,就是准备一批训练环境,每个环境包含 10 到 30 个下游任务。对于同一个环境,生成多份不同的世界知识,然后分别拿去跑下游任务,谁的准确率提升最大,谁就是更好的世界知识。
至于期间涉及到的 reward,仅仅用于训练,推理时完全不使用。因为在真实场景中,你永远不可能提前知道用户会问什么,这也正是“无奖励”这个词的含义所在——不是不用奖励来训练,而是在推理、部署阶段不需要任何奖励信号。
具体到训练,分两步走:
第一步,Warm Up 阶段,这一步的目标是让模型先学会什么是好的世界知识。为此团队设计了复杂的prompt,用 Gemini-2.5-Pro 为每个环境生成 8 份不同的世界知识,并从中挑出 reward 最大且为正的结果,将其完整的生成轨迹作为 expert trajectories,用来对基模进行 SFT。
第二步,On-Policy Training 阶段,这一步是为了让模型的探索和信息压缩能力变得更强。为此团队让 SFT 后的模型自己去生成世界知识,再同样筛选选优,迭代两个循环。过程中 prompt 也从最初几万 token 的长模板逐渐缩短至不到一千 token 的 instruction——模型确实内化了这种能力,不再依赖冗长的提示就能自主完成高质量的探索和信息压缩。
02
14B赢Flash、30B超万亿旗舰:
实验数据说明了什么?
团队的成果,最终反映在开篇的论文与亮眼的对比实验结果中。而这场实验基于 Qwen3-30B-A3B 和 Seed-OSS-36B 两个中等尺寸基模,在 WebWalker 和 WebVoyager 两个网页 agent task 上进行,有如下几个发现值得关注:
第一,世界知识带来的增益是实打实的。在有世界知识加持的情况下,模型平均准确率从 30% 跃升至 49%,提升了将近 20 个百分点。这其实也意味着:拥有世界知识的智能体能直接定位到关键信息节点,避免了从零开始盲目探索时的反复跳转和信息遗漏。
第二,训练不可或缺,且迭代真的有效。仅做了 SFT 的模型就已经跟教师模型 Gemini-2.5-Pro 打成平手,在经过 on-policy training 后更是反超了 5%。虽然 knowledge 坍塌的现象也很常见,且给未训练的基模配上同样的 prompt ,让它直接去生成世界知识,效果不升反降,但这共同证明了一点:原生自演进是一种需要通过训练习得的能力,没法靠写更长的 prompt 来解决。
第三,也是最引人注目的——世界知识可以跨模型迁移。
团队为此做了一个有意思的实验,将训练好的模型生成的世界知识,直接喂给四个从未参与训练的模型,结果全部出现了显著提升:Qwen3-14B 达到 33.1、OpenAI-OSS-120B 达到 38.7、Gemini-2.5-Flash 达到 41.0、Kimi-K2-Turbo 达到 47.3——全部超越了各自领域的大哥级产品,就连训练基模本身 Qwen3-30B(42.5)和 Seed-OSS-36B(39.5),也超过了 Gemini-2.5-Pro(36.1)和 Kimi K2.5(36.2)这两款万亿参数量旗舰模型。
这意味着,世界知识是一种可以被不同模型共享并取得收益的“经验资产”。进一步说,规模固然重要,但高质量的知识组织同样能带来巨大增益——在某些场景下甚至足以弥补数量级的参数差距。
第四,效率没有因此变差,反而更好了。事实上,世界知识带来的额外开销确实存在,但可控。这一部分来自探索阶段,大约几百个 steps,但这只需要一个环境做一次,如果下游任务在该环境执行过上百万次,均摊后的成本无限趋近于零;另一部分则来自线上持续加载世界知识的开销,但这部分可以命中缓存,实际开销约为重算的十分之一,为下游任务带来的额外 cost 也不到 5%。
此外,在世界知识的加持下,Agent 执行任务时需要的步数减少了 17%。又因为 decoding 的计算开销远大于 prefilling,Agent 在用户的实际体验中不仅做到了更聪明,而且更快了。外界担忧的“token 爆炸”也没有出现,反而降低了 token 的消耗。
03
结语
2026 年 3 月 20 日,腾讯内部通知撤销成立近十年的 AI Lab,原团队整体并入混元大模型体系,由首席科学家姚顺雨统一领导。
AI Lab 的时代由此画上句号。
有意思的是,AI Lab 的最后一篇论文,指向了腾讯内部的“最高优先级项目”。
眼下,众多线索都将该项目指向微信 Agent。
(雷峰网目前正在关注微信 Agent 的相关信息,欢迎添加作者微信:GO-GO-ZEPPELI,交流爆料。)
如何帮助用户操纵数百万个小程序?无疑是摆在微信 Agent 面前的一大难题。
如果按当前主流范式推演,通过人工标注专家数据轨迹的方式,大约可以覆盖 20 个头部小程序;次头部约 500 个小程序,则可以通过标注大量任务及答案进行 RLVR;剩下的的海量长尾小程序,每次就只能从头探索,组织成本和扩展瓶颈都很明显。
好在原生自演进的到来提供了新的可能性,王琰也在社媒上兴奋地向大家描述着自己与团队的愿景:“在每个小程序上线之时,就可以通知微信 Agent 过来探索一番并生成小程序对应的世界知识。在后面的任务中,只要 Agent 打开了这个小程序,对应的世界知识文件就会加载到 Agent 的 context 中,无需重新探索,多用户直接复用世界知识的 KV Cache。”
从论文到落地,这中间当然还有很多问题要解决。但这篇腾讯 AI Lab 的最后之作至少证明了一件事:当AI学会了“预习”——在没有任务指引的情况下主动熟悉环境、沉淀知识——它离像人一样自主适应复杂环境,又近了一步。
(关于腾讯 AI 的系列文章仍在持续推出中,下一篇讲述腾讯 AI Lab 往事的文章即将与大家见面,欢迎添加作者微信:GO-GO-ZEPPELI,交流认知,分享八卦。)
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴