1/3 Token↓，3×性能↑：通义 × 清华用强化学习重做Agent Memory

新浪财经

2026-04-12 03:41 ·河北 ·优质财经领域创作者

来源：市场资讯

（来源：PaperWeekly）

LLM 长程（Long-horizon）Agent 在进行环境多轮交互时，容易陷入“越用越慢、越用越不稳”的困境：历史轨迹不断累积，Context 线性膨胀，Token 成本飙升，还会触发 “Lost in the Middle”，性能和稳定性持续下滑。

现有方案大多依赖外置记忆库 / RAG 来“被动检索”相关片段，但这类 Memory 往往难以与任务目标做端到端联合优化，Agent 和记忆库“各司其职”。

同时，现有的基于强化学习的 Memory 管理方法往往缺乏一种有效机制针对 Memory 的更新内容进行引导优化，Memory 的内容难以保证质量。

如何让 Agent 在交互过程中自主组织历史信息，并且通过强化学习优化 Memory 的信息质量，同时还能对齐最终任务目标？

MemPO（Self-Memory Policy Optimization）提供了一种解决方案，使得模型对 Memory 进行自管理，并引入了基于有效信息含量的 Memory-level 的优势估计，引导 Memory 保留对解决任务更有效的信息，提升记忆有效性。

实验结果显示在长程任务基准上，F1 最高提升 25.98%（较 base 模型）/ 7.1%（较 SOTA 方法），同时 Token 使用量下降 67.58% / 73.12%。

论文标题：

MemPO: Self-Memory Policy Optimization for Long-Horizon Agents

论文地址：

https://arxiv.org/abs/2603.00680

代码地址：

https://github.com/TheNewBeeKing/MemPO

模型和数据集地址：

https://huggingface.co/collections/NewBeeKing/mempo

核心痛点：长程 Agent 的“上下文膨胀”，以及现有记忆方案的“被动与不可控”

长程多轮交互越来越成为 LLM Agent 解决复杂问题的关键能力。为缓解由此带来的长上下文问题，很多研究开始引入 Agent Memory。

现有的主流方法是外置记忆库 + RAG 检索，按相似度从历史中召回片段再拼接进 Prompt。

这种方式存在一个核心问题：检索“相似”不等于“对任务最关键”，难以与任务目标做端到端联合优化，最终让记忆管理停留在被动流水线，而非模型的内生能力。

也有一些工作尝试用 RL 来改进 Agent 能力，但落到“记忆”上仍相对有限：要么把记忆管理做成独立的工具/组件，没有与回答/推理的策略共同优化；要么将记忆融入推理流程，却缺少针对记忆质量的显式目标，训练信号仍主要来自最终任务回报。

长程交互下奖励稀疏，信用分配困难，模型很难学清楚“到底是哪一步的记忆写得好/坏”在影响最终成败，导致记忆容易冗余、遗漏关键信息。

因此，MemPO 的核心目标是：不仅要“用 RL 训练 Agent”，还需要为记忆本身设计可学习、可归因的优化信号，让模型在交互过程中主动压缩、组织并保留最有助于任务完成的信息。

MemPO：引入 Memory-level 的优势估计，引导 Memory 保留有效信息

MemPO 采用 Multi-turn RL，Rollout 采样阶段，模型与外界进行多轮交互，每一轮交互模型都会生成历史上下文的 Memory。

优势计算时，MemPO 采用两类优势估计相结合的方式来得到最终结果。

Advantages of Global Trajectory 用以衡量轨迹整体的准确性，使用答案准确性和格式准确性来进行奖励计算：

此部分的优势估计可以表示为：

而 Advantages of Informative Memory 用以衡量每一段生成的 Memory 内保留了多少对于解决问题有效的信息。

其奖励计算通过已知 Memory 内容的情况下，生成最终正确答案的后验概率来表示：

其中，后验概率具体由正确答案 Token 概率的几何平均表示：

此部分的优势估计可以表示为：

这样，模型在训练的过程中就可以通过奖励的反馈情况来学习什么样的 Memory 内容是对于解决最终问题更加有效的，这样就大大缓解了 Memory 内容的不可控性和盲目性。

最终，整体的优势估计可以表示为：

实验结果

在多目标的 web search 数据集上，与基础的 ReAct、Agentic-RL 模型以及基于 RAG/RL 的 Memory 算法相比，MemPO 均取得了显著的 SOTA 性能，其中 Token 消耗降低为 ReAct 的 1/3，性能提升 3 倍。

〓主实验结果

MemPO 在提升样例正确答案条件概率的同时，显著增加了预测结果的准确率。在复杂的长程交互任务上，MemPO 显著提升了交互轮次与正确答案条件概率。

〓正确答案条件概率分桶样本数量分布（Ratio）/准确率（ACC）

〓交互轮次分桶样本数量分布（Ratio）/正确答案条件概率（Probability）

随着任务复杂度提升（Objective Number），MemPO 相比 GRPO 展现出更明显的优势。

在实验中发现，较为简单的任务需要更丰富的上下文信息，而在更为复杂的长程交互任务上，更多的历史交互上下文信息反而带来更多的干扰信息，导致性能下降。

〓消融分析— MemPO vs. GRPO (左) / Inference 历史上下文填充策略（右）

总结

MemPO 将 Memory 变成了可训练的策略变量，与模型的 Think 与、Action 进行联合优化。

通过把“写记忆”纳入强化学习的信用分配链路，MemPO 解决了长程交互里的难点——让模型知道哪些中间信息值得占用上下文预算、哪些噪声应该被主动丢弃。

最终使得上下文更短但信息密度更高，工具调用与回答更不容易跑偏，同时获得成本下降与性能上升的双重收益。

这也意味着，未来长程 Agent Memory 的关注点可能从“如何更好地检索历史”转向“能否用学习机制持续产出高质量、可控的内生记忆”。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴