随着大语言模型 Agent 开始在对话、问答与复杂交互环境中长期运行,“记忆该如何设计” 正在成为一个绕不开的核心问题。
- 论文标题:PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents
- 论文链接:https://arxiv.org/abs/2603.0329
- 微软研究院官方博客:https://msft.it/6017Qc9vv
- 作者单位:UIUC、清华大学、微软研究院
- 研究方向:LLM Agent・长期记忆・知识抽象・任务泛化
UIUC、清华、微软研究院联合提出:
一种 “可插拔” 的通用 Agent 记忆模块 PlugMem
来自UIUC、清华大学与微软研究院的研究团队,近日提出了一种面向LLM Agent 的任务无关记忆模块 PlugMem。该工作试图回答一个在 Agent 研究中反复出现、却始终没有统一答案的问题:
Agent 的长期记忆,究竟该 “存什么”,才能真正帮助它在不同任务中做出更好的决策?
在当前主流设计中,大多数 Agent 的记忆仍停留在 “存经历、再检索” 的范式:
要么把对话、轨迹、网页观察等原始内容直接存下来,要么在此基础上做简单压缩或检索增强(如 RAG、GraphRAG)。
问题在于,这类方法在任务切换时往往失效:
一个在长对话中表现良好的记忆机制,放到 Web Agent 或多跳问答中,几乎无法直接复用。
一个典型的失败场景:
Agent 记住了 “经历”,却忘了 “经验”
作者在论文中给出了一个极具代表性的隐含例子:
- 在长期对话中,Agent 多次与用户讨论饮食偏好
- 在网页任务中,Agent 多次成功完成 “搜索 — 筛选 — 下单” 的流程
但当 Agent 面临一个新任务时(比如推荐菜谱,或在陌生电商页面购物):
- 原始对话记录太长、太杂,直接检索会引入大量无关上下文
- 完整网页轨迹高度依赖具体页面结构,几乎无法迁移
真正对决策有帮助的,其实只是两类高度抽象的信息:
- 「用户是素食者、对乳制品过敏」(事实性知识)
- 「在电商页面中寻找最低价的一般流程」(可复用的行动策略)
但这些信息,往往并不存在于任何一条原始记忆中,而是分散在大量经历里。
PlugMem 的核心判断:
决策相关信息,应该以 “知识” 为单位被存储
基于这一观察,PlugMem 提出了一种与主流 Agent 记忆设计明显不同的思路:
记忆的基本单位,不应是 “文本” 或 “轨迹”,而应是 “可决策的知识”。
具体来说,系统将 Agent 的长期记忆明确拆分为三类:
- 情景记忆(Episodic):原始交互与行为轨迹,作为可追溯证据
- 语义记忆(Semantic):从经历中抽象出的事实性命题(knowing that)
- 程序记忆(Procedural):可跨任务复用的行动处方(knowing how)
与 GraphRAG 等方法不同,PlugMem 构建的并不是 “实体图” 或 “文本图”, 而是一个以命题(proposition)和处方(prescription)为节点的知识中心记忆图。
换句话说,Agent 检索的不是 “我曾经做过什么”,而是 “我已经学会了什么”。
一个关键技术细节:
同一套记忆结构,如何同时支持三类任务?
论文中一个很有说服力的点在于:
PlugMem 在不做任何任务特化修改的情况下,被直接用于三类差异极大的任务:
- 长时对话记忆(LongMemEval)
- 多跳知识问答(HotpotQA)
- Web Agent 决策(WebArena)
在每种任务中,系统会动态判断当前更需要哪一类记忆:
- 回忆具体经历 → 使用情景记忆
- 推理事实关系 → 使用语义记忆
- 执行复杂操作 → 使用程序记忆
而检索与推理始终围绕知识级节点展开,而不是原始文本。
评估与分析:
实验在回答哪些问题?
PlugMem 的实验设计,围绕三个明确的问题展开。这三个问题,分别对应 Agent 记忆系统中最关键、也最容易被混用的三个层面:通用性、因果结构,以及可迁移性。
RQ1:同一套记忆机制,
能否同时适用于不同类型的 Agent 任务?
第一个问题关注的是 PlugMem 的适用范围。
作者将同一个 PlugMem 实现,直接用于三类结构差异极大的任务:
- LongMemEval:强调跨轮次对话中的事实一致性
- HotpotQA:强调多跳知识检索与组合推理
- WebArena:强调交互式环境中的程序性操作
这些任务对记忆的需求并不相同:
有的依赖对过往事实的回忆,有的依赖知识之间的关联,有的则依赖对行动策略的复用。
实验结果显示,在三类任务中,PlugMem 都能够在提升任务表现的同时,显著降低 Agent 侧所消耗的记忆 token 数量。这表明,将记忆表示为知识级单元,有助于在不同任务中稳定提升单位记忆的决策价值。
这一结果为后续分析提供了基础前提:记忆的组织方式,会系统性地影响其在不同任务中的有效性。
一个中间视角:
如何比较不同任务中的 “记忆效率”?
在进一步分析之前,作者引入了一个统一的评估视角,用于衡量记忆系统在不同任务中的性价比。
具体而言,论文将记忆的作用表述为:在给定状态下,记忆对 Agent 正确决策概率所带来的信息增益,并将这一增益归一化到所使用的记忆 token 数量上。由此得到的 “信息密度” 指标,使得不同任务、不同记忆设计可以在同一尺度下进行比较。
这一评估框架,为后续的消融分析和跨任务比较提供了统一坐标系。
RQ2:结构化、检索与推理,
各自在记忆系统中起什么作用?
第二个问题关注的是 PlugMem 内部各组件的作用分工。
作者通过系统性的消融实验,分别移除结构化模块、检索模块和推理模块,观察性能与记忆消耗的变化。实验结果呈现出清晰的分工关系:
- 检索模块决定记忆是否能够被有效利用
当检索被移除后,记忆几乎无法在决策中发挥作用。
- 结构化模块决定检索到的内容质量
在缺少结构化的情况下,系统更容易检索到冗余、粒度不合适的原始信息,从而限制性能提升空间。
- 推理模块主要影响记忆使用效率
移除推理模块后,性能变化相对有限,但记忆 token 消耗显著增加,表明其主要作用在于压缩与整合。
这组实验明确区分了三个常被混为一谈的概念:
检索让记忆 “可达”,结构化让记忆 “可用”,推理让记忆 “省着用”。
RQ3:Agent 记忆能否作为可继承的经验,
在新任务中继续发挥作用?
第三个问题关注的是记忆的可迁移性。
在 WebArena 中,作者将任务划分为 online 与 offline 两个阶段:
Agent 只允许在 online 阶段写入记忆,而 offline 阶段则在基本冻结记忆的情况下进行评估。
这一设置刻意避免了通过重复试错积累熟练度的可能性,重点考察已有记忆是否能够支持新任务中的决策。
实验结果表明,即使在 offline 阶段,PlugMem 仍能显著提升任务成功率,尤其是在涉及多站点组合操作的任务中。这表明系统中存储的程序性与语义知识,能够被新的 Agent 实例直接复用,而不依赖于具体的交互轨迹。
小结
通过这三组问题,实验逐步澄清了 PlugMem 所刻画的 Agent 记忆形态:
- 记忆以知识为基本单位
- 决策相关信息可以在不同任务间复用
- 结构化与检索决定 “能否用”,推理决定 “如何高效地用”
在这一意义上,PlugMem 的实验不仅验证了方法本身,也为理解 Agent 长期记忆的设计与评估提供了一组清晰的分析视角。
总体来看,PlugMem 从记忆的基本单位、组织方式与评估视角三个层面,系统性地重审了 Agent 长期记忆这一问题。通过将经历抽象为可复用的语义与程序性知识,并在多类任务中进行统一评估,作者展示了一种更接近 “经验继承” 而非 “历史回放” 的 Agent 记忆形态。这一思路,也为后续构建可迁移、可积累经验的通用 Agent 提供了新的设计基线。
作者简介:
杨可,清华大学本科、UIUC计算机三年级博士生,主要研究AI agents、语言模型、信息检索与算法审计。本项目由其承担领导与主要写作工作,为排序第一作者,并与陈子曦、何宣、蒋积泽共同作为共同第一作者。该成果由UIUC、清华大学与微软研究院合作完成,并接受Michel Galley、汪成龙博士建议,得到高剑峰、韩家炜、翟成祥教授指导。
热门跟贴