人工智能的叙事正在悄悄换轨。过去几年,行业沉浸在“更大模型、更高分数”的狂热里,仿佛只要参数堆得够高、benchmark 刷得够亮,智能体就能自动跨入通用智能的门槛。但当模型能力逼近平台期,现实世界的复杂性却开始反向压迫整个技术体系:任务变长、环境变乱、用户变得不可预测,智能体必须在持续交互中保持稳定、连贯、可控。

在这样的背景下,记忆从一个“附属模块”跃升为基础智能体的核心能力。它不再是锦上添花,而是决定智能体能否真正进入“下半场”的关键变量。

打开网易新闻 查看精彩图片

图1:基础智能体记忆路线图。展示基础代理记忆框架趋势的时间线,按记忆基质和主题(以用户或代理为中心)分类。

01记忆成为基础智能体“下半场”的关键变量

当 AI 从单轮问答走向多轮协作,从静态任务走向动态环境,从一次性推理走向长时执行,模型的上下文窗口再大,也终究无法承载真实世界的复杂性。用户的偏好会变化,任务会跨天跨周,环境会不断更新,智能体必须在不断累积的信息洪流中保持稳定、连贯、可控。

这正是记忆的价值所在。

它让智能体不再是“每次都从零开始的聊天机器人”,而是一个能理解你、记住你、陪伴你、并在任务中不断成长的长期伙伴。随着任务从短期推理转向长时执行,记忆成为连接模型能力与真实世界效用的桥梁。没有记忆,智能体只能在有限的上下文里挣扎;有了记忆,它才能真正跨越会话、跨越任务、跨越时间。

这也是为什么 2025 年开始,记忆相关研究呈现爆发式增长。基础智能体的竞争,已经从“谁的模型更大”转向“谁的记忆更聪明”。

近日发布的《Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey》这篇综述由来自 27 家国际顶尖高校与产业机构的研究者共同完成,阵容横跨北美、欧洲与亚洲,几乎覆盖当前全球最强的 AI 研究力量。学术机构包括 伊利诺伊大学厄巴纳-香槟分校(UIUC)、斯坦福大学(Stanford)、加州大学洛杉矶分校(UCLA)、剑桥大学(Cambridge)、哈佛大学(Harvard)、南洋理工大学(NTU)、埃默里大学(Emory)、亚利桑那州立大学(ASU) 等世界级名校;产业机构则来自 Salesforce(赛富时)、Google(谷歌)、Meta(原 Facebook)、Roblox(罗布乐思)、Cisco(思科)、Capital One(第一资本银行) 等全球科技巨头。

这支跨机构、跨学科、跨地域的团队共同推动了基础智能体记忆机制的系统化研究,也让这篇综述成为当前智能体记忆领域最具代表性的国际协作成果之一。

项目地址为:https://github.com/AgentMemoryWorld/Awesome-Agent-Memory

该仓库收录了 200+ 记忆系统综述,是当前最系统的智能体记忆研究索引库。

02基础智能体记忆的三维统一框架

为了理解智能体记忆的全貌,综述提出了一个极具系统性的三维框架:记忆载体、认知机制、记忆主体。这三个维度共同构成了基础智能体记忆系统的“骨架”,也为未来的记忆架构设计提供了清晰的坐标系。

打开网易新闻 查看精彩图片

图2:Foundation Agent记忆的分类。基础试剂的记忆基质(所代表的形式)包括内部和外部记忆。在记忆认知机制(记忆如何运作)的视角下,记忆分为情景记忆、语义记忆、感觉记忆、工作记忆和程序记忆。基于记忆主体(受支持者),记忆被分为以用户为中心和以代理为中心的视角。

记忆载体:智能体的“存储介质”

记忆首先要有地方放。基础智能体的记忆载体大致分为三类。

内部记忆是模型自身的记忆,包括权重中的知识、隐状态中的短期信息、KV Cache 中的即时上下文。它速度快、耦合紧,但难以更新,也无法跨会话持久保存。

外部记忆则是智能体的“外接硬盘”,包括向量数据库、结构化知识库、层级化的记忆树等。它容量大、可编辑、可持久化,但检索质量和延迟是关键挑战。

混合记忆正在成为主流趋势。内部记忆负责即时推理,外部记忆负责长期积累,两者通过检索、压缩、反思等机制协同工作,形成类似人类“短期记忆 + 长期记忆”的双系统结构。

打开网易新闻 查看精彩图片

图3:2023年第一季度至2025年第四季度期间,LLM智能体中与记忆相关研究的累积发表趋势。图中展示了所收集的218篇论文在三个关键维度上的分布:记忆载体(左)、记忆认知机制(中)以及记忆主体(右)。阴影区域标示了2025年研究产出显著加速的阶段。

认知机制:记忆的“功能分工”

记忆不仅要存,还要“会用”。综述借鉴认知科学,将智能体的记忆功能划分为五类,每一类都对应着智能体在真实任务中的一种能力。

感官记忆负责短暂缓存视觉、音频等原始输入,让智能体能在多模态环境中保持连续性。

工作记忆是智能体的“思考空间”,用于在线推理、规划、工具调用,是执行复杂任务的核心。

情节记忆记录发生过的事件、对话、任务轨迹,是跨会话一致性和长期协作的基础。

语义记忆则是智能体的“知识库”,存储抽象概念、事实、规则,支持跨任务迁移。

程序性记忆负责技能与策略的积累,让智能体能在反复执行中形成稳定的 workflow 与操作习惯。

这五类记忆共同构成了智能体的“认知结构”,让它不仅能记住信息,还能在任务中灵活调度、推理和应用。

打开网易新闻 查看精彩图片

图 4:基础智能体记忆系统的分类体系。

记忆主体:记忆“为谁服务”

记忆不是抽象存在,它总是服务于某个主体。综述将主体分为两类。

用户中心的记忆关注用户的偏好、身份、历史行为、长期目标,是个性化体验的基础。一个能记住你旅行偏好、写作风格、工作习惯的智能体,才算真正“懂你”。

代理中心的记忆则关注智能体自身的成长,包括技能、策略、经验、世界模型。它让智能体能在任务中不断学习、优化、反思,形成类似“经验值”的累积。

这两类记忆共同构成了智能体的“内外双循环”:对外理解用户,对内提升自己。

打开网易新闻 查看精彩图片

图5:记忆认知机制与记忆主体之间的联系。每个集群对应于以主体或用户为中心的记忆工作的记忆认知机制(感官、工作、语义、情景、程序)的论文数量,面积大小与论文数量成正比。

03基础智能体记忆的操作机制

当智能体开始在真实环境中执行任务,它的记忆不再是静态存储,而是一条不断流动的操作流水线。每一次写入、检索、更新、压缩与遗忘,都是智能体在“思考”和“成长”的过程。

打开网易新闻 查看精彩图片

图6:Foundation Agent内存系统的操作机制。该图说明了foundation agent存储系统的完整操作机制。对于单代理系统,它定义了五个核心操作:存储和索引、加载和检索、更新和刷新、压缩和摘要以及遗忘和保留,这些操作控制着如何保存和访问历史信息以支持下游工作。对于多代理系统,该框架通过内存架构定义、路由协议以及隔离和冲突解决策略来解决协调挑战,确保分布式代理之间的数据一致性和高效协作。

单智能体的记忆操作流水线

记忆的第一步是写入。智能体需要判断哪些信息值得留下:用户的偏好?任务的关键节点?失败的原因?成功的策略?写入不是简单的记录,而是一次“选择性注意”。

接下来是检索。智能体必须在海量历史中找到当前任务真正需要的那一小部分信息。检索的质量直接决定智能体的表现:检索错了,智能体就会答非所问;检索不到,它就会像失忆一样重复犯错。

更新是智能体的“自我修正”。当任务状态变化、用户偏好改变、环境发生偏移,智能体必须及时刷新记忆,否则就会陷入过时信息的陷阱。

压缩是记忆系统的“减肥术”。随着交互变多,记忆会迅速膨胀,智能体必须学会把冗余内容合并,把长对话总结成短语,把复杂轨迹提炼成策略。

遗忘则是最被低估的能力。没有遗忘,记忆会变成垃圾堆;有了遗忘,智能体才能保持轻盈、敏捷、可控。

综述强调,记忆的生命周期必须与任务耦合。智能体不是机械地存取,而是根据任务阶段、目标变化、环境反馈动态调整记忆策略。这种“任务驱动的记忆调度”正在成为下一代智能体的核心能力。

多智能体系统中的记忆协作

当多个智能体开始协作,记忆不再是单体问题,而是一个复杂的“知识流动系统”。

私有记忆是每个智能体的“个人经验库”。它记录各自的技能、偏好、失败教训,确保每个智能体都有独立的行为风格。

共享记忆则像团队的“公共白板”。任务目标、环境状态、关键决策都需要在共享空间中同步,让所有智能体保持一致的世界观。

协调式记忆是更高阶的结构。它由一个“调度者”负责管理不同智能体的记忆访问权限,决定谁能写、谁能读、谁能修改,避免冲突和混乱。

记忆冲突是多智能体系统的常见问题。例如两个智能体对同一事件的理解不同,或者一个智能体写入了另一个无法接受的策略。权限控制和角色分工因此变得至关重要。

记忆路由则决定知识如何在智能体之间流动。是广播式同步?还是按需分发?是由调度者统一管理?还是智能体之间点对点交流?不同的路由方式会直接影响系统的效率与稳定性。

综述指出,多智能体记忆协作将成为未来复杂系统(如科研助手、企业级 AI、机器人群体)的关键基础设施。

打开网易新闻 查看精彩图片

图7:Foundation Agent记忆系统的学习策略。我们说明了学习策略如何指导代理决定存储什么、何时存储、如何表示以及何时何地检索或丢弃记忆。该图总结了三种常见的方法,包括提示、微调和强化学习,这些方法逐步将记忆决策从不精确的记忆管理提高到有效和准确的记忆管理。

04记忆策略的学习:从提示工程到自进化

记忆不是死的,它需要策略。而策略不是写死的,它需要学习。综述把记忆策略的演化分成三个阶段:提示工程、参数化学习、强化学习。

基于提示的记忆策略

提示工程是最早期的记忆策略。静态提示告诉智能体“你应该记住什么”,例如“请总结用户偏好并存入记忆”。这种方式简单直接,但缺乏灵活性。

动态反思与自我修正是提示策略的升级版。智能体会在任务结束后反思:“我哪里做得不好?哪些信息应该写入记忆?”这种机制让智能体具备了最初级的“自我改进能力”。

提示策略的优势是可控、可解释,但缺点也明显:策略不稳定、难以适应复杂环境。

基于微调的参数化记忆

当记忆策略被写入模型权重,智能体就拥有了“内化的记忆能力”。它不再依赖提示,而是通过训练学会何时写入、如何总结、如何检索。

这种方式让记忆操作变得更自然、更高效,但也带来了新的挑战:稳定性与可控性。记忆策略一旦写进权重,就不容易修改;如果策略学偏了,智能体可能会出现“过度记忆”或“错误记忆”的问题。

综述提到,参数化记忆正在成为主流趋势,但仍需要更强的安全机制与可解释性工具。

强化学习驱动的记忆策略

强化学习让记忆策略真正进入“自进化时代”。在这种框架下,记忆操作被视为动作,智能体通过长期奖励来学习最优策略。

它会自主探索什么时候该记?记什么最有价值?哪些信息应该被遗忘?如何压缩才能保留关键知识?

强化学习的优势在于它能优化长期收益,而不是短期表现。这意味着智能体可以通过大量交互逐渐形成成熟的记忆体系,甚至发展出类似人类的“经验积累能力”。

综述认为,强化学习将成为未来记忆系统的关键方向,因为它让智能体真正具备了“学习如何学习”的能力。

05记忆的规模化挑战:上下文、环境与多模态

当智能体从实验室走向真实世界,记忆系统面临的挑战不再是“能不能记”,而是“记得动、记得稳、记得对”。规模化带来的压力来自三个方向:上下文、环境、多模态。

上下文长度的极限与突破

上下文窗口的扩展曾被视为解决记忆问题的“蛮力方案”。从几千 token 到几十万 token,再到百万级上下文,模型似乎越来越“能记”。但综述指出,这种扩展很快触及两个瓶颈:

一是成本。长上下文意味着更高的计算开销,推理成本呈指数级增长。

二是噪声。上下文越长,模型越容易被无关信息干扰,检索难度也随之上升。

因此,真正的突破不在于“无限扩窗”,而在于“智能调度”。智能体需要学会把上下文当作资源,而不是垃圾桶:哪些信息应该进入工作记忆?哪些应该进入长期记忆?哪些应该被压缩?哪些应该被遗忘?这是一套动态的、策略性的、任务驱动的记忆管理体系。

上下文不再是“越长越好”,而是“越精准越好”。

真实世界环境的复杂性

实验室里的智能体面对的是干净、静态、可控的环境;现实世界则完全不同。

任务是开放的,目标是模糊的,信息是动态的,用户是多变的,工具是异构的,环境是不可预测的。

智能体必须在这样的环境中持续运行,而记忆系统必须承担起“稳定器”的角色:

它要记录环境状态的变化,让智能体不会在下一步突然“失忆”; 它要保存任务链条,让智能体不会在长流程中迷路; 它要追踪用户行为,让智能体能在混乱中保持一致性。

综述强调,真实世界的复杂性让记忆不再是“存储问题”,而是“系统问题”。记忆必须与规划、工具调用、感知、执行深度耦合,成为智能体的核心循环的一部分。

多模态、具身智能体与世界模型的记忆需求

当智能体开始拥有视觉、听觉、动作能力,甚至能在虚拟或物理世界中移动时,记忆的维度瞬间扩张。

视觉帧需要短暂缓存,形成感官记忆; 动作序列需要记录,形成程序性记忆; 环境变化需要建模,形成世界模型记忆; 多模态信息需要对齐,形成统一的语义记忆。

具身智能体的记忆系统更像是“神经系统”,而不是“数据库”。它必须实时响应、持续更新、跨模态整合,并在复杂的感知-行动循环中保持稳定。

综述指出,多模态与具身智能体将推动记忆系统从“文本中心”走向“世界中心”,这是未来几年最重要的技术趋势之一。

06记忆系统的评测体系

记忆系统的评测一直是行业的痛点。传统的 NLP 指标无法衡量智能体在真实世界中的长期表现,而记忆系统的好坏往往只有在长时间、多任务、多会话的场景中才能显现。

综述将评测体系拆解为四类指标,构成一个更贴近真实应用的评估框架。

准确性指标

这是最直观的一类,包括记忆召回是否正确、事实是否被准确提取、用户偏好是否被正确识别、任务状态是否被正确记录,它衡量的是“记得对不对”。

但综述指出,准确性只能评估“静态记忆”,无法评估记忆的动态行为。

相似度指标

这类指标用于衡量记忆内容与原始信息的相似程度,例如ROUGE、BLEU、BERTScore、embedding 相似度。

它衡量的是“记得像不像”。

但相似度高不代表记忆有用,甚至可能意味着智能体“记得太多”,缺乏抽象能力。

LLM-as-a-Judge

随着任务变复杂,人工评估成本高昂,LLM-as-a-Judge 成为主流趋势。它可以评估记忆是否被正确使用,记忆是否提升了任务表现,记忆是否保持一致性,记忆是否符合用户意图,它衡量的是“记得是否有价值”。

综述指出这类评估更贴近真实任务,但也依赖评审模型的质量。

真实世界任务评测的缺口

尽管已有大量指标,但综述强调,当前评测体系仍然缺乏对以下能力的衡量长期一致性,多会话稳定性,任务链条的连续性,记忆的可控性与安全性,记忆在复杂环境中的鲁棒性,多模态与具身场景下的记忆表现。

换句话说,行业仍缺少“真实世界级”的记忆 benchmark。

综述呼吁构建跨天、跨任务、跨工具、跨模态的评测体系,让记忆系统真正接受“实战检验”。

07基础智能体记忆的应用版图

当记忆能力从实验室走向真实世界,它的价值开始在各个行业中显现。综述列出的 12 大应用领域,几乎覆盖了所有需要长期交互、复杂任务链条、个性化体验的场景。

打开网易新闻 查看精彩图片

图 8:基础智能体记忆系统的应用场景。该图展示了基础智能体记忆系统的主要应用领域,包括教育、科学研究、游戏与模拟、机器人、对话系统、医疗健康、工作流自动化、软件工程、在线流媒体与推荐系统、信息检索、金融与会计,以及法律与咨询等方向。

教育领域的智能导师不再是“答题机器”,而是能记住学生的知识薄弱点、学习节奏、兴趣偏好,甚至能跨学期追踪成长轨迹的“长期陪伴者”。记忆让教育 AI 从工具变成伙伴。

科研领域的智能研究助手需要跨文献、跨实验、跨项目地积累知识。没有记忆,它只能重复检索;有了记忆,它能形成自己的“研究语境”,甚至能在长期项目中保持一致的推理风格。

机器人与具身智能体的记忆更像是“世界模型的延伸”。它们必须记住空间结构、任务步骤、失败原因、环境变化,才能在物理世界中稳定运行。

医疗场景对记忆的要求极高。智能体需要理解患者的长期病史、用药记录、生活习惯、诊疗反馈,才能提供真正个性化的辅助决策。记忆在这里不仅是效率问题,更是安全问题。

推荐系统的记忆能力决定了它能否理解用户的长期兴趣,而不是只靠短期行为做“即时推荐”。记忆让推荐从“猜你喜欢”变成“懂你是谁”。

金融领域的智能体需要跨交易周期、跨市场状态、跨风险事件地积累经验。记忆让它能识别长期模式,而不是被短期噪声牵着走。

软件工程与工作流自动化的智能体需要记住项目结构、代码风格、历史 bug、团队习惯,才能真正成为“工程协作者”而不是“代码生成器”。

这些应用共同指向一个事实,记忆是智能体从“工具”走向“角色”的关键。只有能记住、能理解、能延续,智能体才能真正融入人类的工作与生活。

打开网易新闻 查看精彩图片

图 9:基础智能体记忆的未来方向与挑战。该图强调了未来智能体记忆研究中的关键机遇,包括面向自进化智能体的记忆、多智能体记忆组织、人机协作记忆、记忆效率优化、面向多模态与具身智能体的记忆、持续学习记忆、终身个性化记忆,以及真实世界基准测试与评估体系的构建。

08未来走向“可持续、自进化、可信赖”的智能体记忆

综述在未来方向的部分呈现出一种非常明确的趋势,记忆系统正在从“工程模块”走向“生态系统”。未来的智能体记忆将具备可持续性、自进化能力、可信赖性,并且能够在复杂环境中稳定运行。

持续学习与自进化记忆是第一条主线。智能体不能永远依赖人工提示或静态规则,它必须学会在长期交互中自主调整记忆策略:哪些信息值得保留?哪些应该被压缩?哪些必须遗忘?这种自进化能力将决定智能体能否在真实世界中长期生存。

多人多智能体的记忆组织是第二条主线。当智能体开始协作,记忆不再是单体问题,而是一个“知识流动系统”。团队智能体需要共享任务状态、同步环境理解、协调策略分工,同时保持各自的私有记忆。这种“群体记忆结构”将成为未来企业级 AI 的基础设施。

记忆基础设施与效率优化是第三条主线。随着记忆规模不断膨胀,如何构建高效、低延迟、可扩展的记忆系统,将成为工程层面的核心挑战。未来的记忆系统可能会像数据库一样拥有自己的“索引、缓存、分片、压缩、调度”机制。

隐私、安全与可信记忆是第四条主线。用户中心的记忆必须可控、可审计、可删除、可隔离。智能体不能“记太多”,也不能“记错人”。可信记忆将成为智能体能否进入医疗、金融、政务等高敏感领域的关键门槛。

多模态与具身智能体的记忆是第五条主线。随着智能体拥有视觉、听觉、动作能力,记忆将从文本扩展到世界模型。它需要记住空间、物体、动作、反馈、环境变化,形成类似“感知—行动—记忆”的闭环。

真实世界评测体系的构建是第六条主线。当前的 benchmark 无法衡量智能体在长期任务中的表现。未来需要跨天、跨任务、跨工具、跨模态的评测体系,真正检验记忆系统的稳定性、鲁棒性与价值。

这些方向共同指向一个未来图景:智能体的记忆系统将成为 AI 的“第二大脑”,负责长期理解、经验积累、策略演化与世界建模。它不仅决定智能体能否完成任务,更决定它能否在真实世界中“活得久、活得稳、活得好”。(END)

参考资料:https://arxiv.org/abs/2602.06052

打开网易新闻 查看精彩图片

关于波动智能——

波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系,融合人工智能与意识科学,构建覆盖情绪识别、建模与推荐的智能引擎,自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法,形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”,其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构,赋能企业实现更高效的用户洞察与精准情绪交互,推动从功能驱动到意图驱动的产业范式升级。

亲爱的人工智能研究者,为了确保您不会错过*波动智能*的最新推送,请星标*波动智能*。我们倾心打造并精选每篇内容,只为为您带来启发和深思,希望能成为您理性思考路上的伙伴!

加入AI交流群请扫码加微信