如果你最近关注过 AI Agent 的发展,你会发现一个趋势,智能体越来越像“多线程程序”。它们会搜索网页、调用代码执行器、分析结果、再搜索、再分析……推理链条动辄几十步、上百步。每一步都会产生大量中间信息,搜索结果、网页片段、失败的尝试、错误的推断、临时的假设。
这些东西会被一股脑塞进大模型的上下文里。
于是问题来了——上下文爆炸。
当推理链条越拉越长,模型的上下文窗口就像被塞满的行李箱,开始出现各种“推理断裂”。
推着推着,模型突然忘了自己在干什么。 查着查着,它开始重复之前失败过的路径。 甚至有时候,它会被噪声信息带偏,走向完全错误的方向。
这不是模型“不聪明”,而是它被信息淹没了。
这就是大模型推理的第一大瓶颈: 推理痕迹、工具输出、失败尝试不断累积,最终反噬推理本身。
很多人会问,为什么不让 AI 用“记忆”来解决?
问题在于,现有的记忆机制根本不是为“推理”设计的。
跨任务记忆更像是“用户偏好存档”,适合长期个性化,但不适合任务内的复杂推理结构。 长时记忆擅长存储大量信息,却不理解“推理依赖”,它不知道哪些信息是关键链条、哪些只是噪声。 上下文压缩方法虽然能减少 token,但它只是工程优化,不具备“认知控制”能力,无法决定哪些推理路径应该被保留、哪些应该被抑制。
换句话说,它们都在“存东西”,但没有一个在“管理思考”。
而复杂推理真正需要的,是一种能理解推理结构、能主动调度信息的记忆系统。
近日,来自北京智源人工智能研究院(BAAI)与中国人民大学高瓴人工智能学院的联合团队提出AI 的“思考过程”管理工具:MemoBrain 。
MemoBrain 的突破点在于,它不是一个“记忆库”,而是一个“执行大脑”。
它提出了一个全新的概念:执行记忆(Executive Memory)。
这是一种只在任务内部存在、随着推理过程实时演化的记忆机制。它不是被动堆叠上下文,而是主动管理推理结构:
它会判断哪些推理步骤已经完成,可以折叠成一个更紧凑的结论; 它会识别哪些尝试已经无效,可以被冲刷成一个极简的占位符; 它会维护一个依赖图,让模型知道“当前推理依赖于哪些过去的结论”。
更重要的是,MemoBrain 是一个独立模型,与主推理代理并行运行。 主代理负责“思考”,MemoBrain 负责“管理思考”。
这就像给 AI 装上了一个“副驾驶”,专门负责保持推理链条的清晰、紧凑和目标一致。
MemoBrain 的作者来自两个方向截然不同但高度互补的机构。
北京智源人工智能研究院(BAAI)擅长大模型工程、系统设计、推理框架构建,是中国最早推动大模型开放生态的机构之一。 中国人民大学高瓴人工智能学院则在认知建模、推理结构、智能体行为机制方面有深厚积累。
一个负责“让系统跑起来”,一个负责“让系统更像人类思考”。 MemoBrain 正是这两种力量的结合产物。
01 执行记忆(Executive Memory):一种新的 AI 记忆范式
如果说传统记忆是“仓库”,那么执行记忆就是“前额叶皮层”。
它不是为了存储,而是为了控制。
执行记忆的定义
执行记忆的核心特征非常鲜明,它只在任务内部构建,不跨任务、不持久化。 它随着推理过程实时演化,像影子一样跟着智能体的每一步。 它不是被动记录,而是主动选择、压缩、抑制、调度信息。 它的目标不是“记住更多”,而是“让推理更清晰、更高效、更目标一致”。
这是一种完全不同于传统记忆的范式。
与传统记忆的对比
在理解 MemoBrain 的定位之前,我们不妨先看看它与传统记忆机制的根本差异。虽然“记忆”这个词在 AI 领域已经被频繁使用,但不同记忆系统的目标和能力其实完全不同。
跨任务记忆更像是一个长期档案库,它擅长记录用户偏好、历史经验、个性化信息,但它并不理解推理结构,也无法参与任务内部的逻辑组织。因此,它无法帮助智能体在复杂推理中保持链条清晰。MemoBrain 则完全不跨任务,它只关注当前推理过程本身,把全部能力都投入到“任务内推理结构管理”上。
长时记忆的优势在于容量大,能存储大量文档、对话或知识片段,但它的弱点也很明显:它不理解推理依赖关系。它不知道哪些信息是关键节点、哪些只是背景噪声。MemoBrain 的突破在于,它会主动构建推理依赖图,让每一步推理都能找到自己的“前因后果”。
上下文压缩方法则属于工程优化路线,它的目标是减少 token,而不是理解推理。它可以压缩文本,却无法判断哪些推理路径应该被保留、哪些应该被抑制。MemoBrain 则具备“执行控制”能力,能够主动管理推理结构,而不是被动压缩内容。
执行记忆的认知类比
如果你熟悉认知科学,会发现 MemoBrain 的设计非常接近人类大脑的执行功能。
它像前额叶皮层一样,负责任务管理、抑制无效路径、维持目标一致性,负责在复杂信息中保持清晰的推理主线。
它不是“记忆”,而是“思维的管理者”。
这正是 AI 在迈向更强推理能力时最缺失的一块拼图。
02MemoBrain 的整体架构与工作流程
图1:MemoBrain异步地将瞬态推理会话抽象为紧凑的、依赖感知的存储单元,并维护全局推理记忆。在达到内存预算后,它通过折叠或刷新过去的信息来构建内存管理的上下文,从而实现连贯的长期推理。
如果说传统的 AI 推理像一个人单线程地思考,那么 MemoBrain 的设计更像是给智能体配备了一个“副驾驶”。主代理继续负责推理、调用工具、执行任务,而 MemoBrain 则在旁边默默记录、整理、抽象、管理整个推理过程。两者之间不是主从关系,而是并行协作的“双脑结构”。
主代理负责“做事”,MemoBrain 负责“管理思考”。 主代理负责“行动”,MemoBrain 负责“组织行动的逻辑”。 主代理负责“往前走”,MemoBrain 负责“告诉它哪些路已经走过、哪些路不必再走”。
这种双模型协作的最大特点是异步性。MemoBrain 不会阻塞主代理的推理流程,它像一个后台线程,在推理进行的同时不断吸收新的推理片段,把它们转化为结构化的记忆单元,再根据需要对整个推理结构进行折叠、冲刷和重组。主代理不需要等待 MemoBrain 的“整理工作”,而 MemoBrain 也不需要干涉主代理的即时推理。
在这个双脑系统中,MemoBrain 的工作可以被拆解为两个核心流程:记忆构建与记忆管理。
记忆构建负责把推理过程中的每一个 episode 抽象成一个 thought,让推理轨迹从“文本堆叠”变成“结构化记忆”。 记忆管理则负责在上下文预算有限的情况下,决定哪些推理路径应该被保留、哪些应该被折叠、哪些应该被冲刷,从而保持推理链条的清晰与紧凑。
这两个流程共同构成了 MemoBrain 的“执行记忆系统”,让智能体在长程推理中不再被自己的思考过程拖垮。
03记忆构建:从推理 Episode 到 Thought 的抽象
要理解 MemoBrain 如何构建记忆,我们需要先看看它如何看待“推理 episode”。在传统的 ReAct 或工具增强推理中,一个 episode 通常包含两类信息:执行级信息和语义级结果。
执行级信息包括工具调用、网页内容、搜索结果、代码输出等。这些信息往往冗长、噪声多、结构混乱,但又是推理过程中不可避免的“原材料”。 语义级结果则是本轮推理真正的“产出”,例如“找到了某个证据”“确认了某个假设”“排除了某条路径”。
MemoBrain 的第一步,就是把这两类信息分离开来。
它不会把执行级信息原样塞进记忆里,而是只保留语义贡献。换句话说,它不关心你搜索了多少网页、看了多少段落、尝试了多少失败路径,它只关心你最终得到了什么结论、解决了哪个子问题、依赖了哪些已有信息。
这一步的产物,就是所谓的 thought——一个紧凑、抽象、结构化的记忆单元。
每个 thought 都像是推理过程中的一个“节点”,记录着:
这一步解决了什么子问题 它依赖了哪些之前的 thought 它为后续推理提供了什么新的信息
这让推理过程不再是线性的文本堆叠,而是逐渐形成一个 directed memory graph——一个有向的推理记忆图。
在这个记忆图中,每个 thought 都有自己的“前因后果”。 有的 thought 是关键节点,决定着推理的主线。 有的 thought 是探索性尝试,可能最终被折叠或冲刷。 有的 thought 是分支路径,为后续推理提供备用方案。
最重要的是,MemoBrain 不只是记录这些 thought,它理解它们之间的依赖关系。这意味着它不仅知道“发生了什么”,还知道“为什么会发生”“接下来应该发生什么”。
这正是执行记忆区别于传统记忆的关键所在。
04记忆管理:FOLD / FLUSH 的执行控制机制
如果说记忆构建让 MemoBrain 能“看懂”推理过程,那么记忆管理就是让它能“管理”推理过程。长程推理的最大敌人不是模型不够聪明,而是上下文预算永远有限。推理轨迹越长,噪声越多,模型越容易迷失在自己制造的文本洪流里。
这就像一个人思考问题时,脑海里不断冒出各种想法、尝试、假设、失败路径。如果没有一个执行系统来清理、压缩、筛选,这些信息最终会把思维本身拖垮。
MemoBrain 的记忆管理机制,就是为了避免这种“推理拥堵”。
它必须主动决定:哪些信息值得保留,哪些应该被折叠,哪些必须被丢弃。 它必须在有限的上下文里,维持推理链条的清晰与紧凑。 它必须像一个真正的“执行大脑”一样,保持任务目标不被噪声淹没。
于是,FOLD 和 FLUSH 两个核心操作登场了。
FOLD:折叠已解决的子任务
FOLD 是 MemoBrain 最具“执行功能”色彩的操作。它的目标非常明确:把已经解决的子任务从推理上下文中“折叠”起来。
当 MemoBrain 识别到某段推理子轨迹已经得到明确结论时,它会把这段轨迹整体压缩成一个 summary thought。 原本可能包含十几步搜索、分析、尝试、验证的过程,会被浓缩成一句话式的结论。
这就像程序执行完一个函数后,把整个调用栈折叠,只保留返回值。 过程不再重要,结论才是关键。
FOLD 的价值在于,它能让推理上下文保持轻盈。 它能让模型不再被过去的细节拖住脚步。 它能让推理主线更加突出。
在长程推理中,这种“折叠能力”几乎是生存必需品。
FLUSH:冲刷无效或过时的推理
如果说 FOLD 是“压缩成功路径”,那么 FLUSH 就是“清理失败路径”。
推理过程中总会出现各种尝试: 搜索错了方向、分析了无关内容、验证了错误假设…… 这些信息如果一直留在上下文里,只会成为噪声。
MemoBrain 会识别这些无效、过时、被覆盖的推理步骤,并将它们替换成一个极简 thought。 这个 thought 不包含任何执行细节,只保留一个“我尝试过,但没用”的标记。
这样做有两个好处,它避免模型重复探索同样的错误路径,它让上下文保持干净,不被无效信息污染。
FLUSH 的存在,让 MemoBrain 不只是“压缩”,而是“清理”。 它让推理过程更像人类的思考:失败尝试会被快速归档,而不是永远占据注意力。
上下文重组:让推理重新变得清晰
当 FOLD 和 FLUSH 完成后,MemoBrain 会根据更新后的记忆图重新构建上下文。
它会保留所有 active thoughts,也就是仍然参与当前推理的关键节点。 它会丢弃或折叠掉所有不再必要的内容。 它会把整个推理上下文重新组织成一个紧凑、逻辑化、目标一致的结构。
最终呈现给主代理的,不再是冗长的推理日志,而是一条清晰的推理主线。
这一步的意义非常重大!它让智能体在长程推理中保持“思维清醒”。 它让模型不再被自己的历史信息拖垮。 它让推理过程真正具备“执行控制能力”。
05训练策略:SFT + DPO 的两阶段优化
要让 MemoBrain 具备这样的执行能力,仅靠规则或启发式方法是不够的。它需要学习,需要训练,需要在大量推理数据中理解“什么是重要的推理结构”。
MemoBrain 的训练分为两个阶段:记忆构建的监督学习(SFT)和记忆管理的偏好优化(DPO)。
阶段一:记忆构建的监督学习(SFT)
在第一阶段,MemoBrain 学习如何把推理 episode 抽象成 thought。
研究团队使用强大的教师模型生成高质量的 thought 标注,让 MemoBrain 学会:
如何从执行级信息中提取语义贡献 如何判断一个 episode 的核心结论是什么 如何构建结构化的 thought
这一阶段的目标是让 MemoBrain 具备稳定、可靠的抽象能力。 它不需要做决策,只需要学会“看懂推理”。
阶段二:记忆管理的偏好优化(DPO)
第二阶段才是执行记忆真正的灵魂所在。
记忆管理不是一个简单的分类任务,而是一个复杂的决策问题。 它需要在“压缩”与“保留”之间做权衡。 它需要理解推理结构,判断哪些路径是关键链条,哪些可以被折叠或冲刷。
研究团队使用 DPO(Direct Preference Optimization)来训练 MemoBrain 的决策能力。
他们会为同一个记忆状态生成多个候选操作集(不同的 FOLD/FLUSH 组合),然后观察这些操作对后续推理质量的影响。 表现更好的操作集被标记为“偏好”,表现差的被标记为“非偏好”。
MemoBrain 就是在这种“偏好对比”中学会了如何做出最优的记忆管理决策。
这让它不仅能抽象推理,还能真正“管理推理”。
06实验结果:执行记忆的系统级价值
研究团队没有停留在“理论创新”层面,而是把 MemoBrain 严格放进真实的长程推理场景里,与当前最强的工具增强智能体正面较量。
结果非常直接,执行记忆不是锦上添花,而是雪中送炭。
表1:主要实验结果。最佳分数以粗体显示,次佳分数以下划线显示。我们报道Pass@1.标有†的结果引用自原始论文。MemoBrain结果是通过将MemoBrain-8B整合到相应的基础试剂(GLM-4.6和DeepResearch-30B-A3B)中获得的。
基准任务:三大长程推理试炼场
为了验证 MemoBrain 的价值,研究团队选择了三个风格迥异、难度极高的 benchmark,它们共同构成了当今 AI 长程推理的“试炼三角”。
GAIA 是一个典型的多步骤推理任务,问题往往需要跨越多个知识点、多个推理阶段,甚至需要反复验证假设。它考验的是智能体的“推理深度”。
WebWalker 则是网页跳转推理任务,要求智能体在多个网页之间跳转、提取信息、整合证据。它考验的是“信息导航能力”。
BrowseComp-Plus 是密集检索 + 推理任务,智能体需要在固定网页库中进行多轮检索、比对、筛选、推断。它考验的是“工具调用密度”和“推理链条长度”。
这三个任务共同覆盖了长程推理的核心挑战: 推得深、走得远、查得多。
执行记忆带来的不是小修小补,而是系统级提升
实验结果非常清晰,MemoBrain 显著提升了GLM-4.6 和 DeepResearch-30B-A3B 两大强力智能体的整体表现。
更有意思的是,提升幅度并不是平均分布的,而是呈现出一种“越难越强”的趋势。
在 GAIA 的 L3 难度上,MemoBrain 的提升最为明显。 在 BrowseComp-Plus 这种密集检索场景中,MemoBrain 的优势也被完全放大。 在工具调用频繁、推理链条极长的任务中,MemoBrain 的表现尤为突出。
这说明一个关键事实,执行记忆的价值在于处理复杂推理,而不是简单任务。
换句话说,MemoBrain 不是为了让模型“更聪明”,而是为了让模型“在复杂环境中不崩溃”。
这也从侧面证明了一个重要观点,执行记忆是未来 agent 的关键组件,而不是可选插件。
图2:MemoBrain的消融研究。所有实验都是在BrowseComp Plus中随机抽取的100个实例上进行的,使用DeepResearch30B-A3B作为基础推理代理。
执行记忆不是压缩工具,而是推理控制器
很多人看到 MemoBrain 的 FOLD 和 FLUSH 操作,可能会误以为它只是一个“更聪明的上下文压缩器”。但实验结果告诉我们,它远不止如此。
传统压缩工具的目标是减少 token。 MemoBrain 的目标是保持推理链条的稳定性。
传统压缩工具是被动的。 MemoBrain 是主动的。
传统压缩工具不理解推理结构。 MemoBrain 通过结构化记忆图理解推理的“因果链”。
这就是为什么 MemoBrain 能解决长程推理中最核心的问题: 上下文崩溃(context collapse)。
图3:MemoBrain的效率分析。在32K内存预算下,使用4×H100 GPU用于推理模型,2×H100 GPUs用于内存模型,批量大小为8,对完整BrowseComp Plus基准进行端到端运行时统计。
当推理链条越来越长、工具调用越来越密集、噪声越来越多时,传统智能体会逐渐迷失方向。 而 MemoBrain 会不断清理、折叠、重组推理结构,让智能体始终保持“思维清醒”。
这不是压缩,这是执行控制。 这不是优化,这是认知升级。
07MemoBrain 的意义
MemoBrain 的提出不仅仅是一个新模块的诞生,更像是智能体架构的一次范式转变。它让我们第一次意识到AI 的推理能力,不仅取决于模型本身,还取决于它如何管理自己的思考过程。
记忆从“存储”走向“执行”
MemoBrain 最大的贡献,是把“记忆”从一个存储机制提升为一个执行控制机制。
它让智能体具备类似人类前额叶皮层的能力,管理任务、抑制噪声、保持目标一致、维护推理链条。
它让长程推理不再依赖“更大的上下文窗口”,而是依赖“更聪明的上下文管理”。
它让推理过程从线性文本堆叠,变成结构化的因果链条。
这是一种认知层面的升级。
未来属于多模型协作
MemoBrain 的成功说明了一个趋势,未来的智能体不会是一个大模型,而是多个模型的协作系统。
主代理负责推理 执行记忆负责管理推理 工具负责提供外部能力 调度器负责协调流程
执行记忆将成为 agent 的标准组件,就像 GPU 是深度学习的标准硬件一样。
而推理结构化,将成为下一代 agent 的核心能力。
执行记忆的进化之路
MemoBrain 只是执行记忆的第一代形态,未来还有很多值得探索的方向。
更细粒度的推理依赖建模,让记忆图更像人类的思维结构。 多代理共享执行记忆,让协作智能体拥有共同的“任务理解”。 执行记忆与长期记忆的融合,让智能体既能记住过去,又能管理现在。 记忆管理的可解释性与可控性,让人类能够理解智能体的“思维过程”。
这些方向共同指向一个未来: AI 不只是“会算”,而是“会思考、会管理思考”。(END)
参考资料:https://arxiv.org/pdf/2601.08079
关于波动智能——
波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系,融合人工智能与意识科学,构建覆盖情绪识别、建模与推荐的智能引擎,自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法,形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”,其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构,赋能企业实现更高效的用户洞察与精准情绪交互,推动从功能驱动到意图驱动的产业范式升级。
亲爱的人工智能研究者,为了确保您不会错过*波动智能*的最新推送,请星标*波动智能*。我们倾心打造并精选每篇内容,只为为您带来启发和深思,希望能成为您理性思考路上的伙伴!
加入AI交流群请扫码加微信
热门跟贴