大家比较的,可能已经不再只是模型强不强、代码好不好,而是它能不能把经历变成经验,把“记住”变成“会用”。
作者 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
大家最早讨论 OpenClaw 时,记忆几乎总被当成它和普通聊天机器人的分界线。
它有 workspace,有 MEMORY.md,有 daily memory,也有一整套试图把智能体变成“长期协作者”的结构。和那些一问一答、对话结束就几乎归零的模型相比,它看上去更像一个能持续做事的系统。
但很快,记忆也成了围绕它最密集的抱怨来源。
不会经常存,不会稳定取,反复读、反复压缩、反复试错。明明已经踩过的坑,下一次还会再踩一遍;明明已经讲过的背景,过一轮任务又得重新交代。记忆原本是它最被期待的一部分,最后也成了它最早暴露问题的一部分。
近日笔者整理文章时,正好遇到了 OpenClaw 在对话中途因上下文过载突然“断线”。这就像一个原本和你并肩赶路、聊得热火朝天的挚友,在眨眼间眼神忽然空洞。他依然维持着那个礼貌的坐姿,却在下一秒开口时,用那种客气而冰冷的陌生语调问你:“你好,请问有什么可以帮您?”
在那一刻,你们共同度过的几个小时,连同那些默契与共鸣,都被彻底格式化成了一片白噪音,实在是细思极恐。
这当然不只是 OpenClaw 的问题。当 Agent 开始真正进入长期任务、长期协作,甚至多 Agent 配合的场景之后,一个更底层的分界线开始浮现:大家比较的,可能已经不再只是模型强不强、代码好不好,而是它能不能把经历变成经验,把“记住”变成“会用”。
聚焦 OpenClaw 引爆的智能体革命,我在 CSDN 最新一期《AI 进化论》直播里,对话了两位能解答这些问题的专家:记忆张量 MemTensor 应用算法负责人、MemOS OpenClaw 项目技术负责人唐波和奇点智能研究院 AI 辅助软件开发咨询师、《氛围编程》作者伍斌。
这一期,我们表面上聊的是记忆系统,实则是在拆解下一代 Agent 走向“长期主义”的底层逻辑。这也是这一季《AI 进化论》系列策划的初衷——从起源、技术、产品、安全到未来,深度拆解 OpenClaw 引爆的智能体革命,为每一位试图在 Agent 时代寻找坐标的开发者提供一份“生存指南”。
OpenClaw 最强的地方,为什么也成了它最大的短板?
王启隆:为什么到了这一轮的 Agent 发展,大家又重新开始认真讨论记忆的问题?如果往前看几年,大家关心的就是模型能力本身,在 Benchmark 上打榜。现在大家真正发现 Agent 要进入 workflow,光能回答问题还不够,它还得能延续偏好、上下文,以及已经踩过的坑和得到的结论。
唐波:做 Memory 这件事很早,从 2023 年我们把 Memory 训练到基座模型,一直到现在做了很长时间。为什么现在 Memory 变得愈发重要?关键在于 OpenClaw 把 Agent 推到了大家的面前,让大家对任务的执行有了更多的理解。
OpenClaw 在执行过程中,面对的是非常长期的任务,不像以前我们一问一答就结束了。那时直接用一些简单的 RAG 方法,也可以检索到它以前记过的简单东西。但是现在 OpenClaw 已经到了任务级别。
在执行任务的过程中,有很多内容,比如代码、脚本、过往的执行情况,例如探查到哪个文件夹之类。在反复相似的任务执行过程中,它去记住这些东西是很重要的。这不只是说我之前看过什么东西,而是说“之前我遇到了这些情况,或者解决了这个问题,对我后续任务的执行有多大影响”。它应该像人一样去理解,而不是简单地记住。
从“记住”到“会用”之间有很大不同。以前我们都要求绝对的匹配,完全一样的词才能检索出来,或者讲过某一个事情才能把它召回。但现在更多的是要在任务级别,或者在更长程的任务里面,形成一种相似的借鉴和依赖,来启发模型完成从“记住”到“会用”的过程。
伍斌:我是从使用工具的角度来看。在我去年出版《氛围编程》的时候,大模型的能力还不是很强。今年就不太一样了,大模型能力越来越强,再用氛围编程写代码时,可以做的事情也越来越多。
很多小伙伴可能会忽视掉,比如换一个话题,需要新建一个会话,但他们会把所有不相关的内容都放在一个 session 里面,这会导致模型出现幻觉,输出质量非常差的结果。随着模型越来越强大,工作越来越复杂,使用大模型的时间越来越长,该怎么样去管理好这种记忆,是一个必然要面对的问题。
从“记住”到“会用”,中间差的到底是什么?
王启隆:记忆算是现在 Agent 相比我们常用的 ChatBot 的显著优点。但比较有趣的是,OpenClaw 现在最大的问题也是记忆。为什么 Agent 对记忆的需求现在会明显增强?以及 OpenClaw 是在哪一方面做得不好,导致它的记忆问题成了一大缺陷?
唐波:OpenClaw 本身对记忆这层做的工作还是蛮多的。最开始它的记忆都放在文件夹里面,做了一些压缩,然后让模型去读。早期出现的问题是:
第一,它不会经常去存东西。每天的聊天记录是以文档方式放进去,存到一个 .md 文件里,就像写日记一样记流水账。在核心记忆和文件里,你必须明确告诉它“存”,它才会写到文件夹里面去。不会经常存,而且检索调用的频次也不是很高,这是第一个问题。
第二个问题是,之前的 Memory 无论如何会去读最近两天的文件,这个量其实非常大。如果你用 OpenClaw 比较多,一天就能积累非常多的内容。这就导致它不断触发压缩存储的策略,需要去加工,消耗的 Token 就会比较多。
不经常存,也不稳定地取,就会导致有些问题它反复去试错。其实这个问题它已经碰到过,但是这一次它没有获取到记忆,导致反复试错,也包括跟人之间的交互。这就会导致Token 消耗变得很多,让大家感觉 OpenClaw 怎么那么费钱。同时,有的时候感觉跟它说过了,它怎么又不记得了?或者因为它要反复读最近两天的内容,导致响应时间变长,反复压缩又导致 Token 消耗大幅上涨。
总结下来,现有的 OpenClaw 记忆效率没有那么高;其次,围绕记忆从“看到”、“知道”到“学会”、持续演进,以及群体协作方面,做得还不是很好。
它不是简简单单说我之前看过什么东西,而是说之前我遇到了这些东西,或者解决这个问题,对我后续任务的执行有多大的影响。应该像人一样,而不是只是简单地记住它。从“记住”到“会用”之间是有很大不同的。就像你和 AI 说:“我之前已经跟你讲过类似的东西,你怎么就记不得呢?”以前我们都是要求绝对的匹配,完全一样的词检索出来,或者讲过某一个事情把它召回。
但现在更多的是要在任务级别,或者在更长程的任务里面,形成一种相似或职务上的借鉴和依赖,来启发模型从“记住”到“会用”的过程。
王启隆:这种目标究竟是 Agent 技术,还是演进到一种持续学习、经验压缩和自我更新的能力?这也正是直播开始前提出的讨论:如何让 Agent 从“记住”(Remember)走向“学会”(Learn)。想请两位老师定义一下,Agent 怎么样才算“学会”?
唐波:Agent 的“学会”,我们现在的定义是,相似的任务它知道怎么去解决。学会的逻辑在于能够举一反三,遇到相似的事情能快速处理掉。举个具体例子,它在查文件夹时,看到里面都是视频,那么下次查文档就不会再去看一遍了。学会的标志就是以前踩过的坑,在新的任务下不会再重蹈覆辙,这非常重要。
伍斌:“记忆”就好比有个地方存着,类似于从数据库里去取。“学会”是智能体知道了这个知识,碰到情况就去调用工具干活。如果它能干活,并且知道以前踩过的坑,这就是学会了。
唐波:但实际上像我们学数学,不是说那个公式你看过就完全理解了。更多的是首先看清楚公式是什么,接着理解它是什么,然后再把这个知识跟过往的知识融会贯通。以后在相似的场景下,你才能够触发。这个事情非常重要,直到现在 OpenClaw 也没有解决。如果要让我们的 Agent 从“记住”到“学会”,并且持续演化,这是非常重要的一环。
王启隆:很多开发者觉得 AI 不是不聪明,而是每次都得重新解释,重复带 AI 进入上下文,这是每天最烦的损耗。想切换到伍斌老师的视角,在您的工作中,有没有哪些事情让您明确觉得,没有记忆系统,AI 永远只能打下手,做不了真正的长期协作者?
伍斌:我体会挺深的。写了《氛围编程》这本书之后,我开始尝试拿它做一些感兴趣的应用。去年 LangChain、LangGraph 比较热的时候,我用它做了一个智能体,帮我孩子选大学专业,需要去网上搜“十四五”规划,挑选国家重点投资的专业。
这个事情要经过多轮对话,先澄清诉求,提出方案,再去执行。当时我没有 Memory 的概念,以为大模型能支持,结果发现不行。第一轮对话之后,第二轮它就把前面全忘掉了。后来只能把前面的所有对话再发一遍。这就像你请了个新实习生,结果发现他是个失忆者,每次都要跟他讲架构和规范,非常烦。这让我印象非常深刻。
记忆真正难的,不是存下来,而是在对的时候调出来
伍斌:OpenClaw 有一个优势,它的所有记忆都在你的 workspace 下面。一般来说会有一个大写的MEMORY.md文件,把你希望它记住的长期内容、要点,比如踩过的坑,让它整理存进去。还有一个目录下面,按照时间戳来存日常的 memory,它会自动调用最近两天的 memory。虽然是粗粒度,但至少能让你看到。
它的弊端是没有过滤或处理,一股脑就把两天的记录,或者所有的 memory、tools、agents 都读了进来,这会占用很多上下文。
唐波:MemOS 提供了云上版本和本地版本。先讲一下大家关注比较多的本地版本是怎么解决这个问题的。记忆进来以后,MemOS 本身会对它进行压缩,提炼这究竟是一件什么样的事情。其他记忆系统可能是一片一片先把对话内容分片放进去,因为太长检索效果会下降。MemOS 的做法在这个部分是一样的,我们会把片段内容先压缩,然后再放进去。压缩做的 summary 只是故事的概要。
当来一个 query 去检索相关的东西,它会先精准命中片段并召回。召回以后交给大模型,大模型会觉得这只是一个片段的信息。如果片段信息不能支持解决当前的 query,它就会去调用我们提供的工具,把这个记忆或者任务的全部内容拿出来:当前做这件事情的背景是什么,是怎么做的,拿到了什么结果。
如果它觉得这是一个很复杂的系统工程,之前涉及过更困难的事情,它就会看以前做这件事情沉淀了哪些 Skill,是不是不需要反复试错。那就把 Skill 拿过来,按照 Skill 去执行即可。
整个 AI 执行过程中的信息,我们认为都是有用的。更重要的是怎么把正确的记忆调出来,这是至关重要的。所以我们做了记忆的版本。召回的时候,先召回相似的语义。如果有多个节点,我们再去看当时场景下用什么样的记忆最合适。我们认为所有的信息都是有意义的,更重要的是在 query 的时候,通过时间、人物或具体 context 去判断,当前应该用哪条记忆。
王启隆:我现在“养虾”也输入了几千万 Token 了,经常在想记忆膨胀之后,上下文越来越多怎么办?我现在看到 MemOS 进入界面后,有一个很新颖的点,就是记忆可以自动管理。想问一下你们是怎么做记忆筛选的?包括不同会话、不同日志,从技术层面可以讲一下吗?
唐波:整个 AI 执行过程中的信息,我们认为都是有用的。大家讨论记忆遗忘这个事情,假设给你永久过目不忘的能力你要不要?我相信所有人都愿意要。所以我们认为所有东西都是有用的。应该发挥电脑本身的优势,什么都能查到,只是应该在合适的地方和时间,把正确的记忆调回来。
我们不会把记忆删掉,繁杂或重复的都会放进去。只是在检索的时候,我们会对记忆做版本管理,对重复的记忆做标注。召回的时候,先召回相似的语义。如果有多个节点,我们再去看当时场景下用什么样的记忆最合适。
你以为你在省事,其实你只是换了一种管理方式
王启隆:我最近还有个直观感受,没装 MemOS 之前,很多时候在做机械的事,不停地给 AI 补充背景 context,变成了“人给 AI 干活”。
装上之后以为可以轻松一点,全放给 AI 做。但其实人还是要干活,只是换了种做法:开始想哪些东西值得沉淀成 Skill,哪些是临时信息,哪些值得整理成任务。这会不会反过来要求人未来学会另一种能力,不只是提问,还要学会管理上下文、管理经验、管理协作方式?
伍斌:我体会挺深的。写了《氛围编程》这本书之后,我开始尝试拿它做一些感兴趣的应用。这个事情要经过多轮对话,先澄清诉求,提方案,再去执行。当时我没有 Memory 概念,以为大模型能支持,发现不行。第一轮对话之后,第二轮它就把前面全忘掉了。后来只能把前面的所有对话再发一遍。
这就像你请了个新实习生,结果发现他是个失忆者,每次都要跟他讲架构和规范,非常烦。这让我印象非常深。
唐波:目前人还是承担很多工作,当然我们希望让 AI 去做自动化的决策。我们希望记忆系统足够好,就像雇的秘书一样,给个眼神就知道该给什么东西。以后给一个 prompt,或者一句话让他写材料,他应该知道老板今天干了什么事、背景是什么,并自动补上。
这个事情目前还没做得很好,还在尝试做 prompt 的自动化注入,以及跟场景的自动匹配。核心逻辑是,因为有了 MemOS,有了你的记忆,它从而更加懂你。指令发出后,它能根据场景和背景信息注入相关内容,不用你手动敲。我们希望实现的效果是:第一,有了记忆系统,驱动大模型的方式更快,输入的字更少;第二,它更了解你,输出的内容你会更满意,不用反复修改。
多个 Agent 共享记忆,会更聪明,还是更混乱?
王启隆:我进入 MemOS Viewer 界面之后还有一些感受。第一感觉是我的会话居然打通了。以前我的两个会话是各司其职的,一个写文章,一个写提纲,记忆是分开的,比较干净。结果接入 MemOS 后,我发现他们俩开始“串台”了,其中一个会话也知道另一个会话发生的过程。
现在这样共享长期记忆,协作效率可能会提升,但是角色的边界、上下文可能也被冲淡了。想问一下你们是怎么解决这个问题的?
唐波:同一个 Agent 的多个会话,默认是打通的。因为一个 Agent 只有一个 prompt 文件,我们认为它的角色是一样的,所以默认把系统记忆打通了。
如果是不同的 Agent 之间,记忆是完全孤立的,A 智能体和 B 智能体之间记忆不会串台。如果你想让这两个智能体协作怎么办?可以在后台操作,如果你觉得这条记忆需要共享给其他智能体,只要共享出去就好了,其他智能体就能检索到这条记忆。
伍斌:我是这样想的。刚才说的只是单人场景,今年应该是多智能体协作的年代了。随着智能体增多,任务越复杂,可能要并行多个智能体协作。每个智能体好比是一个人,比如一个产品经理、一个开发,他们对同一个记忆的理解可能不一样。该怎么评判哪个智能体的记忆权重更大?遵循谁的记忆来做取舍?
唐波:这两个记忆理论上在解决这个问题上都是有用的,但场景不一样。A 同学执行的电脑可能是个裸机,很多软件没安装,确实要执行很多步。B 同学可能相关的软件依赖都已经配置好了,下来就能用。这两个记忆都有用。
解决这个问题,更多的是要看 context 之间的匹配程度。每一条记忆都有它所属的背景。现在的做法是先把背景信息重建出来,通过背景信息衡量记忆之间的匹配程度。我们也做了很多记忆效能的分配和匹配,看在当前的 context 下,什么样的记忆最有用。哪怕看起来都是解决同一个问题,实际上背景信息的重建有天然的差别。
MemOS 本地版本提供的方法是,首先可以组一个局域网,把信息共享上去,其他人在检索时能拉到共享的东西。第二,检索信息后可以加工成 Skill,推到团队共享里,实现团队技能的共同进步。用户可以决定怎么把记忆共享出来,也可以提供对应的 Skill。如果系统处于群体智能感知状态,它会看当前大家做什么任务,自动挑选工具把当前的记忆、task 或技能发到局域网里,实现自动化。
王启隆:很多人一听多 Agent,会自动觉得分工更多、更协同、更聪明。但其实多 Agent 不一定是把智能体简单的 1+1,可能是把复杂度乘以 N。
群体智能真正难的,不是共享,而是治理
伍斌:我能想到的坑,除了前面说到的哪个记忆权重更高,还有一个问题:哪些记忆是过时的,怎么判断?人是有遗忘的,会把当前相关的记忆调出来,以前的就遗忘掉。但对于大模型来说,靠什么机制遗忘掉目前不相关的记忆?
唐波:现在的解决方案做了一些时间衰减。第一是加版本;第二是召回时对记忆做时间上的衰减。老的记忆权重会低很多,这也是业界比较通用的方案。要实现更精准的识别,还是要依靠模型的 ICL (In-Context Learning) 能力去判断。人也一样,回忆相关事情时会想哪个跟当前情况更匹配。所以还是依靠模型 ICL 能力的提升,以及记忆片段构建的背景信息。
王启隆:多个 AI 一旦共享长期记忆,虽然会更聪明,但会不会慢慢失去原本分角色、分任务的边界,以及上下文的干净度?比如一个 Agent 学到了坏经验,带着错误继续协作,导致错误在系统里被放大。系统会不会有自我纠错、自我找 Bug 的能力?
唐波:这个情况完全存在。共享记忆最困难的是隐私安全问题。信息共享给 A、B、C、D,对 AI 来说无所谓,但共享给 B 可能就有问题。比如公司老板和 HR 讨论人事信息,在 HR 内部流通没问题,放在普通员工那里流通就是大问题。
另外在应用层,信息被带偏的问题目前还稍微好一点。每条信息都有其存在的价值和使用场景。只要想办法把 context 构建得足够全,大概率就知道信息应该在什么情况下使用。另外,我们构建了记忆的效用,Skill 或记忆是有版本的。如果执行出错,模型会反思环境反馈的结果,发现记忆过时了,然后在执行过程中反向纠错,记忆就会构建成 V2 版本。
伍斌:记忆是不是也要 Review 一下?或者让智能体帮我们 Review,然后人再去看哪些记忆是有害的,进行干预。
唐波:我们针对这个做了两点工作。第一,下个版本会在夜间 12 点,把当天的记忆拎出来,筛选 Review 一下哪些重要、哪些有问题,同时构建 To-Do 事项,把今天回忆一遍,列出要做的事,并修正错误信息。第二,在 Viewer 记忆页面上,支持用户删掉或修改错误的记忆。
王启隆:感觉权限开放得越多,Agent 越厉害。未来做 Agent 的记忆系统,会不会变成一个权限设计的问题,而不只是存储的问题?
伍斌:权限应该做到架构里去,而不是一个外部系统。现在是智能体时代,AI 能够去干活了。如果它 7x24 小时帮你干活,听起来不错,但如果干的是离谱的活,你也没盯着它,就会捅很多娄子。所以权限是非常重要的话题,记忆也应该和权限结合起来,而不是什么人都能看到所有人的记忆。
真正拉开 AI 差距的,不再只是模型,而是持续学习能力
王启隆:如果让两位用一句话判断我们这次的直播主题:未来真正拉开 AI 差距的可能不再是哪家模型更大、更会聊天,而是哪一种新的系统能力?你们会怎么回答?
唐波:我觉得下一步让模型能够持续学习和演进才是最重要的。现在大模型训完,智能就停留在那里,虽然衍生了各种 ICL 能力、RAG、记忆系统,仿佛不会忘记现在发生的事。但进一步的能力提升,比如纠错、演进的能力,才是下一个 Agent 或智能再提升的核心关键点。
伍斌:我不想说未来几年,我想说今年。我希望我用的智能体至少能知道我想要什么。我说一句话,它应该知道上下文和意图,而不是让我反复重复以前说过的话。把这一点做好,今年就是一个非常大的成果。
唐波:模型训练完后能力已经基本确定了,但就像人大学毕业后还会学习很多东西。通过与现实环境交互,获得反馈,对环境的认知会提升。这并不是说基础能力提升了多少,而是你见过了、了解了、反思了,自然能举一反三。
所以我们希望 Memory 在 Agent 时代,能强调如何用记忆提取经验,再反向用经验引导模型决策,让 AI 像人一样思考和工作。这可能是 AI 在大模型完成训练后,再次学习成长的一个重要关口。
我们希望记忆系统足够好,就像雇的秘书一样,给个眼神就知道该给什么东西。以后给一个 prompt,或者一句话让他写材料,他应该知道老板今天干了什么事、背景是什么,并自动补上。现在启动大模型很容易就要写四五千字的 prompt,因为有太多背景信息和要求要给它。我们希望 OpenClaw 有了记忆系统后,能够自动填充这些。最终希望用户打字越来越少,拿到任务的速度越来越快,因为模型懂你。
结语
Agent 到底有没有可能从一次次任务里慢慢长出经验?
对用户来说,最直接的需求也许很简单:别再让我每次都从头讲起,就够了。
对系统来说,真正困难的也许是另一面:怎么把已经发生过的事,变成下一次还用得上的判断。这也是为什么,记忆会在这一代 Agent 里变得越来越重要——它不再只是“记住了什么”,而开始决定一个智能体能不能真的成为长期协作者。
但当 Agent 跨越了这道技术鸿沟,真正成为我们身边的“长期协作者”时,另一场更猛烈的风暴也将随之而来:当 Agent 能自主执行任务,传统的 App 还需要存在吗?流量与分发的规则将如何改写?如果多个 Agent 开始在局域网内共享记忆与技能,企业的商业机密与系统安全又该由谁来兜底?作为普通开发者,我们又该如何在巨头林立的生态中找到自己的位置?
这些正是 CSDN《AI 进化论》系列接下来要深度拆解的命题。
聚焦 OpenClaw 引爆的智能体革命,本期探讨只是全系列的一环。在接下来的数期直播中,我们将继续邀请行业顶尖专家、大厂技术负责人与独角兽创始人,层层揭开 Agent 时代的终极谜题,欢迎关注 CSDN 视频号,追踪后续的精彩直播。
【活动分享】"48 小时,与 50+ 位大厂技术决策者,共探 AI 落地真路径。"奇点智能技术大会是由深耕多年的「全球机器学习技术大会」重磅升级而来。2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开,大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块,特邀来自BAT、京东、微软、小红书等头部企业的 50+ 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论,真正实现 AI 技术的规模化落地与商业价值转化。这不仅是一场技术的盛宴,更是决策者把握 2026 AI 拐点的战略机会。
热门跟贴