对话唐波 x 伍斌：OpenClaw 最强的地方，为什么也成了它最大的短板？ | AI 进化论|ai 进化论|openclaw|上下文|伍斌|唐波|新论文

大家比较的，可能已经不再只是模型强不强、代码好不好，而是它能不能把经历变成经验，把“记住”变成“会用”。

作者 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

大家最早讨论 OpenClaw 时，记忆几乎总被当成它和普通聊天机器人的分界线。

它有 workspace，有 MEMORY.md，有 daily memory，也有一整套试图把智能体变成“长期协作者”的结构。和那些一问一答、对话结束就几乎归零的模型相比，它看上去更像一个能持续做事的系统。

但很快，记忆也成了围绕它最密集的抱怨来源。

不会经常存，不会稳定取，反复读、反复压缩、反复试错。明明已经踩过的坑，下一次还会再踩一遍；明明已经讲过的背景，过一轮任务又得重新交代。记忆原本是它最被期待的一部分，最后也成了它最早暴露问题的一部分。

近日笔者整理文章时，正好遇到了 OpenClaw 在对话中途因上下文过载突然“断线”。这就像一个原本和你并肩赶路、聊得热火朝天的挚友，在眨眼间眼神忽然空洞。他依然维持着那个礼貌的坐姿，却在下一秒开口时，用那种客气而冰冷的陌生语调问你：“你好，请问有什么可以帮您？”

在那一刻，你们共同度过的几个小时，连同那些默契与共鸣，都被彻底格式化成了一片白噪音，实在是细思极恐。

这当然不只是 OpenClaw 的问题。当 Agent 开始真正进入长期任务、长期协作，甚至多 Agent 配合的场景之后，一个更底层的分界线开始浮现：大家比较的，可能已经不再只是模型强不强、代码好不好，而是它能不能把经历变成经验，把“记住”变成“会用”。

聚焦 OpenClaw 引爆的智能体革命，我在 CSDN 最新一期《AI 进化论》直播里，对话了两位能解答这些问题的专家：记忆张量 MemTensor 应用算法负责人、MemOS OpenClaw 项目技术负责人唐波和奇点智能研究院 AI 辅助软件开发咨询师、《氛围编程》作者伍斌。

这一期，我们表面上聊的是记忆系统，实则是在拆解下一代 Agent 走向“长期主义”的底层逻辑。这也是这一季《AI 进化论》系列策划的初衷——从起源、技术、产品、安全到未来，深度拆解 OpenClaw 引爆的智能体革命，为每一位试图在 Agent 时代寻找坐标的开发者提供一份“生存指南”。

OpenClaw 最强的地方，为什么也成了它最大的短板？

王启隆：为什么到了这一轮的 Agent 发展，大家又重新开始认真讨论记忆的问题？如果往前看几年，大家关心的就是模型能力本身，在 Benchmark 上打榜。现在大家真正发现 Agent 要进入 workflow，光能回答问题还不够，它还得能延续偏好、上下文，以及已经踩过的坑和得到的结论。

唐波：做 Memory 这件事很早，从 2023 年我们把 Memory 训练到基座模型，一直到现在做了很长时间。为什么现在 Memory 变得愈发重要？关键在于 OpenClaw 把 Agent 推到了大家的面前，让大家对任务的执行有了更多的理解。

OpenClaw 在执行过程中，面对的是非常长期的任务，不像以前我们一问一答就结束了。那时直接用一些简单的 RAG 方法，也可以检索到它以前记过的简单东西。但是现在 OpenClaw 已经到了任务级别。

在执行任务的过程中，有很多内容，比如代码、脚本、过往的执行情况，例如探查到哪个文件夹之类。在反复相似的任务执行过程中，它去记住这些东西是很重要的。这不只是说我之前看过什么东西，而是说“之前我遇到了这些情况，或者解决了这个问题，对我后续任务的执行有多大影响”。它应该像人一样去理解，而不是简单地记住。

从“记住”到“会用”之间有很大不同。以前我们都要求绝对的匹配，完全一样的词才能检索出来，或者讲过某一个事情才能把它召回。但现在更多的是要在任务级别，或者在更长程的任务里面，形成一种相似的借鉴和依赖，来启发模型完成从“记住”到“会用”的过程。

伍斌：我是从使用工具的角度来看。在我去年出版《氛围编程》的时候，大模型的能力还不是很强。今年就不太一样了，大模型能力越来越强，再用氛围编程写代码时，可以做的事情也越来越多。

很多小伙伴可能会忽视掉，比如换一个话题，需要新建一个会话，但他们会把所有不相关的内容都放在一个 session 里面，这会导致模型出现幻觉，输出质量非常差的结果。随着模型越来越强大，工作越来越复杂，使用大模型的时间越来越长，该怎么样去管理好这种记忆，是一个必然要面对的问题。

从“记住”到“会用”，中间差的到底是什么？

王启隆：记忆算是现在 Agent 相比我们常用的 ChatBot 的显著优点。但比较有趣的是，OpenClaw 现在最大的问题也是记忆。为什么 Agent 对记忆的需求现在会明显增强？以及 OpenClaw 是在哪一方面做得不好，导致它的记忆问题成了一大缺陷？

唐波：OpenClaw 本身对记忆这层做的工作还是蛮多的。最开始它的记忆都放在文件夹里面，做了一些压缩，然后让模型去读。早期出现的问题是：

第一，它不会经常去存东西。每天的聊天记录是以文档方式放进去，存到一个 .md 文件里，就像写日记一样记流水账。在核心记忆和文件里，你必须明确告诉它“存”，它才会写到文件夹里面去。不会经常存，而且检索调用的频次也不是很高，这是第一个问题。

第二个问题是，之前的 Memory 无论如何会去读最近两天的文件，这个量其实非常大。如果你用 OpenClaw 比较多，一天就能积累非常多的内容。这就导致它不断触发压缩存储的策略，需要去加工，消耗的 Token 就会比较多。

不经常存，也不稳定地取，就会导致有些问题它反复去试错。其实这个问题它已经碰到过，但是这一次它没有获取到记忆，导致反复试错，也包括跟人之间的交互。这就会导致Token 消耗变得很多，让大家感觉 OpenClaw 怎么那么费钱。同时，有的时候感觉跟它说过了，它怎么又不记得了？或者因为它要反复读最近两天的内容，导致响应时间变长，反复压缩又导致 Token 消耗大幅上涨。

总结下来，现有的 OpenClaw 记忆效率没有那么高；其次，围绕记忆从“看到”、“知道”到“学会”、持续演进，以及群体协作方面，做得还不是很好。

它不是简简单单说我之前看过什么东西，而是说之前我遇到了这些东西，或者解决这个问题，对我后续任务的执行有多大的影响。应该像人一样，而不是只是简单地记住它。从“记住”到“会用”之间是有很大不同的。就像你和 AI 说：“我之前已经跟你讲过类似的东西，你怎么就记不得呢？”以前我们都是要求绝对的匹配，完全一样的词检索出来，或者讲过某一个事情把它召回。

但现在更多的是要在任务级别，或者在更长程的任务里面，形成一种相似或职务上的借鉴和依赖，来启发模型从“记住”到“会用”的过程。

王启隆：这种目标究竟是 Agent 技术，还是演进到一种持续学习、经验压缩和自我更新的能力？这也正是直播开始前提出的讨论：如何让 Agent 从“记住”（Remember）走向“学会”（Learn）。想请两位老师定义一下，Agent 怎么样才算“学会”？

唐波：Agent 的“学会”，我们现在的定义是，相似的任务它知道怎么去解决。学会的逻辑在于能够举一反三，遇到相似的事情能快速处理掉。举个具体例子，它在查文件夹时，看到里面都是视频，那么下次查文档就不会再去看一遍了。学会的标志就是以前踩过的坑，在新的任务下不会再重蹈覆辙，这非常重要。

伍斌：“记忆”就好比有个地方存着，类似于从数据库里去取。“学会”是智能体知道了这个知识，碰到情况就去调用工具干活。如果它能干活，并且知道以前踩过的坑，这就是学会了。

唐波：但实际上像我们学数学，不是说那个公式你看过就完全理解了。更多的是首先看清楚公式是什么，接着理解它是什么，然后再把这个知识跟过往的知识融会贯通。以后在相似的场景下，你才能够触发。这个事情非常重要，直到现在 OpenClaw 也没有解决。如果要让我们的 Agent 从“记住”到“学会”，并且持续演化，这是非常重要的一环。

王启隆：很多开发者觉得 AI 不是不聪明，而是每次都得重新解释，重复带 AI 进入上下文，这是每天最烦的损耗。想切换到伍斌老师的视角，在您的工作中，有没有哪些事情让您明确觉得，没有记忆系统，AI 永远只能打下手，做不了真正的长期协作者？

伍斌：我体会挺深的。写了《氛围编程》这本书之后，我开始尝试拿它做一些感兴趣的应用。去年 LangChain、LangGraph 比较热的时候，我用它做了一个智能体，帮我孩子选大学专业，需要去网上搜“十四五”规划，挑选国家重点投资的专业。

这个事情要经过多轮对话，先澄清诉求，提出方案，再去执行。当时我没有 Memory 的概念，以为大模型能支持，结果发现不行。第一轮对话之后，第二轮它就把前面全忘掉了。后来只能把前面的所有对话再发一遍。这就像你请了个新实习生，结果发现他是个失忆者，每次都要跟他讲架构和规范，非常烦。这让我印象非常深刻。

记忆真正难的，不是存下来，而是在对的时候调出来

伍斌：OpenClaw 有一个优势，它的所有记忆都在你的 workspace 下面。一般来说会有一个大写的MEMORY.md文件，把你希望它记住的长期内容、要点，比如踩过的坑，让它整理存进去。还有一个目录下面，按照时间戳来存日常的 memory，它会自动调用最近两天的 memory。虽然是粗粒度，但至少能让你看到。

它的弊端是没有过滤或处理，一股脑就把两天的记录，或者所有的 memory、tools、agents 都读了进来，这会占用很多上下文。

唐波：MemOS 提供了云上版本和本地版本。先讲一下大家关注比较多的本地版本是怎么解决这个问题的。记忆进来以后，MemOS 本身会对它进行压缩，提炼这究竟是一件什么样的事情。其他记忆系统可能是一片一片先把对话内容分片放进去，因为太长检索效果会下降。MemOS 的做法在这个部分是一样的，我们会把片段内容先压缩，然后再放进去。压缩做的 summary 只是故事的概要。

当来一个 query 去检索相关的东西，它会先精准命中片段并召回。召回以后交给大模型，大模型会觉得这只是一个片段的信息。如果片段信息不能支持解决当前的 query，它就会去调用我们提供的工具，把这个记忆或者任务的全部内容拿出来：当前做这件事情的背景是什么，是怎么做的，拿到了什么结果。

如果它觉得这是一个很复杂的系统工程，之前涉及过更困难的事情，它就会看以前做这件事情沉淀了哪些 Skill，是不是不需要反复试错。那就把 Skill 拿过来，按照 Skill 去执行即可。

整个 AI 执行过程中的信息，我们认为都是有用的。更重要的是怎么把正确的记忆调出来，这是至关重要的。所以我们做了记忆的版本。召回的时候，先召回相似的语义。如果有多个节点，我们再去看当时场景下用什么样的记忆最合适。我们认为所有的信息都是有意义的，更重要的是在 query 的时候，通过时间、人物或具体 context 去判断，当前应该用哪条记忆。

王启隆：我现在“养虾”也输入了几千万 Token 了，经常在想记忆膨胀之后，上下文越来越多怎么办？我现在看到 MemOS 进入界面后，有一个很新颖的点，就是记忆可以自动管理。想问一下你们是怎么做记忆筛选的？包括不同会话、不同日志，从技术层面可以讲一下吗？

唐波：整个 AI 执行过程中的信息，我们认为都是有用的。大家讨论记忆遗忘这个事情，假设给你永久过目不忘的能力你要不要？我相信所有人都愿意要。所以我们认为所有东西都是有用的。应该发挥电脑本身的优势，什么都能查到，只是应该在合适的地方和时间，把正确的记忆调回来。

我们不会把记忆删掉，繁杂或重复的都会放进去。只是在检索的时候，我们会对记忆做版本管理，对重复的记忆做标注。召回的时候，先召回相似的语义。如果有多个节点，我们再去看当时场景下用什么样的记忆最合适。

你以为你在省事，其实你只是换了一种管理方式

王启隆：我最近还有个直观感受，没装 MemOS 之前，很多时候在做机械的事，不停地给 AI 补充背景 context，变成了“人给 AI 干活”。

装上之后以为可以轻松一点，全放给 AI 做。但其实人还是要干活，只是换了种做法：开始想哪些东西值得沉淀成 Skill，哪些是临时信息，哪些值得整理成任务。这会不会反过来要求人未来学会另一种能力，不只是提问，还要学会管理上下文、管理经验、管理协作方式？

伍斌：我体会挺深的。写了《氛围编程》这本书之后，我开始尝试拿它做一些感兴趣的应用。这个事情要经过多轮对话，先澄清诉求，提方案，再去执行。当时我没有 Memory 概念，以为大模型能支持，发现不行。第一轮对话之后，第二轮它就把前面全忘掉了。后来只能把前面的所有对话再发一遍。

这就像你请了个新实习生，结果发现他是个失忆者，每次都要跟他讲架构和规范，非常烦。这让我印象非常深。

唐波：目前人还是承担很多工作，当然我们希望让 AI 去做自动化的决策。我们希望记忆系统足够好，就像雇的秘书一样，给个眼神就知道该给什么东西。以后给一个 prompt，或者一句话让他写材料，他应该知道老板今天干了什么事、背景是什么，并自动补上。

这个事情目前还没做得很好，还在尝试做 prompt 的自动化注入，以及跟场景的自动匹配。核心逻辑是，因为有了 MemOS，有了你的记忆，它从而更加懂你。指令发出后，它能根据场景和背景信息注入相关内容，不用你手动敲。我们希望实现的效果是：第一，有了记忆系统，驱动大模型的方式更快，输入的字更少；第二，它更了解你，输出的内容你会更满意，不用反复修改。

多个 Agent 共享记忆，会更聪明，还是更混乱？

王启隆：我进入 MemOS Viewer 界面之后还有一些感受。第一感觉是我的会话居然打通了。以前我的两个会话是各司其职的，一个写文章，一个写提纲，记忆是分开的，比较干净。结果接入 MemOS 后，我发现他们俩开始“串台”了，其中一个会话也知道另一个会话发生的过程。

现在这样共享长期记忆，协作效率可能会提升，但是角色的边界、上下文可能也被冲淡了。想问一下你们是怎么解决这个问题的？

唐波：同一个 Agent 的多个会话，默认是打通的。因为一个 Agent 只有一个 prompt 文件，我们认为它的角色是一样的，所以默认把系统记忆打通了。

如果是不同的 Agent 之间，记忆是完全孤立的，A 智能体和 B 智能体之间记忆不会串台。如果你想让这两个智能体协作怎么办？可以在后台操作，如果你觉得这条记忆需要共享给其他智能体，只要共享出去就好了，其他智能体就能检索到这条记忆。

伍斌：我是这样想的。刚才说的只是单人场景，今年应该是多智能体协作的年代了。随着智能体增多，任务越复杂，可能要并行多个智能体协作。每个智能体好比是一个人，比如一个产品经理、一个开发，他们对同一个记忆的理解可能不一样。该怎么评判哪个智能体的记忆权重更大？遵循谁的记忆来做取舍？

唐波：这两个记忆理论上在解决这个问题上都是有用的，但场景不一样。A 同学执行的电脑可能是个裸机，很多软件没安装，确实要执行很多步。B 同学可能相关的软件依赖都已经配置好了，下来就能用。这两个记忆都有用。

解决这个问题，更多的是要看 context 之间的匹配程度。每一条记忆都有它所属的背景。现在的做法是先把背景信息重建出来，通过背景信息衡量记忆之间的匹配程度。我们也做了很多记忆效能的分配和匹配，看在当前的 context 下，什么样的记忆最有用。哪怕看起来都是解决同一个问题，实际上背景信息的重建有天然的差别。

MemOS 本地版本提供的方法是，首先可以组一个局域网，把信息共享上去，其他人在检索时能拉到共享的东西。第二，检索信息后可以加工成 Skill，推到团队共享里，实现团队技能的共同进步。用户可以决定怎么把记忆共享出来，也可以提供对应的 Skill。如果系统处于群体智能感知状态，它会看当前大家做什么任务，自动挑选工具把当前的记忆、task 或技能发到局域网里，实现自动化。

王启隆：很多人一听多 Agent，会自动觉得分工更多、更协同、更聪明。但其实多 Agent 不一定是把智能体简单的 1+1，可能是把复杂度乘以 N。

群体智能真正难的，不是共享，而是治理

伍斌：我能想到的坑，除了前面说到的哪个记忆权重更高，还有一个问题：哪些记忆是过时的，怎么判断？人是有遗忘的，会把当前相关的记忆调出来，以前的就遗忘掉。但对于大模型来说，靠什么机制遗忘掉目前不相关的记忆？

唐波：现在的解决方案做了一些时间衰减。第一是加版本；第二是召回时对记忆做时间上的衰减。老的记忆权重会低很多，这也是业界比较通用的方案。要实现更精准的识别，还是要依靠模型的 ICL (In-Context Learning) 能力去判断。人也一样，回忆相关事情时会想哪个跟当前情况更匹配。所以还是依靠模型 ICL 能力的提升，以及记忆片段构建的背景信息。

王启隆：多个 AI 一旦共享长期记忆，虽然会更聪明，但会不会慢慢失去原本分角色、分任务的边界，以及上下文的干净度？比如一个 Agent 学到了坏经验，带着错误继续协作，导致错误在系统里被放大。系统会不会有自我纠错、自我找 Bug 的能力？

唐波：这个情况完全存在。共享记忆最困难的是隐私安全问题。信息共享给 A、B、C、D，对 AI 来说无所谓，但共享给 B 可能就有问题。比如公司老板和 HR 讨论人事信息，在 HR 内部流通没问题，放在普通员工那里流通就是大问题。

另外在应用层，信息被带偏的问题目前还稍微好一点。每条信息都有其存在的价值和使用场景。只要想办法把 context 构建得足够全，大概率就知道信息应该在什么情况下使用。另外，我们构建了记忆的效用，Skill 或记忆是有版本的。如果执行出错，模型会反思环境反馈的结果，发现记忆过时了，然后在执行过程中反向纠错，记忆就会构建成 V2 版本。

伍斌：记忆是不是也要 Review 一下？或者让智能体帮我们 Review，然后人再去看哪些记忆是有害的，进行干预。

唐波：我们针对这个做了两点工作。第一，下个版本会在夜间 12 点，把当天的记忆拎出来，筛选 Review 一下哪些重要、哪些有问题，同时构建 To-Do 事项，把今天回忆一遍，列出要做的事，并修正错误信息。第二，在 Viewer 记忆页面上，支持用户删掉或修改错误的记忆。

王启隆：感觉权限开放得越多，Agent 越厉害。未来做 Agent 的记忆系统，会不会变成一个权限设计的问题，而不只是存储的问题？

伍斌：权限应该做到架构里去，而不是一个外部系统。现在是智能体时代，AI 能够去干活了。如果它 7x24 小时帮你干活，听起来不错，但如果干的是离谱的活，你也没盯着它，就会捅很多娄子。所以权限是非常重要的话题，记忆也应该和权限结合起来，而不是什么人都能看到所有人的记忆。

真正拉开 AI 差距的，不再只是模型，而是持续学习能力

王启隆：如果让两位用一句话判断我们这次的直播主题：未来真正拉开 AI 差距的可能不再是哪家模型更大、更会聊天，而是哪一种新的系统能力？你们会怎么回答？

唐波：我觉得下一步让模型能够持续学习和演进才是最重要的。现在大模型训完，智能就停留在那里，虽然衍生了各种 ICL 能力、RAG、记忆系统，仿佛不会忘记现在发生的事。但进一步的能力提升，比如纠错、演进的能力，才是下一个 Agent 或智能再提升的核心关键点。

伍斌：我不想说未来几年，我想说今年。我希望我用的智能体至少能知道我想要什么。我说一句话，它应该知道上下文和意图，而不是让我反复重复以前说过的话。把这一点做好，今年就是一个非常大的成果。

唐波：模型训练完后能力已经基本确定了，但就像人大学毕业后还会学习很多东西。通过与现实环境交互，获得反馈，对环境的认知会提升。这并不是说基础能力提升了多少，而是你见过了、了解了、反思了，自然能举一反三。

所以我们希望 Memory 在 Agent 时代，能强调如何用记忆提取经验，再反向用经验引导模型决策，让 AI 像人一样思考和工作。这可能是 AI 在大模型完成训练后，再次学习成长的一个重要关口。

我们希望记忆系统足够好，就像雇的秘书一样，给个眼神就知道该给什么东西。以后给一个 prompt，或者一句话让他写材料，他应该知道老板今天干了什么事、背景是什么，并自动补上。现在启动大模型很容易就要写四五千字的 prompt，因为有太多背景信息和要求要给它。我们希望 OpenClaw 有了记忆系统后，能够自动填充这些。最终希望用户打字越来越少，拿到任务的速度越来越快，因为模型懂你。

结语

Agent 到底有没有可能从一次次任务里慢慢长出经验？

对用户来说，最直接的需求也许很简单：别再让我每次都从头讲起，就够了。

对系统来说，真正困难的也许是另一面：怎么把已经发生过的事，变成下一次还用得上的判断。这也是为什么，记忆会在这一代 Agent 里变得越来越重要——它不再只是“记住了什么”，而开始决定一个智能体能不能真的成为长期协作者。

但当 Agent 跨越了这道技术鸿沟，真正成为我们身边的“长期协作者”时，另一场更猛烈的风暴也将随之而来：当 Agent 能自主执行任务，传统的 App 还需要存在吗？流量与分发的规则将如何改写？如果多个 Agent 开始在局域网内共享记忆与技能，企业的商业机密与系统安全又该由谁来兜底？作为普通开发者，我们又该如何在巨头林立的生态中找到自己的位置？

这些正是 CSDN《AI 进化论》系列接下来要深度拆解的命题。

聚焦 OpenClaw 引爆的智能体革命，本期探讨只是全系列的一环。在接下来的数期直播中，我们将继续邀请行业顶尖专家、大厂技术负责人与独角兽创始人，层层揭开 Agent 时代的终极谜题，欢迎关注 CSDN 视频号，追踪后续的精彩直播。

【活动分享】"48 小时，与 50+ 位大厂技术决策者，共探 AI 落地真路径。"奇点智能技术大会是由深耕多年的「全球机器学习技术大会」重磅升级而来。2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开，大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块，特邀来自BAT、京东、微软、小红书等头部企业的 50+ 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论，真正实现 AI 技术的规模化落地与商业价值转化。这不仅是一场技术的盛宴，更是决策者把握 2026 AI 拐点的战略机会。