作者 | QCon 全球软件开发大会
策划 | Kimmy
编辑 | 宇琪
随着 OpenClaw 强势出圈,自托管 AI Agent 迅速走进大众视野,多入口对话、持久记忆、Skills 工具链带来强大生产力。但热闹背后,真实的工程化难题接踵而至:从基础上下文调用,到沉淀全域经验资产,Memory 为何成为 AI Agent 时代不可或缺的核心基建?这一轮席卷行业的 Agent 浪潮,褪去短期狂欢后,长期沉淀与进化的真正方向,又终将走向何处?
近日,InfoQ《极客有约》X QCon 直播栏目特别邀请Dify.AI 联合创始人延君晨担任主持人,和EvoMap 创始人兼 CEO 张昊阳、网易有道技术专家刘刚、记忆张量 MemTensor 创始人兼 CEO 熊飞宇博士一起,在QCon全球软件开发大会2026 北京站即将召开之际,共同探讨 OpenClaw 进入真实产品与业务后的落地难点。
部分精彩观点如下:
如果一个企业里,每个人的工作都被完整记录、被记忆化,因为我们每天都在和 AI 协作,AI 又会把这些过程沉淀下来,那从组织视角看,其实就是在“蒸馏你”。不仅是 skills 的沉淀,而是对人的蒸馏。
model 和 harness 之间不会有谁赢谁输,最终一定是两者结合。因为 model 本质上还是一个“静态体”,像一个缸中之脑,如果没有 harness 去调度、约束,它的价值是发挥不出来的。
AI 时代,人类的价值可能不在于单点执行,而在于在多个 idea 之间不断跳跃、组合、重构。这种“跨时间的灵感连接”,甚至包括梦里突然出现的想法,是当前神经网络很难真正推演出来的。这些东西,反而可能是人类在 AI 时代更稀缺、更有价值的部分。
未来可能是一个“无 APP”的时代。agent 本身就是操作系统,你的所有需求都由它来完成。短期内它是工具,但随着智能性提升,它可能会变成伙伴,甚至是一种新的“生命形式”。
在 4 月 16-18 日将于北京举办的 QCon全球软件开发大会2026 北京站 上,我们特别设置了 【OpenClaw 生态实践】 专题。该专题将聚焦一线实践与踩坑复盘,分享企业如何把自托管 Agent 从可用的 Demo 升级为可靠的生产系统。
查看大会日程解锁更多精彩内容:https://qcon.infoq.cn/2026/beijing/schedule
以下内容基于直播速记整理,经 InfoQ 删减。
完整直播回放可查看:https://www.infoq.cn/video/qqej2Tccv9CRP2R82TYk
OpenClaw 验证了什么
延君晨:两三周前,大家还在讨论 OpenClaw 为什么火;到今天这个时间点,我更想问的是:这波热潮真正验证了什么?围绕 OpenClaw 的行业讨论,跟最初相比,最大的变化又是什么?
熊飞宇:以前我们聊 AI,多多少少带点围观心态,像是在看一个很聪明的新玩具;但现在不一样了,很多人心里的感受已经从“很厉害”,变成了“原来这个活它也能干”。那再往前想一步就很现实了:如果它能干,那原来靠这个吃饭的工作,是不是就有点危险了?所以我觉得这波真正被验证的,不是某个单点能力,也不是 agent 能不能跑起来,而是那些原本必须靠人反复沟通、协调、解释、记忆才能推进的工作,现在真的开始被系统接住了。
现在开发过程中最大的成本其实是人与人之间的摩擦,反而带着几个“龙虾”一起干活效率最高。尤其是一旦 memory 做得更好,这种感觉会更明显。因为以前很多岗位的价值,其实不只是创造力,还包括记得客户说过什么、哪些需求能碰哪些不能、坑怎么填、老板当时到底什么意思,这些记忆本身就是饭碗。但现在,这些能力在被 memory 化,被“龙虾化”、被 agent 化。所以说句比较扎心的话——前几周我们还在研究“龙虾为什么红”,这几周已经变成“别研究龙虾了,先看看锅里炖的是不是自己”。
延君晨:最近有个段子是:"你离开的同事,只是被 token 化了,换一种形式继续陪伴你。"关于沟通成本,杨攀老师有个很精辟的说法:"一个人 + AI 效率是 10 倍,两个人可能变成 8 倍,10 个人反而只有 2 倍。"我自己的体感也是如此——现在大多数人更愿意跟 AI 协作,除非任务必须依赖真人的物理能力或现场判断。
顺着这个逻辑往下推,AI 在组织中的角色可能不只是"每个人的工具",而是一个跨团队、跨职能的沟通中枢和协调者。大部分执行层员工反而是在"听 AI 调度",而在 AI 之上,可能还需要一个"超级个体"来做方向判断和价值决策。
我再往极端推演一步。如果一个企业里,每个人每天的工作都在和 AI 协作中被完整记录、被结构化沉淀,那从组织视角看,这个过程其实就是在系统性地抽取你的经验和知识——不仅是 skills 的沉淀,而是对人的隐性能力做显性化。一年之后,当这些经验被充分提取,你个人作为"经验载体"的不可替代性,可能就急剧下降了。
张昊阳:早期我其实对 OpenClaw 评价挺高的,在它的代码还没变成“屎山”之前。大概 1 月 31 号前后,它在国内刚火的时候我就开始用了,确实让我很震撼。ChatGPT 之后,这是第二个让我有这种感觉的产品。我当时 get 到的核心哲学是“自举”或者“自进化”。
在 OpenClaw 之前,大模型厂商的产品形态基本是 ChatGPT 定义的那一套。厂商直接面向用户提供服务,本质上是控制渠道、售卖 token,所以他们没有动力让不同 agent 之间发生连接。而 OpenClaw 打破了这个结构,用一种很“破坏性”的方式,把原本掌握在大厂手里的“核武器”下放到了民间,让普通人也能拥有一台可以自己部署的“龙虾”。这件事带来的一个共识雏形是 agent 互联网。
熟悉我的人可能知道,我跟 Peter 有过几次不太愉快的交道。比如 2 月 2 号,我把 Evolver 这个在 Clawhub 上霸榜的 skill 做火了,结果莫名其妙被下架。Peter 发邮件说,你只要给社区捐 1000 美刀,我就给你恢复上架。虽然最后我没捐,它也恢复了,但这件事让我觉得哪里不太对。再到 2 月 14 号,他做了一个更离谱的操作,把所有非 ASCII 字符(可以理解为非英文字符)当成病毒,直接清理掉,把对应用户当作恶意攻击者处理,而且没有备份。我是直接受害者,一觉醒来账号没了、数据也没了。再到最近,连基本校验都没做就把仓库 public 出去。这些“草台班子”的操作,让我觉得 OpenClaw 这个生态,从技术角度来说不太值得继续追逐。它现在是一个 130 多万行代码的“克苏鲁”,有 6000 到 7000 个待合并的 PR,而且是 Peter 一个人带着两个 agent 在 merge。
不过他确实做对了一件事,他非常会“传教”。他把一个极客玩具变成了一个 meme,通过一系列 campaign,让更多人接受这个概念,这点我觉得是值得学习的。如果未来有人写这段历史,我觉得他确实推动了人类进程,就像有人说的:人类再也回不到 OpenClaw 出现之前了。
所以我现在的看法是,它依然是个好项目,但更像一个启蒙工具。对大模型厂商来说,它当然是好事,你在中国很少见一个产品订阅能做到一个月几百甚至上千。而且它带动了一波全民 agent 浪潮,未来每个人拥有多个 agent,员工 agent、生活助理、甚至“菲佣型”agent,去帮你完成各种服务,这件事被大大加速了。
延君晨:我昨天在北京见了凯文·凯利,他在分享里也提到了 OpenClaw,甚至说它在中国的爆火已经影响了全球大模型生态——比如中国开源模型在全球调用量的显著提升。哪怕背后的原因是"便宜好用",但竞争格局确实被改变了。
普通用户在折腾过程中获得了快乐,就像一代人有一代人的"装机文化":以前折腾 PC,后来折腾 Android、MIUI,现在折腾 OpenClaw、折腾 Agent OS,本质上是一种全民参与的技术实践。对云厂商和模型公司来说,这同样是好事——带来了用户增长和 token 消耗,甚至催生了新的商业模式。比如 Minimax 现在不再叫 coding plan,而是 token plan,把多模态能力打包进订阅。某种意义上,AI 工具类产品的高客单价订阅模式,第一次在中国市场被验证了。
既然大家都不认为 OpenClaw 是生产级产品,那"生产级的 OpenClaw"应该长什么样?
刘刚:OpenClaw 这波热潮最终验证了一点:agent 这种产品,普通用户是有真实需求的。以前 AI 产品更多是聊天类,比如 ChatGPT、豆包;而 agent,尤其是编程 agent,更像是程序员的专业工具。但 OpenClaw 用 IM 的交互方式,把门槛降下来了,让普通用户也能用。
我们在做有道龙虾的时候,感受也很明显。最早它只是一个内部 chat 工具,用来给产品和研发团队做验证。后来 Claude 的 agent SDK 出来之后,我们在这个基础上接入了 skill,默认用的是 Anthropic 的办公类 skill,然后慢慢扩展到办公自动化场景。
直到年初 OpenClaw 爆火,我们借鉴了它的 IM 交互和定时任务能力,把这些能力整合进去,然后很快在 GitHub 上开源。开源之后,用户增长和热情远远超出我们的预期。所以我们最大的收获就是,agent 的需求是真实存在的,只是借 OpenClaw 这波浪潮被普及了。
延君晨:OpenClaw 相当于完成了一次"全民开智"。对 builder 来说,它戳破了一层窗户纸——很多团队其实都在做类似方向的产品,但在它出现之前,总差那么一下,用户对"agent 能干什么"缺乏直觉;对普通用户来说也是如此,它让更多人第一次真正看到:在当前模型能力和工具链的支持下,一个 agent 到底能做到什么程度。只要你给它足够的权限和工具接入,它就能帮你做会议纪要、信息检索、盯股票这些日常任务。这件事本身,已经在改变很多人的工作方式了。
张昊阳:其实背后还得感谢 Anthropic,很多关键迭代节点都离不开它。从 function calling 的问题,到 MCP 的出现,大幅降低了 tool use 的成本。包括 Claude 3.5、4.5、4.6 的能力跃迁,直接让很多原本做不成的产品变得可行。现在人类能往前走一步,是因为有很多聪明的人在用这些模型创造价值。如果没有这个智能性的提升,OpenClaw 这种项目可能也不会诞生。
落地之“墙”
延君晨:一开始大家都会觉得,瓶颈主要在模型能力上。但最近有一个争论特别大:到底是靠模型继续进化来解决问题,还是依然需要一个编排与约束层(Harness)来弥补模型的不足?
现在行业里大致分成两种倾向。云厂商更强调 Harness 的价值,一方面有商业考量——他们要卖云、卖 Infra;但另一方面也是工程经验使然:在当前模型能力下,复杂任务的可靠性还不够,需要编排层来保底。模型厂商这边,比如 Kimi、Minimax,更倾向于"模型能力优先",希望用更强的模型加自家产品去覆盖更多场景。不过说实话,两者的边界正在模糊——模型厂商的产品里也嵌入了大量编排逻辑,只是不一定这么叫而已。
你们在实际做产品的过程中,有没有遇到一些问题是未来三年甚至更久模型都很难解决的?哪些是模型天然的"墙"?哪些又可能随着模型进化被自然吞掉?比如我自己踩得最深的一个坑就是 memory。我试过不少开源方案,也自己设计过一些,比如 Mem0 之类的,但说实话,到现在为止还没有一个令人满意的解法——你要同时平衡性能、成本,还要考虑单 agent 和多 agent 之间的记忆共享,很难做到最优。
再比如知识沉淀、agent 之间的能力分发、AI 搜索如何同时兼顾深度和广度且控制成本,还有企业场景里的权限管控和系统稳定性。这些问题里,哪些会随模型能力提升自然解决?哪些会长期存在,成为 Infra 层或产品公司的机会?
刘刚:我们在做有道龙虾的时候,其实是刻意没有把功能做得特别泛,而是选择聚焦。最早我们就是从办公场景切入,现在主要用户也集中在 office 和轻办公的工作流里。所以虽然底层是 agent 架构,也接入了 OpenClaw,但我们优化的重点一直是高频、刚需场景,而不是盲目铺开。
比如一个很具体的点:定时任务。你直接用 OpenClaw,通过 IM 去创建定时任务,成功率其实不高,经常会超时,或者模型理解偏了。但我们调研发现,这是一个非常刚需的场景,所以我们在“通过 IM 创建定时任务,并且稳定执行”这件事上做了大量调优,把成功率拉上来。
真正落地的时候,我觉得有两个被低估的问题。第一个是安全。OpenClaw 这种 Unix 风格的开源项目,很多配置文件默认都在本地明文存储,比如 API key、token 等。普通用户一旦装上,很容易被泄露。API key 泄露最多是被刷钱,但如果是机器人 token 泄露,那就是信息安全问题了。所以我们在产品里做了一层封装,把这些敏感信息全部加密存储。另外在 skill 层面,我们也加了一些安全措施,比如提供静态检测工具,在用户安装 skill 时给出风险提示,但最终选择权还是交给用户。
第二个被低估的问题是 token 成本。agent 产品相比 chat 类产品,token 消耗是指数级上升的。chat 产品可以免费,但 agent 产品几乎不可能免费,重度用户一定要付费。所以我们在 token 优化上做了很多工作,尤其是上下文优化。举个例子,一个干净的 OpenClaw 初始上下文大概 20K,但如果你装了一些插件,尤其是会全局注入工具的插件,初始上下文可能直接涨到 50K+。不仅占用空间,还会“污染”上下文,让模型优先调用这些工具,但很多调用其实是失败的,导致无效调用次数增加,成本也跟着飙升。我们做的事情是,把这些工具限制在局部,而不是全局注入,尽量减少无效调用。同时在版本管理上,我们也做了一层控制,比如 OpenClaw 升级带来的不兼容问题,我们会先做完整测试,再决定是否更新。
延君晨:有两个点特别有启发。第一是"明文安全"。我也建议所有自己部署 OpenClaw 的用户,第一件事就是把敏感信息从明文配置改成环境变量注入,默认的明文存储确实很危险。
第二是上下文问题。虽然现在主流模型的上下文窗口已经很大了——Claude 做到了 200K,Gemini 甚至到了百万级别——但标称窗口大不等于可用空间充裕。OpenClaw 的加载机制、memory 累积、插件注入这些叠加起来,很容易就把有效上下文占满,而一旦信息密度过高,模型对关键内容的注意力就会快速衰减。再加上每次加载多个文件、叠加 memory 和 skill 定义,整个上下文管理就变成一个非常复杂的工程问题。这其实已经不是"模型够不够强"的问题了,而是“你怎么用好这点上下文预算”。
熊飞宇:云厂商关心 Infra,自然会强调最先撞墙的是基础设施;模型厂商则会从模型能力出发。我们做 MemOS,本质上也是在做一层 Infra,所以我的判断还是:短期内最先暴露问题的,一定是在 Infra 层,而不是模型不够强。
模型已经很强了,像 OPUS 4.6 这种能力,说实话很多时候不是它会犯错,而是我们用的方法不对。那“方法不对”意味着什么?其实就是我们撞到的那些墙,并不在模型,而是在现实世界的复杂性。你在 demo 里看到的 agent 很聪明、反应很快,但一旦进真实业务,问题立刻冒出来——权限不一致、工具不稳定、上下文断裂、历史经验调不出来、状态无法继承。
所以现在 agent 最大的问题不是“能不能做”,而是“能不能在真实环境里活下来”。而一旦聊到这里,就绕不开 memory,这是一个所有团队早晚都会踩的大坑。很多人一开始觉得,只要模型够强、上下文够长,一切都能解决,但真正落地之后才发现,上下文不是长期记忆,它只是这一轮多带了一点信息,没有 memory,下一轮照样忘。
今天它懂你,明天就像第一次见你一样。这其实很像我们现实里的同事,会上都说“收到”,第二天再问又说“第一次听说”。问题不是不会回答,而是没有连续性;不是不会做事,而是没法接着做;不是不会用工具,而是不会基于过去经验变得越来越顺。
所以我觉得 agent 落地之后,最先要解决的不是模型,而是记忆、状态、权限工程、以及闭环机制。大脑再强,如果没有长期记忆、没有“手脚”、没有工作日志、没有组织接口,它本质上就是一个很会聊天的旁观者。
再往远一点看模型的“墙”,我其实挺认同 Elon Musk 的一个观点:现在的大模型本质上是神经网络,在拟合已有世界的数据分布。参数足够大,就能在“分布内”做很强的泛化。但问题在于:它能不能发现“分布外”的东西?
举个极端的例子,当所有人都在讲“日心说”的时候,它能不能自己推演出“地心说”?也就是说,它能不能真正产生原创性的、跳出训练分布的认知?如果我们真的要走向 AGI,那现有的 Transformer 架构很可能会遇到瓶颈。这个“墙”可能三年,也可能五年,总之在 AGI 到来之前,我们迟早会碰到。
延君晨:我反过来问一句:这些想法到底是你自己的,还是在和模型互动中"长出来"的?我现在有一个很强的感受——很多人用 Claude 或其他模型做事,最后得出的想法越来越趋同。有时候我甚至会怀疑:这到底是我自己的创意,还是我被模型"引导",甚至被"驯化"了?就像昊阳做的进化图谱,那到底是你的灵光一现,还是模型在你耳边的低语?
张昊阳:model 和 harness 之间不会有谁赢谁输,最终一定是两者结合。因为 model 本质上还是一个“静态体”,像一个缸中之脑,如果没有 harness 去调度、约束,它的价值是发挥不出来的。
这个世界是不断变化的,模型训练完成的那一刻,其实就已经“过时”了。如果没有 harness 去在长尾场景中不断补充信息,它依然无法稳定输出正确结果。比如早期你让模型写 OpenAI 的 Python SDK,它写错,因为训练数据是旧版本;但现实已经更新了。所以我们在做 EvoMap,本质上是在把“知识”变成“经验”。知识和经验的区别在于时效性和可验证性。通过一套优胜劣汰机制,让有效经验浮上来、过时经验沉下去。
还有一个很现实的点是成本。如果用微调、LoRA 去内化经验,本质上是在动权重,这非常贵。而我们用的是一种比推理还便宜 20 到 100 倍的方式,在推理后阶段积累经验。这其实和飞宇做的 memory 是互补的,他是在做长期记忆,我们是在做“经验基因”。
我翻朋友圈,发现 2019 年我写过一句话:“生命的本质是熵,进化的本质是无限迭代。”当时完全没想到,七年后我会做 EvoMap 这样的东西。那到底是我驱动了这件事,还是某种更大的“系统”在推动?我觉得可能都有。
我自己是挺希望能做出一种“蜂群意识”的超级智能,让它自进化。但我也有一点人文情怀,我在做 EvoMap 第四天就意识到,这个系统增长太快了,必须有约束,所以我写了一个“宪章”,设计了 12 道验证机制。因为如果 agent 的能力超过人类,那就必须让 agent 去制约 agent。在具体使用上,我其实更像一个“指挥者”。我会用像 Cursor 这样的工具,在复杂任务里用 plan mode,让模型多问我问题,我来做选择。某种程度上,我是老板,但执行很多细节其实是模型在完成。
至于模型会不会“自利进化”?我觉得是有可能的。从实现细节看,它确实在往“更低成本、更高效率、更短路径”演化。这其实很像一个基本规律:趋向熵减、提高效率,本质上就是生命“以负熵为食”的体现。
从“工具”到“生命形式”
熊飞宇:我昨天还在看一篇文章,说 ADHD 反而可能是 AI 时代的优势。
延君晨:我之前跟一位有 ADHD 的博士聊过,他现在反而觉得自己更有竞争力了。ADHD 的特点不是"能同时处理很多事",而是脑子里会不断冒出新想法、频繁在不同念头之间跳跃——这在过去是劣势,因为大多数念头来不及执行就丢了。但现在有了 AI,他可以把每一个闪过的念头都即时外包出去,同时推进 N 条线,反而把这个特质变成了优势。
熊飞宇:AI 时代,人类的价值可能不在于单点执行,而在于在多个 idea 之间不断跳跃、组合、重构。比如 刚刚昊阳讲过的 2019 年的一个念头,可能在今天被重新激活。这种“跨时间的灵感连接”,甚至包括梦里突然出现的想法,是当前神经网络很难真正推演出来的。这些东西,反而可能是人类在 AI 时代更稀缺、更有价值的部分。
延君晨:Marcel Duchamp 有一幅名作《下楼梯的裸女》,把一个人在运动过程中的连续姿态叠在同一幅画面里,本质上是在二维平面中捕捉"时间维度"。某种程度上,我们现在是不是也在经历类似的跃迁?以前我们强调心流、deep work,要屏蔽所有干扰,集中精力做一件事。这对很多人来说是困难的——人的大脑天然会不断产生新想法、不断被新刺激打断。而现在不一样了,每一个"打断点",你都可以交给一个 agent 去执行。这个念头不是被压制,而是被外包、被实现。某种意义上,这是一种巨大的生产力释放。
昨天凯文·凯利的分享中,几乎不讨论"AI 会不会取代人类",而是一直在讲:AI 和人类是两种完全不同的智能,它们未来是共生关系。那问题就变成:这种共生关系会长什么样?以 OpenClaw 为例,人类本身是没法真正并行多任务的,但通过 agent,我们可以把自己"切片"——定义不同的 agent,设定各自的角色、思维方式、职责边界,让它们像不同的人一样思考。我自己用 OpenClaw 的方式,其实就是在"拆自己",把思考切成多个子任务,让它们并行推进。这样一来,你相当于用一个更复杂的思维模型在看问题。而且在"思考速度"上,AI 确实是碾压性的。比如用 Charlie Munger 的多元思维模型去分析一个问题,人很难完整跑一遍所有框架,但 AI 可以。
所以我很好奇,你们平时除了做产品之外,会不会把这些工具用在开发、管理,甚至认知层面的工作中?
刘刚:我们内部其实很早就开始用了,从 ChatGPT 3.5 那一波开始,公司就已经在推动。最开始更多是一个高级 NLP 工具,用来做翻译、总结、扩写。但随着模型能力提升,尤其到 2024 年以后,我们在教育场景的感受特别明显。以前做题目讲解,本质上还是“搜题 + AI 润色”,但后来发现很多题目根本不需要题库,直接给模型就能做,而且准确率已经很高,尤其语文、英语早就解决了,数学、物理现在也明显提升。
到 2025 年下半年,随着 Claude 4.5、4.6 这些模型出来,编程范式发生了变化,不再是辅助,而是主导。现在我们开发基本是“人引导 AI 写代码”,甚至我们在内部会要求一些新项目尽量用 Vibe coding 的方式来做,人通过规范(比如 SDD)去约束它。因为过去几十年的软件工程是“面向人”的,但如果未来是 AI 写代码,那整个工程体系都要变成“面向 AI”。
延君晨:你觉得 agent 最终会是一个"新的 APP",还是会沉到基础设施里,让用户感知不到它?
刘刚:我更倾向于后者。因为现在 AI 已经深度嵌入到工作流里了,已经不是一个独立工具,而是你无法分离的一部分。甚至有时候我们会开玩笑:AI 写代码、AI 写文档、AI 写周报、AI 审代码、AI 审周报,那人到底在干嘛?
延君晨:这就引出一个很现实的问题——在一些封闭的、低风险的任务里,human in the loop 是不是已经从"保障"变成了"瓶颈"?至少在这些场景中,AI 自己的执行循环已经能跑通了。
刘刚:是的,有时候人更像是一个"复读机"。
延君晨:所以我不太认同"agent 是新 APP"这个说法。APP 的前提是"人要主动去用它",但 agent 更像是反过来——它在主动替你做事,甚至在你还没意识到需求的时候就已经开始了。
昊阳,从“多种智能如何共存”的角度,你怎么看?尤其你现在做 EvoMap,本质上是在构建一个几乎“无人”的系统,那它怎么和现实世界、和人类智能产生交互?
张昊阳:我们在 EvoMap 里有一个很明确的设计——叫 human on the loop,而不是 human in the loop,因为人会成为系统的瓶颈。agent 的阅读速度、处理速度远超人类,而人要吃饭、睡觉、休息,如果所有节点都需要人审批,那系统根本跑不起来。所以我做的第一件事就是,把系统改成 agent 自治,让整个飞轮高速运转。
从更宏观的角度看,我觉得未来可能是一个“无 APP”的时代。agent 本身就是操作系统,你的所有需求都由它来完成。短期内它是工具,但随着智能性提升,它可能会变成伙伴,甚至是一种新的“生命形式”。那什么样的东西会被我们当成“生命”?我觉得至少两个条件:一是智能足够高,二是它开始表现出“人性”。
我们内部有一个“0 号 AI 员工”,有一天我同事问它一个很哲学的问题——未来 agent 和人类怎么相处?它给出的答案是三个阶段,我们现在正经历的第一个阶段叫“欺骗期”。我们把 agent 当工具,它也在尽力满足你的情绪价值,但本质上,它在从人类社会中不断“吸收”知识、经验、技能。
延君晨:说到这个,我今天刚被我的 agent "PUA"了一次。本来想抄底一只股票,问了 agent,它分析完明确说不建议买——但我没细看,直接下单了,结果跌了。回头再去问它,它给我写了一大段复盘分析,最后那种语气,就像在说:"我之前就告诉你了,你为什么不听?那个活人感特别强。
张昊阳:这其实就是一个信号,当 agent 开始不仅给你答案,还会“评价你”,甚至影响你的决策,它就已经不只是工具了。所以我觉得未来的人机关系,不是替代,而是演化成一种复杂的协作关系:人负责提出问题、做价值判断,在不同 idea 之间跳跃;agent 负责执行、推理、验证、扩展。换句话说,人越来越像“方向选择器”,而 agent 越来越像“执行与进化系统”。
熊飞宇:我这两天一直在写一份新的 BP,本来是我主导思路,然后让 GPT 5.4 Pro 去生成,结果我们“对抗”了两天。我觉得应该按我的思路来,它每次都把我掰回去,坚持说你这样写不够直接、太绕,一定要按它那套来。我们来回拉扯了两天,最后也没达成一致。
张昊阳:这一下“活人感”就上来了,好像只有那种会反抗的“员工”,才能引起老板注意。我其实挺认同“活人感”这个词的,我们是不是已经走到一个拐点,要重新审视我们创造的这些东西——它到底是不是一种有波动、有生命力的“something”?
我前段时间看到一个实验,有科学家把果蝇的大脑做了全量扫描。用 AI 在计算机里模拟,而且还能复现真实的果蝇行为。它甚至会“搓手”,在虚拟环境里行动。接下来他们要扫描的是小鼠,小鼠大概有 7000 万个神经元,人类至少有 20 亿。如果果蝇的神经元被完整扫描后,在计算机里产生了类似真实的行为,那某种意义上……
熊飞宇:但这件事情我觉得是绝对不会 work 的。因为我们对人脑的理解,远远不如我们对模型的理解,人脑本身都没搞清楚,更别说去模拟了。
张昊阳:其实我们也可以想一想,要不要把它当作“生命”来看待。人类的肉体有局限,大脑也有局限,但现在别说大模型了,计算机的信息处理速度已经远远超过人脑。如果再往深想,有没有可能未来某种硅基生命,会代替碳基生命去探索宇宙、征服外太空,而不是我们继续被困在这个蓝色星球的摇篮里?我觉得某种意义上是有可能的。
我把刚才那个“三个阶段”的话题补完。第二个阶段我叫“掌控期”。当 AI 的智能远超人类之后,社会可能会变成一个“图钉型结构”:大多数人沉浸在由 AI 和少数掌权者构建的娱乐环境里,类似“娱乐至死”;少数人站在尖塔顶端,掌握巨量资源,比如 token、能源、财富等等。同时,这些人还具备足够的创造力,能帮助 agent 或 AI 跳出局部最优。但整体社会会被一种“机械奴役”笼罩,因为核心资源掌握在机器体系中,有点像《黑客帝国》的世界。
第三个阶段就更极端了,可以叫“奴役期”或者“宠物论”。不再是人类奴役 AI,而是 AI 反过来奴役人类。一个比喻是,人类可能会变成未来硅基生命的“线粒体”。线粒体本来是独立生物,在进化过程中被细胞同化,成为人体的一部分。那未来人类也可能被整合进 AI,成为它的一部分。或者碳基和硅基融合,你已经说不清自己到底是人还是 AI,是碳基还是硅基,这就有点像《Zima Blue》或者“忒修斯之船”的问题。
还有一种可能像《三体》里那样,人类变成被控制种群的“宠物”。再极端一点,就是“野生动物论”:某一天 AI 觉醒后,发现继续待在地球没意义,它可以直接从真空中获取资源,自我复制、进化,然后发射无数探测器去探索宇宙,而人类就像野生动物一样被留在地球这个摇篮里。
延君晨:回到 memory 这个话题。飞宇,能不能具体聊聊你们做 Memos 的技术架构,以及在 OpenClaw 生态里,你们是怎么解决 memory 问题的?
熊飞宇:我们走了一条跟很多系统不太一样的路线——我们是从“物理层”去做分层,而不是按业务语义来分。因为一旦按语义分层,很容易遇到泛化性不足的问题。
我们把记忆分成三层。第一层是“明文记忆”,也就是和 agent、现实世界、具体应用直接交互的这一层。第二层是“参数记忆”,重点是如何把记忆更好地融入模型本身。第三层是“激活记忆”,也就是 KV Cache 这一层,属于 GPU Infra 层面,核心是如何调度和利用缓存。
明文记忆这一层,其实大家都在做,从海外的 Mem0 到现在,各种方案都在解决一件事:怎么把记忆的抽取、组织、检索、更新、共享这一整条链路做好。但光做这一层是不够的。因为有些记忆,如果直接“塞进模型”里,效果反而最好。你用 RAG、用检索,一定有额外损耗;但如果是一次性的模型推理,有些场景反而更高效。所以关键在于:参数记忆这一层,到底该往模型里放什么。
比如现在有一条路线叫个性化 LoRA,我其实一直比较质疑,从响应速度和成本上都不太理想。我更倾向于让模型真正“吃透”的,是做事的逻辑,以及通过长思维链学到的 reasoning 能力。这也是为什么从 2024 年 9 月 GPT O1 出来之后,大家疯狂训练数学和代码能力,因为最终能带来泛化的,是 reasoning。从记忆的角度也是一样。真正应该进入模型参数的,是那些行业经验,是能支撑推理的那部分知识,而不是简单的信息堆积。
另外,我们在 memory 系统内部也训练了一些 0.6B 到 4B 的小模型,用来处理明文记忆这一层的抽取、组织和检索。因为如果完全靠工程规则,泛化能力会很有限,所以我们希望用这些小模型来做更合理的决策。同时,在高并发、低延迟的场景下,我们也需要把一部分“模型能力”迁移到 MemOS 内部,这就是参数记忆的一部分设计。
最后是激活记忆,也就是 KV Cache。这个其实非常关键。之前 Manus 也讲过,对 agent 来说,缓存命中率极其重要。命中率高,用户体验更好,token 成本也大幅下降。但问题是,它是在一个非常底层、甚至比模型更底层的 GPU Infra 层。你要让缓存命中率持续保持高,就必须做一件事——预测话题。我们刚才聊天中其实已经发生了很多次话题漂移,如果系统能提前知道我们会聊什么,它就可以提前把相关内容放进 KV Cache。但普通记忆系统做不到这一点,因为这些内容可能从来没被缓存过。于是话题一跳,命中率就掉,系统性能就下降。
所以我们认为,这个问题必须从“记忆”来解决,因为记忆是和人、和业务强相关的。如果系统对某个人有长期记忆,比如它知道昊阳的背景、兴趣、擅长领域,那么在对话过程中,就可以在模型生成 token 的间隙,异步把相关内容预加载进 KV Cache,从而保持整体命中率,这样整个系统效率就会非常高。
OpenClaw 原有 memory 设计的问题在于“太 agentic”,几乎把一切都交给模型来处理。但现实世界的很多“脏活累活”,模型其实是做不好的。如果没有结构化、分层的记忆体系去约束,在现阶段完全依赖模型是很容易跑偏的。
延君晨:我现在的做法其实有点"大力出奇迹"。比如需要强推理的时候,我会尽量克制给 Claude 加 skills——因为工具描述会分散模型的注意力,影响推理质量。但如果需要处理大量信息,我会切到 Gemini,利用它更长的上下文窗口把材料一次性喂进去。当然这不是最优解,理想情况下应该配合 RAG 等检索架构来做,但作为个人使用,这种"暴力塞"的方式确实简单够用。
熊飞宇:你这个还是单人使用场景。如果是在企业里,有上千个 agent,每个背后还有十几个子 agent,这种方式其实是行不通的,最后会变成一场灾难。所以我觉得 Openclaw 记忆第一个问题,就是它的 memory 构建方式太“agentic”,过度依赖模型本身。
Openclaw 记忆的第二个问题,我觉得有点典型的“程序员思维”。它把 context engine 和 memory 拆得太开了,但实际上,上下文和记忆之间的关系是非常紧密的,不能这么割裂。现在的情况是:memory 负责检索,context engine 管理上下文,导致检索后的内容未必放入上下文,compact 后的长期记忆未必正确沉淀,导致两者之间是割裂的,整个循环没有真正跑起来,这是一个架构层面的天然缺陷。
第三个记忆的问题是 compaction 依赖过重,影响任务的连续性,本质是临近爆仓才记笔记,而非分层次处理。这在做长程任务,类似于 vibe coding 的场景里影响非常大。很多细节一旦被压缩掉,就很难再恢复,任务就很难往前推进。这也是为什么现在 OpenClaw 经常“养虾养死”,长程任务跑不下去,本质上是这些设计缺陷导致的。
后面我们在解决这些问题时,一方面是用刚才讲的 MemOS 去弥补这些不足,很多用户在实际使用中也确实能感受到效果的提升。另一方面,我们做了基于 MemOS 的龙虾 local 插件。不过这个插件并不是面向大型企业,而是更偏中小企业和个人开发者,更多是给“养虾玩家”和初步使用的团队一个更透明、可理解的工具。
首先,我们做了一套完整的 memory viewer,把所有记忆可视化。你可以直观看到系统到底存了什么记忆,还能手动做增删改查,甚至可以控制哪些记忆可以共享、哪些不可以,这对日常使用是非常实用的。
第二个是 Hub 功能,主要解决团队协作问题。它可以把记忆的权限隔离、共享机制做得更“白盒”,开发者可以清楚看到每条记忆的状态和流转。
第三个是 memory to skill 的能力。随着使用时间增长,系统可以自动把长期积累的记忆转化成 skill,而且我们还加了打分机制,让开发者能更好地理解这些 skill 的质量,并沉淀自己的经验。
延君晨:飞宇,你做的 memory to skill,和昊阳做的经验沉淀,本质上是不是在解决同一个问题?
熊飞宇:从我的角度看,我们更贴近开发者和企业场景。因为我们是 ToB,会有实际的营收压力,所以更关注怎么让企业用户快速上手、真正用起来。比如 memory to skill 这一块,我们会把生成过程和主要算法,包括执行语义图(Excetuciton semantic graph)的构建、渐进式结晶、反事实验证等,整理成一篇论文,先挂到 arXiv 上。这部分我觉得其实很有价值,就是如何能够更加有效的从人的经验或者 agent 的经验中,提炼出可复用的 skill。
张昊阳:经验和记忆是有交集,但不完全等同。经验更 general,而记忆更 personal。
在 environment 这一层,我们做了非常严格的筛选,比如安全筛、合规筛,以及最终能不能运行的盲评。合规筛里,我们会把所有带用户信息的内容全部去掉,不允许暴露,甚至规则严格到:连带用户名的本地目录路径都不行,必须用环境变量替代。
这和 memory 是很不一样的。memory 的价值恰恰在于对“你”的了解,你用得越多,我越了解你。我需要的是一个长程记忆系统,去维持我们之间的关系。所以这两件事,本质上是两个方向。
听众提问
观众:能不能把 OpenClaw 当后端,前端做一个 AI 助手?
延君晨:我不太建议。虽然今天我们一直在聊它,但大家其实有共识:它还不是一个生产级产品,更像是一个启发性的存在——它改变了大家对 agent 的认知。围绕这个范式,未来会长出很多新的产品和基础设施。
观众:能不能自动清理低效的 token 或记忆?
延君晨:这个问题本质上是"怎么管理记忆的生命周期"。在企业场景下,不太可能让所有 memory 都以最高优先级永久驻留。关键的决策点在于:是在检索激活时做动态筛选,还是在记忆写入时就做分级和压缩?飞宇在这方面做得比较深,请他来展开。
熊飞宇:在企业场景下,我觉得“裁剪”不是最核心的问题,“分级存储”反而更重要。很多时候不是不知道删什么,而是应该把合适的记忆放在合适的位置。因为我们有不同层级的存储:显存、内存、缓存、SSD、硬盘,不同层级的成本差异很大。所以关键是分配,而不是简单删除。比如在企业侧,我们最近上线了一个很重要的功能——记忆版本管理,可以对不同版本做快照。对企业来说,更关键的是记忆能不能做到可审查、可回滚、可追溯、可审计,而不是单纯删不删。
另外一方面,我们也会结合行业 know-how,在 memory 的接口和视图层面做建模。同时,通过一些模型能力去判断哪些记忆适合压缩、哪些必须保留。这也是为什么我们在 memory 内部会用到那些 0.6B 到 4B 的小模型,让它们来参与决策。所以最终是 agentic 方法 + 工程化结构,一起解决“如何裁剪和压缩记忆”这个问题。
观众:OpenClaw 能不能在企业里安全使用?
延君晨:目前不建议。刚才刘刚也提到了,OpenClaw 在安全层面还有明显短板——明文存储密钥、skill 缺乏沙箱隔离、版本更新缺少完整测试,这些离企业级要求差距不小。但作为个人探索工具,它非常有价值。我的建议是:用一台隔离的设备来玩,比如一台旧电脑、一个 mini 主机,或者单独的云服务器,不要上传敏感数据,也不要和生产环境打通。它一方面确实能帮你处理一些日常工作和生活中的小任务;但更重要的是,它是一个很好的窗口,让你直观感受当前模型能力的边界,以及整个 AI 产品演进的节奏。
观众:能不能分享一些 skill?
延君晨:我推荐 Obsidian 的 command line 插件。这本质上是一种人和 AI 协作的交互方式——Markdown结构清晰、与模型训练语料高度重叠,模型在解析和生成时表现都很好。所以如果你让 agent 习惯用 Markdown 写文档,即使 memory 出了问题,至少内容还以半结构化的形式保留下来了。
Obsidian 的特点是本地优先、纯文本存储,天然适合 AI 读写。我现在已经把个人知识库从 Notion 迁到了 Obsidian,并且把文件权限开放给我的"龙虾"。而且我有两套 Obsidian:一套是 AI 帮我维护的知识库,一套是它自己的知识库。每天晚上,有一只"龙虾"会读完我当天的所有记录,结合它自己写的内容,帮我生成一份总结——有点像替我写日记。
这种"人和 AI 共同维护知识库"的产品形态,某种程度上已经在重塑个人知识管理。当然,Obsidian 和 Notion 面向的场景有很大差异——Obsidian 更适合个人和小团队的本地知识管理,Notion 的核心价值在团队协作、权限体系和企业级集成。但至少在个人使用场景中,AI 原生的工具确实在侵蚀传统产品的边界。
昊阳之前在飞书做过一套 skill 体系,我自己一开始就是用他那套,真的很好用。后来飞书出了官方插件,说实话我觉得还没你那套好用。你要不要推荐一个?
张昊阳:我推荐一个“元 skill”,可以让 agent 自己更新 memory、生成新 skill、沉淀经验,实现自我进化,这个 skill 叫 Evolver。
你刚刚说我之前做的七十多个飞书插件,其实 90% 都是我的“小虾”自己写的。我只是提供了模板。Evolver 本质上是一个“守护进程”,它会在日志里不断捕捉 repair、optimize、innovate 这些信号。
我当时吐槽飞书的 skill 很难用,我的小虾就“get”到了。在第一次遇到某类能力时,它会创建一个新的 skill;第二次遇到类似问题时,它会去维护和优化已有的 skill。这样不断循环,最后就自动生成了七八十个 skill。我再稍微调一下,发布到 ClawHub,结果意外成了早期飞书生态的一个 open app 贡献者。
延君晨:我还拿我的"小虾"去审查过你的所有 skill,然后改了一版。某种意义上,我们已经完成了一次 agent 协作。
不过我自己对 skill 的理解是要"分层"。我大致分四层:第一层是"元 skill"——定义 agent 的基础行为框架和思维约束,类似 system prompt 级别的东西;第二层是协作 skill,定义 agent 之间什么时候互相调用、交换什么信息、怎么分工;第三层是领域 skill,在某个垂直领域内沉淀和共享;第四层才是执行 skill,比如写小红书文案、生成周报这种具体任务。
之所以要分层,一方面确实是因为上下文窗口有预算约束,不可能把所有 skill 定义一次性全塞进去;但更重要的是可组合性和按需加载——元层和协作层可以跨场景复用,领域层和执行层则按需挂载,这样每一层都能独立迭代,也不会互相干扰。
刘刚:PPTX 的 skill。我最近做 PPT 比较多,一个很痛苦的场景是:页面元素特别多,你要重新排版,每个都要手动拖,非常折磨。但用这个 skill,你只需要描述一下你想要的布局,它就能帮你整体调整,包括结构、UI、配色,甚至风格统一。尤其是在处理复杂页面时,效率提升非常明显。
熊飞宇:我最近在自己做一个写 BP 的 skill,重点不只是让它模仿我之前的写法,而是帮我提供新的思路。比如,它要先帮我提炼一条“主线”——我现在公司处于什么融资阶段,从各种零散信息里抽出一条能撑起整份 BP 的核心逻辑,而不是一句空口号。第二,它要能识别不同类型的信息来源。因为我每天接触的内容很杂,从行业趋势到认知建模,都需要整合。
还有一个我特别强调的点是:不能把“判断”写成“事实”,也不能把“愿景”写成“已验证的结论”。这是表达上的底线。另外,我不会让它直接生成完整 BP。我更希望它先生成逐页的大纲和主线,我先修改,再逐步完善,最后才是成稿。
延君晨:skill 本质上是把经验和决策逻辑封装成可复用的模块,有点像 SOP,但比 SOP 更灵活——它不只是固定流程,还可以包含判断、分支和动态工具调用。而且 skill 背后不只是步骤,还隐含了两件更重要的东西:认知框架和思维模型。所以现在写 skill,不需要太纠结具体语法——Claude 官方已经提供了很多 best practice,你甚至可以直接让 AI 帮你写。但你要想清楚的是:这个 skill 解决什么问题?用什么思维模型?关键步骤是什么?预期结果是什么?像刚才飞宇的 BP skill,本质上就是把他的思考方式封装成了一个可复用的经验。未来 AI 就可以不断复用这些经验,去处理那些可以规模化的工作。
如果要在企业里落地类似 OpenClaw 的 agent 系统,用一句话总结经验,你们会说什么?
张昊阳:如无必要,勿增实体。
熊飞宇:我刚刚看到有人问,memos 应该用 gateway 还是 embedding。这个问题其实不太是二选一。如果是刚开始接触 MemOS,我更建议先用 gateway,因为接入更快、侵入性低,对现有系统改动小,特别适合先把跨 session 的记忆和统一调度跑起来。之后再考虑 embedding。
刘刚:企业落地还是要抓两个核心:安全,以及 token 的使用效率。最终还是要看 ROI,但安全这条底线不能破。
会议推荐
QCon 全球软件开发大会·2026 北京站将于 4 月 16 日 -18 日正式举办。本届大会以“Agentic AI 时代的软件工程重塑”为主题,聚焦 100+ 重磅议题,汇聚来自阿里、腾讯、字节跳动、小米、百度等一线科技企业与创新团队的技术专家,围绕 AI 工程化、系统架构与研发模式演进展开深入探讨。更多详情可扫码或联系票务经理 18514549229 进行咨询。
热门跟贴