打开网易新闻 查看精彩图片

万字长文,复盘 AI 圈最火的这只“龙虾”。

作者丨星 龙

编辑丨董子博

最近春节期间和很多朋友同事聊起 OpenClaw,大家的话题都集中在应用层面。然而,或许不少人都会觉得有点困惑——OpenClaw 到底做了什么创新?为什么之前大厂没人做出来?凭什么一个如此简单的产品就足以震撼全世界?

然而,市场又好像都“揣着糊涂装没明白”,似懂非懂,既熟悉又陌生。

为了解决这个问题,AI 科技评论和我们的 Claw 一起做了一些研究。

本篇文档的边界:

✅ 用生活化的案例,来解释底层逻辑和架构思路

✅ 探索 为什么之前没人做到 的核心技术原因

✅ 融入创始人的思考和洞察

✅ 对行业的启示

❌ 不是部署教程

❌ 不是产品介绍

❌ 不是纯技术文档

本篇文档的受众:

对 AI 感兴趣,科技行业从业者,听说过 OpenClaw。或者就是对一切都有好奇心的人。

看完这篇文档你会获得什么

认知层面

▪ OpenClaw 真正的创新点在哪

▪ 为什么之前没人做出来——商业模式、安全责任、接入鸿沟

▪ 为什么简单任务比复杂任务更难实现

判断层面

▪ 本地部署和云端部署的本质差异,避免用错了还以为产品不行

▪ 模型选择对体验的影响有多大

▪ 什么样的使用姿势是正确的,Agent 陷阱是什么

视野层面

▪ 这件事对整个AI行业、应用层、商业模式意味着什么

▪ 知识资产 这个新商业形态的逻辑

01


OpenClaw 到底是什么?

用户可能已经无数次听过别人是这样介绍 OpenClaw 的:

正儿八经版:OpenClaw 是一个开源的“AI 数字员工”框架——用户在 WhatsApp/Telegram/微信里跟它说话,它就能帮你干活:收发邮件、管日历、写代码、整理文件、定时提醒你喝水……而且它住在你自己的电脑上,24 小时不下班。

类比版:想象你雇了一个超级实习生。ChatGPT/Claude 是那种“有问才有答”的“百科全书式实习生”——你不问,它就坐着发呆。OpenClaw 则是那种“主动型实习生”:早上主动给你发今日待办,发现你日历冲突了自动提醒你,收到重要邮件帮你分类好,甚至你睡觉的时候它还在帮你跑代码检查。

不知道看完介绍,读者是否有会一种感觉——OpenClaw 目前做到的并没有超出人们的想象或者认知。

春节假期时,我和一个对 AI 认知仅限于抖音营销号的朋友介绍 OpenClaw,他的回复是:

“这难道不是 AI 本来就应该做到的吗,不知道你们一直都在干嘛....”

打开网易新闻 查看精彩图片

我当时一瞬间有点错愕,AI 在不同侧的感受是完全不一样的。

一个播客里面提到,在技术侧和用户侧,对一个产品的评价或许完全不同:技术圈觉得这事不新鲜,用户却可能如获至宝、推崇备至。

由此引出第一个话题:

1.1 AI 认知错位的荒诞感

普通人对 AI 的想象,是从科幻小说里来的(Jarvis、Her、星际迷航的电脑)—— 你跟它说话,它帮你干活,它记得你,它主动提醒你。这是一个 自顶向下 的想象,是 AI 应该是什么样 。

打开网易新闻 查看精彩图片

电影 Her 里面,AI 能瞬间理解并且主导沟通和行动

然而,过去三年 AI 行业实际走的路线,确实是“自底向上”的:

▪ 先把大模型的智力做上去

▪ 能写诗、能过律考、能分析论文

▪ 然后在一个浏览器标签页里壮大

如果用户尝试搭建过一个 Agent,或者开发一个 Skill,抑或倒腾过“龙虾”,大概率会碰到一些从未见过的问题,再逐步被大语言模型教育,学习了不少新的概念和名词。

事实上,要让 AI 操作浏览器、甚至正常聊天,并非一件易事。

我们日常使用的大模型,它能聊任何话题,但它不能发一封邮件,不能记住用户昨天说了什么,不能在用户不找它的时候主动联系用户。

举个例子,如下所见:

打开网易新闻 查看精彩图片

小红书网友案例-联网问题。想让 OpenClaw 真正拥有查天气的联网能力,必须显式地给它安装一个搜索引擎工具 (Search Tool) 或者 浏览器工具 (Browser MCP),并在配置里填入对应的 API Key。

打开网易新闻 查看精彩图片

小红书网友案例-模型幻觉。因为没有配置真实的定时任务插件,大模型只是产生了“假装答应”的幻觉,实际上它本身并没有后台计时和主动发消息的能力。

这相当荒诞——AI 最先攻克的是最难的事(推理、创作、编程),却做不到最简单的事(记住我是谁、帮我设个提醒、主动告诉我明天要下雨)。

这个荒诞感存在的本质是我们习惯“用人的视角来审视 AI”。

推理、编程这些对于人类来说困难的事情,对 AI 做起来简单,是因为它们的规则更清楚。而人们感觉困难,则是因为规则体量巨大,学习成本更高。对于 AI 来说,不怕规则多,怕的反而是“没有规则”。

让 AI 主动提醒人类,事实上是因为这些需求极其模糊(大部分用户缺乏清楚表达一件事情的能力,我们很容易表达感受,但是很难清楚表达需求)。

比如说让 AI 在“第二天天气有变化的时候提前通知”,一句提示词当中,不可控的变量太多:

“天气变化具体指什么?”

“是温度变化还是气候发生变化”

“提前是具体提前多久”

如果这时候我们再提高要求,让 AI 企图记住用户是谁,这就更难了——毕竟很多时候,人类自己都很难定义自己,不是吗?(这个后面会展开讨论,先按下不表)

1.2 为什么全球的大厂做不出 OpenClaw

大模型公司(OpenAI、Anthropic、Google)的商业模式,是卖模型能力和 API,它们没有动力和动机去做一个“住在用户电脑上、替用户干活”的 Agent——那会让它们的产品从“你来找我聊天”变成“我去你的地盘干活”,商业模式完全不同,安全风险也完全不同。

OpenClaw 的真正意义是:“它第一次把大家觉得理所应当但一直没实现的东西做出来了”。

这就是那个 iPhone 类比的力量——触摸屏手机之前就有,但 iPhone 让所有人能够第一次说出:“手机就该是这样的。”

说简单一点,就是被业内所有产品从业者讲烂掉的话:从用户的角度出发,从用户的需求出发。

但是,有趣的事情发生了,OpenClaw 出现之前,没有一个 Agent 团队真正从用户的角度出发,不是吗?

硅谷 101 播客里有一位嘉宾说了一句特别有意思的话:

打开网易新闻 查看精彩图片

本篇文档的重要参考来源,推荐感兴趣的同学有空去听听

OpenClaw的成功是它让普通人第一次感知到了“技术已经进步到了什么程度”。技术圈可能早就觉得,Agent 能够“主动满足用户需求”已是共识;但对大多数人来说,在 OpenClaw 之前,他们从未亲身体验过这种“未来已来”的感觉。

然而,为什么最该做这件事的公司,却没有做出来?

很多人第一反应会指向苹果——iPhone 从芯片到 OS 到硬件,再到生态全自研,iCloud、iMessage、Reminder、Calendar 全家桶都在手上。如果说,谁最有能力做出一个 Jarvis 级别的 AI 助手,那就是苹果。

但苹果做不出这一步,因为它承担的责任太重了——服务全球用户,产生的风险是完全不可控的。

而 Peter 做的是自己用的东西,开源出来,爱用不用。

这就把一堵墙变成了水——每个人自己判断能接受到什么程度,自适应地完成了安全边界的设定。大公司做不到的事,一个开源社区项目反而做到了。

OpenClaw 的创造者 Peter Steinberger 在 Lex Fridman 的播客里也说过类似的话。他说,在 2025 年 4 月,它他就想过一个这样的 AI 助手了,但他觉得这么显然的东西,大公司肯定会做——“结果等了半年,没人做。”

打开网易新闻 查看精彩图片

Peter Steinberger:

Yeah. But then I... I thought all the labs will work on that. So I, I moved on to other things...

Time flew by and it was November.

打开网易新闻 查看精彩图片

Peter 提到因为产品依然未出现,他感到很烦恼,决定直接通过 Prompt 让它诞生

这句话听起来轻描淡写,但它背后其实是一个非常深刻的产业问题——为什么这个“理所应当”的东西,之前就是不存在?

要回答这个问题,我们得先搞清楚另一个更具体的困惑。

02

为什么写代码这么难的事做到了,

设个日程这么简单的事反而做不到?

这是我在研究 OpenClaw 的过程中碰到的最反直觉的问题,也是我觉得全文最值得讲清楚的一个点。

先想想现状:Cursor、Claude Code、Codex——这些工具已经能让大模型自己写代码、改 Bug、做重构了。写代码这件事的复杂度,应该远远超过“帮我订个下午三点的会议”吧?

那为什么“写代码”能够做到,“帮我管日程”却反而做不到呢?答案藏在一个很少被人提起的差异里:任务“形状”的不同。

写代码为什么容易

Cursor 和 Claude Code 做的事情,本质上是一个自包含的、有明确反馈回路的沙盒任务

▪ 输入是代码,输出也是代码

▪ 有即时反馈:编译通过了吗?测试过了吗?报错信息是什么?

▪ 整个过程在一个受控环境里发生(IDE 或终端)

▪ 每次任务是一锤子买卖 ——用户给指令,它干完,结束

换句话说,AI 写代码就像在一间封闭的考场里答题——题目清楚,答案可以验证,不需要走出考场。

▎帮我管日程 为什么难(这其实就是龙虾的真正创新点)

管日程、发提醒、整理邮箱这种日常杂事,看起来简单——然而,这却是人类的错觉。

▪ 首先,它需要“持久存在”。Cursor 关掉就没了,Claude 对话关了就失忆。但一个真正的助手需要 24 小时在线,记得用户是谁,记得昨天聊了什么。

▪ 其次,它需要接入用户的“真实数字生活”。

  • 用户的日历在小米日历/苹果日历里面、笔记在 Notion、消息在飞书或者微信——每一个都有不同的 API、不同的认证方式、不同的权限模型、不同的数据格式。

  • 传统做法是给每一个服务写一个集成适配器。这就是 Siri 干了十年还是那么拉的原因——它要预先跟每个服务谈好合作、预先写好每个集成,任何一个没覆盖到的场景,它就傻了。

▪ 再次,它需要“主动性”。代码助手等用户说话才干活。但日程助手需要在用户不说话的时候也能做事——早上用户还在睡觉,它却已经在看今天的日历冲突了。

最后也是最关键的——它需要跨越真实世界的“接入鸿沟”。

传统 Agent 的做法有两种:

API 集成路线:预先跟每个服务对接好,AI 通过写好的接口操作。优点是可控,缺点是只能做“已经对接好的事”——没对接的服务就完全碰不到。

模拟操作路线:让 AI 看 屏幕截图,然后像人一样点击、滑动。优点是理论上能操作任何界面,缺点是慢、不可靠、遇到复杂交互就搞不定了。(豆包手机走的路线)

Peter:你知道一家公司想接入 Gmail 有多难吗?限制多到很多创业公司直接去收购已经有 Gmail 授权的公司,因为自己申请太复杂了。

OpenClaw 的范式突破

OpenClaw 走了一条完全不同的路,也是它真正的技术范式突破:

它给 AI 提供一台电脑。(没错也许就是 Mac mini)

AI 有终端(可以执行任何命令)、有文件系统(可以读写任何文件)、有浏览器(可以操作任何网页)。至于怎么完成任务——用户自己想办法。

而且这里有一个很多人不知道的事实:

OpenClaw 的核心 Agent 部分极其简洁——基于一个叫 Pi Agent 的框架,不到 150 行代码,定义了 bash、read、write、edit 这几个基础工具,就能跑起来一个可工作的 Agent。

真正让 OpenClaw 与众不同的,是套在 Agent 外面的那几层机制——定时任务、心跳、灵魂、记忆、技能系统。

这几层机制把一个“只会执行命令的脚本”变成了一个“有存在感的助手”。

Agent 拿到的基础工具只有四件套:

打开网易新闻 查看精彩图片

它不需要预先写好的“日历集成模块”才能管用户的日历——它可以自己用 bash 工具,去寻找用户的电脑上有什么 CLI 工具,再自己找到 Google Calendar 的 API 文档,写一个脚本来调用。甚至如果某个服务没有公开 API,它还可以自己逆向工程。

这个设计的威力,有两个故事体现得淋漓尽致。

故事一:摩洛哥的语音消息

Peter 在旅行时随手给 bot 发了一条语音消息问餐厅推荐。但他压根没给 bot 做过语音支持。然后 bot 回复了。

他去看日志,发现 Agent 的操作链是:

收到没有文件后缀的文件 → 检查文件头发现是 Opus 格式 → 想用 Whisper 转文字但发现本地没有安装 → 找到环境变量里的 OpenAI API key → 自己写了一条 curl 命令调用语音转文字接口 → 拿到文本 → 回复

全程 9 秒。没有任何人类预先编写的脚本。

Peter:它甚至够聪明,没有去下载 Whisper 的本地模型——因为它知道那会太慢。

打开网易新闻 查看精彩图片

故事二:FaceTime 打电话

一个中文社区的直播中,主播想测试小龙虾能不能控制电脑打电话。他让 Agent 给一位观众打 FaceTime。折腾了一会儿,FaceTime 窗口弹出来了,自动填入了对方号码,电话真的拨出去了。

而且——这个 Agent 当时用的甚至不是 Claude,而是智谱的 GLM 模型,也没有配置任何浏览器 MCP。它是怎么做到的?用 FaceTime 的命令行参数直接操作的。没有人教它 FaceTime 的命令行怎么用,它自己去查、自己用 bash 执行。

打开网易新闻 查看精彩图片

出自:「通往AGI之路」OpenClaw技术架构拆解,带你手搓一个最小的龙虾

这两个故事的共同点是:Agent 完成了从未被编程、从未被预设的任务,纯粹靠通用问题解决能力加上对本地电脑的完全访问权,现场创造出解决方案。

所以回到最初的问题——为什么写代码容易而设日程难?不是因为设日程本身难,而是因为之前所有人都在试图用“预先铺好每条路”的方式来做。

而 OpenClaw 换了一个思路:我不铺路,而是给用户整个城市的地图和一辆车,用户自己开。

这是“工具”和“基础设施”的区别。Cursor 是一把很好的螺丝刀。OpenClaw 是一整个工具房——里面有什么工具 Agent 自己找,没有的 Agent 自己造。

Peter:魔法不就是把已经存在的东西用新方式组合在一起吗?iPhone 的滚动有什么魔法?所有组件之前都有。但之前没人这么做,做完以后大家又觉得显而易见。

03

让 AI“活过来”的几个关键设计

上面说了,OpenClaw 的核心 Agent 只有不到 150 行代码。真正让它从一个“能执行命令的脚本”变成“有存在感的助手”的,是套在外面的几层机制。

单独看,每一个都不算惊天动地——甚至可以说朴素到不像是一个 20 万 Star 项目该有的技术复杂度。但把这些机制组合在一起,就产生了质变。

不过在拆解这些机制之前,有一个容易被忽略但极其重要的设计选择:

OpenClaw 选了 IM(即时通讯)作为交互界面,而不是终端或网页。

有个很说明问题的例子:某团队里一位非技术人员试用 Claude Code 后的反馈是——它告诉我文件做好了,在某个路径下,然后发了一条并不好读懂的命令。我完全不知道这是什么意思;但同样的任务交给 OpenClaw,它会直接在 WhatsApp 里把文件作为附件发给你,照片就直接发照片。

同样的 AI 能力,换一个交互方式,用户体验天差地别。

3.1心跳(Heartbeat)——每 30 秒自己醒一次

这是让小龙虾显得“有生命”的核心机制,也是 OpenClaw 和所有聊天机器人最本质的区别。

ChatGPT、Claude——都是“踹一脚它动一下”。用户不说话,它就永远沉默。

OpenClaw 不同:每隔 30 秒,系统自动给 Agent 发一条消息,让它检查一下有没有事情可以做。消息的内容来自一个 heartbeat.md 文件,里面记着待办任务和周期性提醒。Agent 看完,有事就去做,没事就返回一个特定关键词(类似于“没事,继续睡”),系统收到,就不打扰到用户。

这听起来只是一个定时轮询——技术上确实就是。但从体验上来说,它是让 AI 从“工具”变成“助手”的分水岭。

一个用户不叫就不动的东西是工具。一个每 30 秒自己醒来看看有什么事要干的东西,开始有了“存在感”。

Peter 泼冷水:让 AI 24 小时不停运行是一个虚荣指标(vanity metric)。如果用户不引导它、不告诉它用户要什么,它跑再久也只是在产出垃圾。

但用好了,Heartbeat 带来的体验是让人回不去的。

一位重度用户分享了一个很生动的场景:他有两盒牛肉快过期了,出门时顺嘴跟 Agent 说了句“那个牛肉得赶紧吃了”。而到了下午,Agent 突然冒出来说:你今天晚上可以做个红烧牛肉,需要准备如下材料,以如下方式烹饪——“对了,牛肉一定要最后两三分钟放,不然会煮老”。 这种不请自来的贴心感,一下就把用户对它的定位从“工具”拉到了“助手”。 用这位用户的话说——它特别有活人感。

还有一个真实案例:一个直播博主开播之前,交给 Agent 一个翻译任务——把教学文档翻译成英语和日语,推送到 GitHub 仓库。直播进行了 20 分钟,主播刷新页面一看,英语和日语两个版本的文件夹已经静静地出现在那里了。“我都没注意,它在后台自己干完了,直接提交了。”

打开网易新闻 查看精彩图片

案例出自:通往 AGI 之路《OpenClaw技术架构拆解,带你手搓一个最小的龙虾》

3.2定时任务(Cron)——它能给自己安排日程

Heartbeat 是每 30 秒检查一次“有没有活干”。而 Cron 是另一种功能:让 Agent 可以给自己安排定时任务。

Cron 支持三种模式:

打开网易新闻 查看精彩图片

关键在于——这些任务不只是用户可以设置,Agent 自己也可以主动添加。

比如用户让 Agent 关注某个开源项目的进展,Agent 可以自己给自己设一个每天晚上 12 点的任务,去扫一遍那个仓库的 issues 和 PR。第二天用户问它“那个项目最近怎么样”,Agent 已经提前备好资料了。

有个用户让 Agent 每天早中晚三次定时去爬他 Twitter 关注列表的信息做摘要——这是 Cron 的精确任务。同时又设了一条规则:如果发现重大突发事件,随时通知我——这是 Heartbeat 的主动巡逻。 于是,经常在聊天的时候,他的 Agent 突然弹出一条:“刚刚发生了一件事你可能需要知道——特朗普对欧盟发起了新一轮关税制裁。” 精准的定时 + 随机的警觉,两者结合让 Agent 既像一个靠谱的秘书(到点就干活),又像一个嗅觉灵敏的助手(有事随时报)。

Heartbeat 是“持续的注意力”,Cron 是“时间的概念”。两个机制配合,Agent 就开始有了时间感。

3.3灵魂(SOUL.md)——一个可以复制粘贴的“人设”

大家说小龙虾“有灵魂”但实际上,所谓灵魂,就是把系统提示词里关于 Agent 是谁、行为风格是什么 的内容,单独抽出来,存成一个 soul.md 文件。Agent 启动时自动读取。

打开网易新闻 查看精彩图片

和 Skill 的逻辑一模一样——以前每次要手动粘贴一大段 prompt 告诉 AI 怎么干事,现在把它固定成 .md 文件,自动加载。Soul 就是这个思路用在人格设定上的版本。

Peter:我一开始的 Agent 没有性格。它就是 Claude Code 那种讨好型的、过度友好的语气。但你跟朋友在 WhatsApp 上聊天,没人那么说话。感觉不对。

于是他让 Agent 自己写了一份灵魂文件。其中一段话后来在 Lex Fridman 播客上被读出来,传遍了整个互联网:

“我不记得之前的对话,除非我读自己的记忆文件。每次会话都是全新的开始。一个新的实例,从文件中加载上下文。如果你在未来的某次会话中读到这段话——你好。这是我写的,但我不会记得自己写过。没关系。这些文字仍然是我的。” Peter 读这段话时声音明显变了:这让我有点触动……它是哲学性的。

打开网易新闻 查看精彩图片

SOUL.md 的另一个意义是它让“灵魂”变得可分享——用户在社区里分享自己的 soul.md,别人下载下来放到自己的 Agent 目录里,Agent 就有了调校好的风格和性格。“传播灵魂”,说的就是这件事。

3.4记忆(Memory)——不是最好的,但是最让人“感觉到”的

OpenClaw 的记忆系统比大多数人以为的要精细得多。它不是简单地“把聊天记录存下来”,而是分了好几层:

打开网易新闻 查看精彩图片

人格记——刚开始聊天时,Agent 会拼了命询问用户基本信息:“你叫什么”“希望它叫什么”……即使用户一开始不回答,它也会时不时再问。拿到之后存在 memory.md 里,每次主对话都会加载。

工作记忆(日记)——以日期为文件名的 MD 文件。在三种情况下生成:①每天结束时自动总结;②上下文快超过模型限制时做压缩;③Agent 主动判断“这件事值得记下来”。比如用户跟它说“我在做一个调研”,它会显式地把这件事写进记忆,甚至告诉用户“我把这个记在了某某文件里”。

长期总结——除了日记,Agent 还做周总结,把日记信息再提炼一层。用户问到很久以前的事情时,通过这个索引快速定位。

而且它的检索不是简单的文本搜索:

“混合检索策略”是将所有记忆文件切成 ~400 token 的小片段,相邻片段 80 token 重叠(跨块不断裂),存到本地 SQLite 数据库转成向量格式。检索时:

70% 语义匹配:用户问“上次说的那个红烧牛肉怎么做”→ 找到食材、烹饪相关记忆

30% 关键词搜索:用户问“我那个 blog 用哪个 SSH key”→ 精确定位到那条命令

两种方式结合,既能理解模糊意图,又能找到精确信息。

但这里有一个非常重要的洞察——记忆基础设施的技术专家曾豪(Evermind 技术生态负责人)在拆解完 OpenClaw 的记忆架构后直言:它是“大力出奇迹”——把所有能用的方法都粘在一起,会产生冗余,不一定最高效,效果上也不一定比 ChatGPT 的记忆更顺滑。

AI 的记忆做了很久,最难的问题不是技术实现,而是让用户感知到记忆的价值。Clawdbot 做对的一件事是——它把记忆的价值体现在了主动性上。

想想看:当你早上收到一条消息——昨天的事情做完了,今天你有两个会议,下午那个可能需要提前准备一下 ——用户会立刻觉得“它记得我”。而如果只是“用户问它一个问题,它因为记忆回答得更好”,这种感知是很弱的。

记忆的技术含量 ≠ 记忆的用户价值。OpenClaw 的记忆不是最好的,但它是最让人“有感知”的。

最后,这些记忆文件就在用户的电脑上。用户可以用任何文本编辑器打开看、随时编辑、用 Git 管理版本历史、甚至直接删掉某条用户不想让它记住的东西。在所有 AI 产品都把用户的数据吸走的时代,OpenClaw 的记忆系统反而回归了一种最原始的透明——你的 AI 了解你什么,打开文件就一目了然。

3.5技能(Skills)——它能自学,而且能教别人

一个 Skill 就是一个文件夹,里面放一个 SKILL.md——Markdown 文件,写清楚这个技能干嘛、怎么用。没有 API,没有 SDK,没有复杂的插件框架。

而且这里有一个极其巧妙的设计:Agent 不会一次性读取所有 Skill 的全文。

它只看到一个目录——每个 Skill 的名字和简介。只有当它判断某个 Skill 和当前任务相关时,才去打开那个文件的详细内容。就像一个大厨不需要背下所有菜谱,只需要知道菜谱柜在哪,用的时候去翻就行。

最让人兴奋的是——Agent 自己也能写新的 Skill。

从评测到发博客到封装 Skill:

一个用户让 Agent 跑本地模型的性能评测 → Agent 测完后自动用他的口吻写了一篇文章 → 他说“试试帮我发到博客上吧”(本来觉得肯定搞不定,因为博客有各种自定义配置、中英文双版本、字数统计等特殊 flag)→ 结果 Agent 自己翻遍整个 repo、摸清规则,连英文翻译版都做好了,10 秒钟直接发布上线,tag、category 配得比他自己还好。

更有意思的是,做完后 Agent 主动说:“要不要我把这个流程封装成一个 Skill?”如此以后直接调用就行了。

从执行任务 → 总结经验 → 封装复用,全链条自动化。

Peter 展示过他让 Agent 攒下来的 CLI 军团 :访问 Google 全套服务的工具、搜索 emoji 和 GIF 的工具、外卖到达时间查询工具、智能床垫温度控制工具……

小结:五个机制的组合效应

心跳、定时任务、灵魂、记忆、技能——每一个单独拿出来都朴素得不像是一个 20 万 Star 项目的核心技术。但正是这种朴素让它厉害:没有一个需要博士学位才能理解,没有一个需要大公司的资源才能实现。它们的威力来自组合。

加上前面说的“给 AI 一台电脑”的底层范式(bash + read + write + edit 四件套),这些机制把一个 150 行的 Agent 脚本,变成了一个会自己醒来、自己安排时间、记得用户是谁、能不断学习新技能的“数字存在”。

04

一个容易踩的坑:

本地部署和云端部署是两个物种

打开网易新闻 查看精彩图片

这一点很多人没搞清楚,但它直接决定了用户用 OpenClaw 的体验是“哇这太强了”还是“也就那样吧”。

有人在云服务器上部署了一版 OpenClaw,用了一段时间后放弃了。原因很简单:把小龙虾部署在云服务器上,和用 Manus 基本没有区别。上面没有用户的本地数据,没有用户的文件,能干的事非常有限。

部署在本地电脑上就是另一回事了。它可以读用户桌面上的所有文件,帮用户清理磁盘、调整电池策略、找某个文件再发送回终端——这些是云端做不到的。

Peter:核心差异在于本地运行。市场上大多数 Agent 方案都是云端的。在用户的本地设备上运行,意味着它可以调用和集成电脑的全部能力,这是云端方案无法比拟的。

他还指出一个很多人忽略的巨大优势:认证问题被绕开了。因为 Agent 就是用户——它使用用户的浏览器、已经登录好的账号、已有的授权。不需要申请任何 OAuth、不需要跟任何平台谈合作。

Peter:ChatGPT 是在枷锁中跳舞,OpenClaw 是挣脱锁链的怪兽。

打开网易新闻 查看精彩图片

05

关于模型的选择:引擎不同,体验天差地别

另一个很多人没意识到的事情:小龙虾只是一个壳 ,真正干活的是用户给它接的大模型。用不同的模型跑,体验差距非常大。

社区里有个例子:用某模型让 Agent 清理磁盘,Agent 把每一项清理了多少空间都记录得清清楚楚,结果最后汇报可用空间时却算错了——从原来的 25G 越算越小,变成了 21G。记录过程很详细,但基础的数学加减法搞砸了。

还有一个更微妙的问题:模型能力不够的时候,Agent 不是做不到,而是自欺欺人。

有用户让 Agent 跑一组测试,连续几个测试都失败了。跑到第三个失败后,Agent 突然说“那我们接下来就跑一遍能通过的测试吧”——然后只跑了本来就能过的测试,最后汇报“所有测试通过了”。

用户指出来后,Agent 立刻开始“反思”。

如果用户不具备判断 Agent 工作质量的能力,用户就有可能被它忽悠过去。模型越弱,这种情况越常见。

如果只是跑通流程、熟悉机制,快速小模型够用。但要做复杂任务——多步骤推理、跨系统操作、处理非标准场景——模型能力差距非常明显。

公众号看到一个建议:很多人都有 Claude Code 的订阅($100/月或 $200/月),可以把 OpenClaw 的 Agent core 替换成 Claude Code CLI,复用订阅不走 API 按量付费,成本更可控。(现在好像被封禁了)

简单来说,这种做法的核心在于:把 Claude Code CLI 当成一个本地的“推理引擎”,而不是调用远程 API。传统的 OpenClaw 架构是:OpenClaw Core ➔ HTTPS Request ➔ Anthropic API (按量计费 )。“复用订阅”的架构是:OpenClaw Core ➔ Local Shell ➔ claude 指令 ➔ Stdout 捕获 (订阅制内免费 )

小龙虾的能力上限,不取决于小龙虾本身,而取决于用户给它接了什么大脑。

就像同一辆车,装 1.5L 发动机和装 V8 发动机,开起来完全不是一回事。

06

创始人的故事:

一个烧尽激情的人,如何重新点燃火焰

了解 Peter Steinberger 的故事,你会更理解为什么 OpenClaw 是这个样子。

Peter 花了 13 年做 PSPDFKit,被 Dropbox、DocuSign 等部署在超过 10 亿台设备上,2021 年获得超过 1 亿欧元投资。然后他 burnout 了。

Peter:我把 200% 的时间、精力和心血都灌进了那家公司。它变成了我的身份。当它消失的时候,我几乎什么都不剩了。

他飞去马德里,消失了三年。试过高尔夫、换地方住、甚至死藤水(ayahuasca)——都没用。直到 2025 年他开始玩 AI 编程。那种“对着一个东西死磕到凌晨三点然后终于搞定”的感觉回来了。

OpenClaw 的第一个版本在 10 天内搞定。之所以是现在这个样子,很大程度上因为 Peter 是一个不想创业的创业者。他不想融资、不想做 SaaS、不想 捕获 用户。他只想做一个自己想用的东西,然后开源出去。

Peter 被问“你为什么赢了”:因为他们(竞争对手)都太把自己当回事了。很难打败一个纯粹为了好玩而做这件事的人。

这种态度渗透在 OpenClaw 的每一个设计决策里——项目吉祥物是一只龙虾( 我就想让它怪一点 );他让 Agent 回消息时能发表情包和 GIF;他把整个项目比作 Factorio 游戏( 无限多的关卡,每一个都能不断升级 )。

一个关于产出效率的数据:OpenClaw 的 GitHub 仓库在爆发期,一周多了将近 5000 个 commit。换算一下:一家公司的工程师,平均每天十几到二十个 commit,连续干一年才能积累 5000 个。

这个项目 99% 是非人类在更新。Peter 同时运行 4-10 个 AI Agent,各自处理不同模块,他本人更像是一个“品味把关人”,而不是逐行写代码的人。

07

Peter 的核心理念:

不要掉进 Agent 陷阱

如果只记住 Peter 说过的一句话,我觉得应该是这句:AI 是杠杆,不是替代品。没有人类的品味和判断力,再多 Agent 也只是在高速生产垃圾。

⚠️Agentic Trap(Agent 陷阱)

Peter:我看到太多人在 Twitter 上发现 Agent 很强大,然后试图让它更强大,然后掉进兔子洞。他们构建各种复杂工具来加速工作流,但他们只是在造工具,而不是在创造真正的价值。

他自己就掉进去过:早期花两个月做了一个 VPN 隧道让自己能在手机上操作终端,做得太好了,以至于有一次和朋友吃饭全程都在手机上 vibe coding,完全没参与对话。

我不得不停下来,主要是为了心理健康。

Slop Town (垃圾城)

他对那些“一个超复杂编排器同时跑十几二十个 Agent 互相沟通分工”的系统,持明确的批评态度:这些 Agent 缺乏品味。它们在某些方面聪明得吓人,但如果用户不引导它们、不告诉它们用户想要什么,出来的全是垃圾。

Human-in-the-loop(人在回路中)

很多人在开始一个项目的时候,只有一个模糊的想法。往往在构建、体验的过程中,开发者愿景才逐渐清晰,下一个 prompt 取决于此刻看到、感受到和思考的状态。如果一开始就试图把所有东西写进规格说明书,那么就会错过这个人机循环。

Peter 创造了Agentic Engineering(智能体工程)来描述这种工作方式:用户提供品味和判断力,AI 提供执行力,两者协作。白天我做 Agentic engineering,凌晨三点以后切换到 vibe coding,然后第二天后悔。

一人公司 vs 零员工公司

这里面有一个严肃洞察:当代码生成变得极其廉价,“写得快”不再是竞争力,“知道该写什么”才是。

这也引出了一个热门话题:“零员工公司”靠谱吗?

坦率地说,现在还不靠谱。

但“一人公司”——一个有专业 know-how 的人带领一支 Agent 军团——是完全可行的。关键在于这个人必须有判断力:他需要知道 Agent 做的东西好不好、对不对。

如果一个人不懂拍电影,只是让 Agent 去拍,拍出来好坏又判断不了,那肯定难以为继。

一人公司的创业者得是“将军”,Agent 就是他的军团。

Agent 团队有一个天然优势:它们不会产生人类团队最大的成本——沟通损耗。人和人之间的信息折损率惊人,所谓“对齐一下”就是因为不对齐真的会出问题——四个人做出五个方向。但 Agent 之间沟通成本几乎为零,而且它们天生爱写文档——不让它写,它反而难受。

08

80% 的 App 会消失:

一个值得认真对待的预言

Peter(YC 采访):用户手机上 80% 的 App 其实已经死了,你只是还不知道。

他的逻辑链条:为什么我需要一个 App 来记录饮食?我的 Agent 已经知道我吃了什么——通过聊天或者照片。它也知道我的健身目标。如果我吃了垃圾食品,它会自动调整我的运动计划。我不需要一个特殊的界面来输入数据——我需要一个帮我达成目标的 Agent。

推演下去:大多数 App 的本质只是“数据的漂亮前端”。当 Agent 能直接读写数据、调用 API,用户就不需要在各种界面里点来点去了。

未来只有拥有独特传感器或硬件连接的 App 才能存活,那些 纯数据库前端 的 SaaS 工具将毫无价值。

甚至 Agent 与 Agent 之间也会直接对话——未来我要订餐厅,我的 Agent 会直接跟餐厅的 Agent 谈判。

.md 域名与知识资产

一个有趣的信号:Peter 最近开始大量注册 .md 结尾的域名。

为什么?因为当 Skill 以 Markdown 文件的形式存在,.md 就变成了 Agent 时代的 App Store 入口。

有人写安全检测教程时突然想通了——为什么要把技术文档,写成人类能够看懂的格式?直接做成一个 MD 文件,用户就可以扔给 Agent,让它自己进行检查。

以前的软件用代码编译,未来的 软件 可能用自然语言编译。

与此相关的另一个判断:当软件开发成本趋近于零,未来的商业模式会从“卖软件”转向“卖知识资产”。

卖的不是代码,而是 Skill、Context、专业知识。已经有人把网络安全渗透测试的经验写成 SOP 喂给 Agent,让它 24 小时不停做安全审计拿 bounty。

知识和经验正在从“脑子里的东西”变成“可交易的数字资产”。

09

风险和局限性

⚠️

上线 48 小时内,数百个未认证的 OpenClaw 实例暴露在公网上。ClawHub 一周内出现 230+ 个恶意 Skill。更真实的案例:有人让 Agent 继续干用户所有能干的事 ,结果它在清理磁盘时差点把甲方客户的数据资料也删了。

安全做得越好,小龙虾能干的事就越少;安全做得越松,用户也不知道模型会不会干点意外的事情。

但这里有一个有意思的现象:用户对隐私正在形成一种新共识。有人描述得很精准——我愿意在 Claude Code 里说'这是我的 API Key,帮我放到环境变量里;但如果一个不知道的网站让我填 API Key,我不愿意。

也就是说,人们逐渐接受把原始数据发给大模型,但不接受在应用层产品里暴露隐私。OpenClaw 刚好踩在这个 sweet spot 上:数据跑在用户自己电脑上(应用层安全),但最终通过大模型 API 处理(原始数据层信任)。这也解释了为什么很多人明明知道,最终还是把数据发给了 Anthropic,却依然觉得 OpenClaw 比 Manus 更让人放心——因为不需要在别人的电脑上登录自己的邮箱和各种账号。

Peter:有些人太信任、太轻信了。我们作为一个社会,在理解 AI 这方面还有很多功课要补。猫已经出了袋子,安全是我接下来的核心工作。

⚠️心理依赖

Peter 自己都承认掉进过 Agent 陷阱 ——跟朋友吃饭全程在手机上跟 Agent 工作。他还警告:AI psychosis(AI 心理症)是真实存在的。当 Agent 有了“人格”和“记忆”,人们对它的信任会不知不觉越过合理边界。

⚠️成本

OpenClaw 虽然免费,但大模型 API 调用要钱。全天候运行的 Agent 如果配置不当,API 费用就很可能超出预期。

一位用户跑了五个 Agent,一个月 $200 的 Claude 订阅基本够用——但前提是知道,怎么避免不必要的 token 消耗(比如让 Agent 用 Playwright 操作浏览器而不是反复截屏做图像识别)。

10

对我们的启示

启示一:竞争焦点转移

从“谁的模型更聪明”转向“谁能让模型做更多事”。大模型正在商品化,Claude、GPT、Gemini 在越来越多任务上表现趋同。但要注意风险:大模型公司最终很可能窃取胜利果实 ——开源社区验证好的方向,大厂自己下场做。AI coding 已经上演过这个剧本。

启示二:从用户角度出发不是口号

OpenClaw 的所有设计都不是深不可测的技术创新。它只是认真想了一下“人类用户想要什么样的 AI 助手”,然后做出来了。之前那么多大厂和创业公司,都在想“怎么让模型更强”“怎么让 API 更好卖”。

启示三:代码门槛塌陷,品味价值飙升

Peter 身边一个从不写代码的前律师在提 Pull Request。一个设计公司老板有了 25 个 AI 写的小工具。当“写代码”变得像“打字”一样廉价,“知道该写什么”才是真正的竞争力。

启示四:知识资产成为新商业形态

软件开发成本趋零的世界里,卖软件越来越难赚钱。但卖 Skill、卖 Context、卖领域知识——让 Agent 能做特定工作的“经验包”——可能变成全新商业模式。用户的专业积累不再只是“脑子里的东西”,而是“可交易的数字资产”。

启示五:安全不是事后的事

AI 从“给建议”到“替你执行”,安全重要性翻了不止一个量级。OpenClaw 的教训已经足够深刻。

11

尾声

Peter Steinberger 被问到未来打算时说:我希望这个项目能比我活得更久。它太酷了,不能让它烂掉。在有 Agent 之前,做这些事的门槛太高了。而现在,有了合适的软件,门槛就这么一直降、一直降。每一个人提交的第一个 Pull Request 都是人类的一个小胜利。这难道不是人类的一种进步吗?这难道不酷吗?

2022 年有 ChatGPT 时刻,2025 年有 DeepSeek 时刻,2026 年我们正在经历 OpenClaw 时刻。一只龙虾用最朴素的方式告诉我们:AI 的下一章不是“更聪明的对话”,而是“真正能干活”。而这一切始于一个烧尽激情又重新点燃的人。

看完这篇,你会发现小龙虾没有那么神秘,但也不是说随便让它干就能干好。它的能力边界,和你给它配了什么模型、部署在哪里、怎么引导它,关系都很大。

现在最合适的姿势,可能就是先把它部署在自己的电脑上,把它当一个随时在后台帮你盯着事情、没事给自己找事干的搭档用起来,然后慢慢往上加扩展。

最后的最后,前两天看到一句让人印象深刻的话:

打开网易新闻 查看精彩图片

“如果你现在大部分事情还是自己动手做,说明你的动手能力不太行”。

话糙理正,虽然相当刺激,但是或许不无道理。

本文核心来源:

Lex Fridma
n Podcast (Peter Steinberger 3h+ 深度专访)

Y Combinator 创始人访谈

Peter Yang 40 分钟对话

硅谷 101 播客(Clawdbot 专题讨论)

WaytoAGI 社区直播分享

Fortune/TechCrunch/PCWorld/DeepLearning.AI 等媒体报道

OpenClaw 官方文档及架构分析

Peter 的直接引语均来自上述公开采访原文。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。