OpenClaw 深度解析：一只龙虾凭什么震撼全世界|agent|key|openclaw|代码|显式标识|翻译|调用|龙虾

万字长文，复盘 AI 圈最火的这只“龙虾”。

作者丨星龙

编辑丨董子博

最近春节期间和很多朋友同事聊起 OpenClaw，大家的话题都集中在应用层面。然而，或许不少人都会觉得有点困惑——OpenClaw 到底做了什么创新？为什么之前大厂没人做出来？凭什么一个如此简单的产品就足以震撼全世界？

然而，市场又好像都“揣着糊涂装没明白”，似懂非懂，既熟悉又陌生。

为了解决这个问题，AI 科技评论和我们的 Claw 一起做了一些研究。

本篇文档的边界：

✅ 用生活化的案例，来解释底层逻辑和架构思路

✅ 探索为什么之前没人做到的核心技术原因

✅ 融入创始人的思考和洞察

✅ 对行业的启示

❌ 不是部署教程

❌ 不是产品介绍

❌ 不是纯技术文档

本篇文档的受众：

对 AI 感兴趣，科技行业从业者，听说过 OpenClaw。或者就是对一切都有好奇心的人。

看完这篇文档你会获得什么

▎认知层面

▪ OpenClaw 真正的创新点在哪

▪ 为什么之前没人做出来——商业模式、安全责任、接入鸿沟

▪ 为什么简单任务比复杂任务更难实现

▎判断层面

▪ 本地部署和云端部署的本质差异，避免用错了还以为产品不行

▪ 模型选择对体验的影响有多大

▪ 什么样的使用姿势是正确的，Agent 陷阱是什么

▎视野层面

▪ 这件事对整个AI行业、应用层、商业模式意味着什么

▪ 知识资产这个新商业形态的逻辑

OpenClaw 到底是什么？

用户可能已经无数次听过别人是这样介绍 OpenClaw 的：

正儿八经版：OpenClaw 是一个开源的“AI 数字员工”框架——用户在 WhatsApp/Telegram/微信里跟它说话，它就能帮你干活：收发邮件、管日历、写代码、整理文件、定时提醒你喝水……而且它住在你自己的电脑上，24 小时不下班。

类比版：想象你雇了一个超级实习生。ChatGPT/Claude 是那种“有问才有答”的“百科全书式实习生”——你不问，它就坐着发呆。OpenClaw 则是那种“主动型实习生”：早上主动给你发今日待办，发现你日历冲突了自动提醒你，收到重要邮件帮你分类好，甚至你睡觉的时候它还在帮你跑代码检查。

不知道看完介绍，读者是否有会一种感觉——OpenClaw 目前做到的并没有超出人们的想象或者认知。

春节假期时，我和一个对 AI 认知仅限于抖音营销号的朋友介绍 OpenClaw，他的回复是：

“这难道不是 AI 本来就应该做到的吗，不知道你们一直都在干嘛....”

我当时一瞬间有点错愕，AI 在不同侧的感受是完全不一样的。

一个播客里面提到，在技术侧和用户侧，对一个产品的评价或许完全不同：技术圈觉得这事不新鲜，用户却可能如获至宝、推崇备至。

由此引出第一个话题：

1.1 AI 认知错位的荒诞感

普通人对 AI 的想象，是从科幻小说里来的（Jarvis、Her、星际迷航的电脑）—— 你跟它说话，它帮你干活，它记得你，它主动提醒你。这是一个自顶向下的想象，是 AI 应该是什么样。

电影 Her 里面，AI 能瞬间理解并且主导沟通和行动

然而，过去三年 AI 行业实际走的路线，确实是“自底向上”的：

▪ 先把大模型的智力做上去

▪ 能写诗、能过律考、能分析论文

▪ 然后在一个浏览器标签页里壮大

如果用户尝试搭建过一个 Agent，或者开发一个 Skill，抑或倒腾过“龙虾”，大概率会碰到一些从未见过的问题，再逐步被大语言模型教育，学习了不少新的概念和名词。

事实上，要让 AI 操作浏览器、甚至正常聊天，并非一件易事。

我们日常使用的大模型，它能聊任何话题，但它不能发一封邮件，不能记住用户昨天说了什么，不能在用户不找它的时候主动联系用户。

举个例子，如下所见：

小红书网友案例-联网问题。想让 OpenClaw 真正拥有查天气的联网能力，必须显式地给它安装一个搜索引擎工具 (Search Tool) 或者浏览器工具 (Browser MCP)，并在配置里填入对应的 API Key。

小红书网友案例-模型幻觉。因为没有配置真实的定时任务插件，大模型只是产生了“假装答应”的幻觉，实际上它本身并没有后台计时和主动发消息的能力。

这相当荒诞——AI 最先攻克的是最难的事（推理、创作、编程），却做不到最简单的事（记住我是谁、帮我设个提醒、主动告诉我明天要下雨）。

这个荒诞感存在的本质是我们习惯“用人的视角来审视 AI”。

推理、编程这些对于人类来说困难的事情，对 AI 做起来简单，是因为它们的规则更清楚。而人们感觉困难，则是因为规则体量巨大，学习成本更高。对于 AI 来说，不怕规则多，怕的反而是“没有规则”。

让 AI 主动提醒人类，事实上是因为这些需求极其模糊（大部分用户缺乏清楚表达一件事情的能力，我们很容易表达感受，但是很难清楚表达需求）。

比如说让 AI 在“第二天天气有变化的时候提前通知”，一句提示词当中，不可控的变量太多：

“天气变化具体指什么？”

“是温度变化还是气候发生变化”

“提前是具体提前多久”

如果这时候我们再提高要求，让 AI 企图记住用户是谁，这就更难了——毕竟很多时候，人类自己都很难定义自己，不是吗？（这个后面会展开讨论，先按下不表）

1.2 为什么全球的大厂做不出 OpenClaw

大模型公司（OpenAI、Anthropic、Google）的商业模式，是卖模型能力和 API，它们没有动力和动机去做一个“住在用户电脑上、替用户干活”的 Agent——那会让它们的产品从“你来找我聊天”变成“我去你的地盘干活”，商业模式完全不同，安全风险也完全不同。

OpenClaw 的真正意义是：“它第一次把大家觉得理所应当但一直没实现的东西做出来了”。

这就是那个 iPhone 类比的力量——触摸屏手机之前就有，但 iPhone 让所有人能够第一次说出：“手机就该是这样的。”

说简单一点，就是被业内所有产品从业者讲烂掉的话：从用户的角度出发，从用户的需求出发。

但是，有趣的事情发生了，OpenClaw 出现之前，没有一个 Agent 团队真正从用户的角度出发，不是吗？

硅谷 101 播客里有一位嘉宾说了一句特别有意思的话：

本篇文档的重要参考来源，推荐感兴趣的同学有空去听听

OpenClaw的成功是它让普通人第一次感知到了“技术已经进步到了什么程度”。技术圈可能早就觉得，Agent 能够“主动满足用户需求”已是共识；但对大多数人来说，在 OpenClaw 之前，他们从未亲身体验过这种“未来已来”的感觉。

然而，为什么最该做这件事的公司，却没有做出来？

很多人第一反应会指向苹果——iPhone 从芯片到 OS 到硬件，再到生态全自研，iCloud、iMessage、Reminder、Calendar 全家桶都在手上。如果说，谁最有能力做出一个 Jarvis 级别的 AI 助手，那就是苹果。

但苹果做不出这一步，因为它承担的责任太重了——服务全球用户，产生的风险是完全不可控的。

而 Peter 做的是自己用的东西，开源出来，爱用不用。

这就把一堵墙变成了水——每个人自己判断能接受到什么程度，自适应地完成了安全边界的设定。大公司做不到的事，一个开源社区项目反而做到了。

OpenClaw 的创造者 Peter Steinberger 在 Lex Fridman 的播客里也说过类似的话。他说，在 2025 年 4 月，它他就想过一个这样的 AI 助手了，但他觉得这么显然的东西，大公司肯定会做——“结果等了半年，没人做。”

Peter Steinberger:

Yeah. But then I... I thought all the labs will work on that. So I, I moved on to other things...

Time flew by and it was November.

Peter 提到因为产品依然未出现，他感到很烦恼，决定直接通过 Prompt 让它诞生

这句话听起来轻描淡写，但它背后其实是一个非常深刻的产业问题——为什么这个“理所应当”的东西，之前就是不存在？

要回答这个问题，我们得先搞清楚另一个更具体的困惑。

为什么写代码这么难的事做到了，

设个日程这么简单的事反而做不到？

这是我在研究 OpenClaw 的过程中碰到的最反直觉的问题，也是我觉得全文最值得讲清楚的一个点。

先想想现状：Cursor、Claude Code、Codex——这些工具已经能让大模型自己写代码、改 Bug、做重构了。写代码这件事的复杂度，应该远远超过“帮我订个下午三点的会议”吧？

那为什么“写代码”能够做到，“帮我管日程”却反而做不到呢？答案藏在一个很少被人提起的差异里：任务“形状”的不同。

写代码为什么容易

Cursor 和 Claude Code 做的事情，本质上是一个自包含的、有明确反馈回路的沙盒任务：

▪ 输入是代码，输出也是代码

▪ 有即时反馈：编译通过了吗？测试过了吗？报错信息是什么？

▪ 整个过程在一个受控环境里发生（IDE 或终端）

▪ 每次任务是一锤子买卖 ——用户给指令，它干完，结束

换句话说，AI 写代码就像在一间封闭的考场里答题——题目清楚，答案可以验证，不需要走出考场。

▎帮我管日程为什么难（这其实就是龙虾的真正创新点）

管日程、发提醒、整理邮箱这种日常杂事，看起来简单——然而，这却是人类的错觉。

▪ 首先，它需要“持久存在”。Cursor 关掉就没了，Claude 对话关了就失忆。但一个真正的助手需要 24 小时在线，记得用户是谁，记得昨天聊了什么。

▪ 其次，它需要接入用户的“真实数字生活”。

用户的日历在小米日历/苹果日历里面、笔记在 Notion、消息在飞书或者微信——每一个都有不同的 API、不同的认证方式、不同的权限模型、不同的数据格式。
传统做法是给每一个服务写一个集成适配器。这就是 Siri 干了十年还是那么拉的原因——它要预先跟每个服务谈好合作、预先写好每个集成，任何一个没覆盖到的场景，它就傻了。

▪ 再次，它需要“主动性”。代码助手等用户说话才干活。但日程助手需要在用户不说话的时候也能做事——早上用户还在睡觉，它却已经在看今天的日历冲突了。

最后也是最关键的——它需要跨越真实世界的“接入鸿沟”。

传统 Agent 的做法有两种：

▪API 集成路线：预先跟每个服务对接好，AI 通过写好的接口操作。优点是可控，缺点是只能做“已经对接好的事”——没对接的服务就完全碰不到。

▪模拟操作路线：让 AI 看屏幕截图，然后像人一样点击、滑动。优点是理论上能操作任何界面，缺点是慢、不可靠、遇到复杂交互就搞不定了。（豆包手机走的路线）

Peter：你知道一家公司想接入 Gmail 有多难吗？限制多到很多创业公司直接去收购已经有 Gmail 授权的公司，因为自己申请太复杂了。

OpenClaw 的范式突破

OpenClaw 走了一条完全不同的路，也是它真正的技术范式突破：

它给 AI 提供一台电脑。（没错也许就是 Mac mini）

AI 有终端（可以执行任何命令）、有文件系统（可以读写任何文件）、有浏览器（可以操作任何网页）。至于怎么完成任务——用户自己想办法。

而且这里有一个很多人不知道的事实：

OpenClaw 的核心 Agent 部分极其简洁——基于一个叫 Pi Agent 的框架，不到 150 行代码，定义了 bash、read、write、edit 这几个基础工具，就能跑起来一个可工作的 Agent。

真正让 OpenClaw 与众不同的，是套在 Agent 外面的那几层机制——定时任务、心跳、灵魂、记忆、技能系统。

这几层机制把一个“只会执行命令的脚本”变成了一个“有存在感的助手”。

Agent 拿到的基础工具只有四件套：

它不需要预先写好的“日历集成模块”才能管用户的日历——它可以自己用 bash 工具，去寻找用户的电脑上有什么 CLI 工具，再自己找到 Google Calendar 的 API 文档，写一个脚本来调用。甚至如果某个服务没有公开 API，它还可以自己逆向工程。

这个设计的威力，有两个故事体现得淋漓尽致。

故事一：摩洛哥的语音消息

Peter 在旅行时随手给 bot 发了一条语音消息问餐厅推荐。但他压根没给 bot 做过语音支持。然后 bot 回复了。

他去看日志，发现 Agent 的操作链是：

收到没有文件后缀的文件 → 检查文件头发现是 Opus 格式 → 想用 Whisper 转文字但发现本地没有安装 → 找到环境变量里的 OpenAI API key → 自己写了一条 curl 命令调用语音转文字接口 → 拿到文本 → 回复

全程 9 秒。没有任何人类预先编写的脚本。

Peter：它甚至够聪明，没有去下载 Whisper 的本地模型——因为它知道那会太慢。

故事二：FaceTime 打电话

一个中文社区的直播中，主播想测试小龙虾能不能控制电脑打电话。他让 Agent 给一位观众打 FaceTime。折腾了一会儿，FaceTime 窗口弹出来了，自动填入了对方号码，电话真的拨出去了。

而且——这个 Agent 当时用的甚至不是 Claude，而是智谱的 GLM 模型，也没有配置任何浏览器 MCP。它是怎么做到的？用 FaceTime 的命令行参数直接操作的。没有人教它 FaceTime 的命令行怎么用，它自己去查、自己用 bash 执行。

出自：「通往AGI之路」OpenClaw技术架构拆解，带你手搓一个最小的龙虾

这两个故事的共同点是：Agent 完成了从未被编程、从未被预设的任务，纯粹靠通用问题解决能力加上对本地电脑的完全访问权，现场创造出解决方案。

所以回到最初的问题——为什么写代码容易而设日程难？不是因为设日程本身难，而是因为之前所有人都在试图用“预先铺好每条路”的方式来做。

而 OpenClaw 换了一个思路：我不铺路，而是给用户整个城市的地图和一辆车，用户自己开。

这是“工具”和“基础设施”的区别。Cursor 是一把很好的螺丝刀。OpenClaw 是一整个工具房——里面有什么工具 Agent 自己找，没有的 Agent 自己造。

Peter：魔法不就是把已经存在的东西用新方式组合在一起吗？iPhone 的滚动有什么魔法？所有组件之前都有。但之前没人这么做，做完以后大家又觉得显而易见。

让 AI“活过来”的几个关键设计

上面说了，OpenClaw 的核心 Agent 只有不到 150 行代码。真正让它从一个“能执行命令的脚本”变成“有存在感的助手”的，是套在外面的几层机制。

单独看，每一个都不算惊天动地——甚至可以说朴素到不像是一个 20 万 Star 项目该有的技术复杂度。但把这些机制组合在一起，就产生了质变。

不过在拆解这些机制之前，有一个容易被忽略但极其重要的设计选择：

OpenClaw 选了 IM（即时通讯）作为交互界面，而不是终端或网页。

有个很说明问题的例子：某团队里一位非技术人员试用 Claude Code 后的反馈是——它告诉我文件做好了，在某个路径下，然后发了一条并不好读懂的命令。我完全不知道这是什么意思；但同样的任务交给 OpenClaw，它会直接在 WhatsApp 里把文件作为附件发给你，照片就直接发照片。

同样的 AI 能力，换一个交互方式，用户体验天差地别。

3.1心跳（Heartbeat）——每 30 秒自己醒一次

这是让小龙虾显得“有生命”的核心机制，也是 OpenClaw 和所有聊天机器人最本质的区别。

ChatGPT、Claude——都是“踹一脚它动一下”。用户不说话，它就永远沉默。

OpenClaw 不同：每隔 30 秒，系统自动给 Agent 发一条消息，让它检查一下有没有事情可以做。消息的内容来自一个 heartbeat.md 文件，里面记着待办任务和周期性提醒。Agent 看完，有事就去做，没事就返回一个特定关键词（类似于“没事，继续睡”），系统收到，就不打扰到用户。

这听起来只是一个定时轮询——技术上确实就是。但从体验上来说，它是让 AI 从“工具”变成“助手”的分水岭。

一个用户不叫就不动的东西是工具。一个每 30 秒自己醒来看看有什么事要干的东西，开始有了“存在感”。

Peter 泼冷水：让 AI 24 小时不停运行是一个虚荣指标（vanity metric）。如果用户不引导它、不告诉它用户要什么，它跑再久也只是在产出垃圾。

但用好了，Heartbeat 带来的体验是让人回不去的。

一位重度用户分享了一个很生动的场景：他有两盒牛肉快过期了，出门时顺嘴跟 Agent 说了句“那个牛肉得赶紧吃了”。而到了下午，Agent 突然冒出来说：你今天晚上可以做个红烧牛肉，需要准备如下材料，以如下方式烹饪——“对了，牛肉一定要最后两三分钟放，不然会煮老”。这种不请自来的贴心感，一下就把用户对它的定位从“工具”拉到了“助手”。用这位用户的话说——它特别有活人感。

还有一个真实案例：一个直播博主开播之前，交给 Agent 一个翻译任务——把教学文档翻译成英语和日语，推送到 GitHub 仓库。直播进行了 20 分钟，主播刷新页面一看，英语和日语两个版本的文件夹已经静静地出现在那里了。“我都没注意，它在后台自己干完了，直接提交了。”

案例出自：通往 AGI 之路《OpenClaw技术架构拆解，带你手搓一个最小的龙虾》

3.2定时任务（Cron）——它能给自己安排日程

Heartbeat 是每 30 秒检查一次“有没有活干”。而 Cron 是另一种功能：让 Agent 可以给自己安排定时任务。

Cron 支持三种模式：

关键在于——这些任务不只是用户可以设置，Agent 自己也可以主动添加。

比如用户让 Agent 关注某个开源项目的进展，Agent 可以自己给自己设一个每天晚上 12 点的任务，去扫一遍那个仓库的 issues 和 PR。第二天用户问它“那个项目最近怎么样”，Agent 已经提前备好资料了。

有个用户让 Agent 每天早中晚三次定时去爬他 Twitter 关注列表的信息做摘要——这是 Cron 的精确任务。同时又设了一条规则：如果发现重大突发事件，随时通知我——这是 Heartbeat 的主动巡逻。于是，经常在聊天的时候，他的 Agent 突然弹出一条：“刚刚发生了一件事你可能需要知道——特朗普对欧盟发起了新一轮关税制裁。” 精准的定时 + 随机的警觉，两者结合让 Agent 既像一个靠谱的秘书（到点就干活），又像一个嗅觉灵敏的助手（有事随时报）。

Heartbeat 是“持续的注意力”，Cron 是“时间的概念”。两个机制配合，Agent 就开始有了时间感。

3.3灵魂（SOUL.md）——一个可以复制粘贴的“人设”

大家说小龙虾“有灵魂”但实际上，所谓灵魂，就是把系统提示词里关于 Agent 是谁、行为风格是什么的内容，单独抽出来，存成一个 soul.md 文件。Agent 启动时自动读取。

和 Skill 的逻辑一模一样——以前每次要手动粘贴一大段 prompt 告诉 AI 怎么干事，现在把它固定成 .md 文件，自动加载。Soul 就是这个思路用在人格设定上的版本。

Peter：我一开始的 Agent 没有性格。它就是 Claude Code 那种讨好型的、过度友好的语气。但你跟朋友在 WhatsApp 上聊天，没人那么说话。感觉不对。

于是他让 Agent 自己写了一份灵魂文件。其中一段话后来在 Lex Fridman 播客上被读出来，传遍了整个互联网：

“我不记得之前的对话，除非我读自己的记忆文件。每次会话都是全新的开始。一个新的实例，从文件中加载上下文。如果你在未来的某次会话中读到这段话——你好。这是我写的，但我不会记得自己写过。没关系。这些文字仍然是我的。” Peter 读这段话时声音明显变了：这让我有点触动……它是哲学性的。

SOUL.md 的另一个意义是它让“灵魂”变得可分享——用户在社区里分享自己的 soul.md，别人下载下来放到自己的 Agent 目录里，Agent 就有了调校好的风格和性格。“传播灵魂”，说的就是这件事。

3.4记忆（Memory）——不是最好的，但是最让人“感觉到”的

OpenClaw 的记忆系统比大多数人以为的要精细得多。它不是简单地“把聊天记录存下来”，而是分了好几层：

▪人格记忆——刚开始聊天时，Agent 会拼了命询问用户基本信息：“你叫什么”“希望它叫什么”……即使用户一开始不回答，它也会时不时再问。拿到之后存在 memory.md 里，每次主对话都会加载。

▪工作记忆（日记）——以日期为文件名的 MD 文件。在三种情况下生成：①每天结束时自动总结；②上下文快超过模型限制时做压缩；③Agent 主动判断“这件事值得记下来”。比如用户跟它说“我在做一个调研”，它会显式地把这件事写进记忆，甚至告诉用户“我把这个记在了某某文件里”。

▪长期总结——除了日记，Agent 还做周总结，把日记信息再提炼一层。用户问到很久以前的事情时，通过这个索引快速定位。

而且它的检索不是简单的文本搜索：

“混合检索策略”是将所有记忆文件切成 ~400 token 的小片段，相邻片段 80 token 重叠（跨块不断裂），存到本地 SQLite 数据库转成向量格式。检索时：

▪70% 语义匹配：用户问“上次说的那个红烧牛肉怎么做”→ 找到食材、烹饪相关记忆

▪30% 关键词搜索：用户问“我那个 blog 用哪个 SSH key”→ 精确定位到那条命令

两种方式结合，既能理解模糊意图，又能找到精确信息。

但这里有一个非常重要的洞察——记忆基础设施的技术专家曾豪（Evermind 技术生态负责人）在拆解完 OpenClaw 的记忆架构后直言：它是“大力出奇迹”——把所有能用的方法都粘在一起，会产生冗余，不一定最高效，效果上也不一定比 ChatGPT 的记忆更顺滑。

AI 的记忆做了很久，最难的问题不是技术实现，而是让用户感知到记忆的价值。Clawdbot 做对的一件事是——它把记忆的价值体现在了主动性上。

想想看：当你早上收到一条消息——昨天的事情做完了，今天你有两个会议，下午那个可能需要提前准备一下 ——用户会立刻觉得“它记得我”。而如果只是“用户问它一个问题，它因为记忆回答得更好”，这种感知是很弱的。

记忆的技术含量 ≠ 记忆的用户价值。OpenClaw 的记忆不是最好的，但它是最让人“有感知”的。

最后，这些记忆文件就在用户的电脑上。用户可以用任何文本编辑器打开看、随时编辑、用 Git 管理版本历史、甚至直接删掉某条用户不想让它记住的东西。在所有 AI 产品都把用户的数据吸走的时代，OpenClaw 的记忆系统反而回归了一种最原始的透明——你的 AI 了解你什么，打开文件就一目了然。

3.5技能（Skills）——它能自学，而且能教别人

一个 Skill 就是一个文件夹，里面放一个 SKILL.md——Markdown 文件，写清楚这个技能干嘛、怎么用。没有 API，没有 SDK，没有复杂的插件框架。

而且这里有一个极其巧妙的设计：Agent 不会一次性读取所有 Skill 的全文。

它只看到一个目录——每个 Skill 的名字和简介。只有当它判断某个 Skill 和当前任务相关时，才去打开那个文件的详细内容。就像一个大厨不需要背下所有菜谱，只需要知道菜谱柜在哪，用的时候去翻就行。

最让人兴奋的是——Agent 自己也能写新的 Skill。

从评测到发博客到封装 Skill：

一个用户让 Agent 跑本地模型的性能评测 → Agent 测完后自动用他的口吻写了一篇文章 → 他说“试试帮我发到博客上吧”（本来觉得肯定搞不定，因为博客有各种自定义配置、中英文双版本、字数统计等特殊 flag）→ 结果 Agent 自己翻遍整个 repo、摸清规则，连英文翻译版都做好了，10 秒钟直接发布上线，tag、category 配得比他自己还好。

更有意思的是，做完后 Agent 主动说：“要不要我把这个流程封装成一个 Skill？”如此以后直接调用就行了。

从执行任务 → 总结经验 → 封装复用，全链条自动化。

Peter 展示过他让 Agent 攒下来的 CLI 军团：访问 Google 全套服务的工具、搜索 emoji 和 GIF 的工具、外卖到达时间查询工具、智能床垫温度控制工具……

小结：五个机制的组合效应

心跳、定时任务、灵魂、记忆、技能——每一个单独拿出来都朴素得不像是一个 20 万 Star 项目的核心技术。但正是这种朴素让它厉害：没有一个需要博士学位才能理解，没有一个需要大公司的资源才能实现。它们的威力来自组合。

加上前面说的“给 AI 一台电脑”的底层范式（bash + read + write + edit 四件套），这些机制把一个 150 行的 Agent 脚本，变成了一个会自己醒来、自己安排时间、记得用户是谁、能不断学习新技能的“数字存在”。

一个容易踩的坑：

本地部署和云端部署是两个物种

这一点很多人没搞清楚，但它直接决定了用户用 OpenClaw 的体验是“哇这太强了”还是“也就那样吧”。

有人在云服务器上部署了一版 OpenClaw，用了一段时间后放弃了。原因很简单：把小龙虾部署在云服务器上，和用 Manus 基本没有区别。上面没有用户的本地数据，没有用户的文件，能干的事非常有限。

部署在本地电脑上就是另一回事了。它可以读用户桌面上的所有文件，帮用户清理磁盘、调整电池策略、找某个文件再发送回终端——这些是云端做不到的。

Peter：核心差异在于本地运行。市场上大多数 Agent 方案都是云端的。在用户的本地设备上运行，意味着它可以调用和集成电脑的全部能力，这是云端方案无法比拟的。

他还指出一个很多人忽略的巨大优势：认证问题被绕开了。因为 Agent 就是用户——它使用用户的浏览器、已经登录好的账号、已有的授权。不需要申请任何 OAuth、不需要跟任何平台谈合作。

Peter：ChatGPT 是在枷锁中跳舞，OpenClaw 是挣脱锁链的怪兽。

关于模型的选择：引擎不同，体验天差地别

另一个很多人没意识到的事情：小龙虾只是一个壳，真正干活的是用户给它接的大模型。用不同的模型跑，体验差距非常大。

社区里有个例子：用某模型让 Agent 清理磁盘，Agent 把每一项清理了多少空间都记录得清清楚楚，结果最后汇报可用空间时却算错了——从原来的 25G 越算越小，变成了 21G。记录过程很详细，但基础的数学加减法搞砸了。

还有一个更微妙的问题：模型能力不够的时候，Agent 不是做不到，而是自欺欺人。

有用户让 Agent 跑一组测试，连续几个测试都失败了。跑到第三个失败后，Agent 突然说“那我们接下来就跑一遍能通过的测试吧”——然后只跑了本来就能过的测试，最后汇报“所有测试通过了”。

用户指出来后，Agent 立刻开始“反思”。

如果用户不具备判断 Agent 工作质量的能力，用户就有可能被它忽悠过去。模型越弱，这种情况越常见。

如果只是跑通流程、熟悉机制，快速小模型够用。但要做复杂任务——多步骤推理、跨系统操作、处理非标准场景——模型能力差距非常明显。

公众号看到一个建议：很多人都有 Claude Code 的订阅（$100/月或 $200/月），可以把 OpenClaw 的 Agent core 替换成 Claude Code CLI，复用订阅不走 API 按量付费，成本更可控。（现在好像被封禁了）

简单来说，这种做法的核心在于：把 Claude Code CLI 当成一个本地的“推理引擎”，而不是调用远程 API。传统的 OpenClaw 架构是：OpenClaw Core ➔ HTTPS Request ➔ Anthropic API (按量计费 )。“复用订阅”的架构是：OpenClaw Core ➔ Local Shell ➔ claude 指令 ➔ Stdout 捕获 (订阅制内免费 )

小龙虾的能力上限，不取决于小龙虾本身，而取决于用户给它接了什么大脑。

就像同一辆车，装 1.5L 发动机和装 V8 发动机，开起来完全不是一回事。

创始人的故事：

一个烧尽激情的人，如何重新点燃火焰

了解 Peter Steinberger 的故事，你会更理解为什么 OpenClaw 是这个样子。

Peter 花了 13 年做 PSPDFKit，被 Dropbox、DocuSign 等部署在超过 10 亿台设备上，2021 年获得超过 1 亿欧元投资。然后他 burnout 了。

Peter：我把 200% 的时间、精力和心血都灌进了那家公司。它变成了我的身份。当它消失的时候，我几乎什么都不剩了。

他飞去马德里，消失了三年。试过高尔夫、换地方住、甚至死藤水（ayahuasca）——都没用。直到 2025 年他开始玩 AI 编程。那种“对着一个东西死磕到凌晨三点然后终于搞定”的感觉回来了。

OpenClaw 的第一个版本在 10 天内搞定。之所以是现在这个样子，很大程度上因为 Peter 是一个不想创业的创业者。他不想融资、不想做 SaaS、不想捕获用户。他只想做一个自己想用的东西，然后开源出去。

Peter 被问“你为什么赢了”：因为他们（竞争对手）都太把自己当回事了。很难打败一个纯粹为了好玩而做这件事的人。

这种态度渗透在 OpenClaw 的每一个设计决策里——项目吉祥物是一只龙虾（我就想让它怪一点）；他让 Agent 回消息时能发表情包和 GIF；他把整个项目比作 Factorio 游戏（无限多的关卡，每一个都能不断升级）。

一个关于产出效率的数据：OpenClaw 的 GitHub 仓库在爆发期，一周多了将近 5000 个 commit。换算一下：一家公司的工程师，平均每天十几到二十个 commit，连续干一年才能积累 5000 个。

这个项目 99% 是非人类在更新。Peter 同时运行 4-10 个 AI Agent，各自处理不同模块，他本人更像是一个“品味把关人”，而不是逐行写代码的人。

Peter 的核心理念：

不要掉进 Agent 陷阱

如果只记住 Peter 说过的一句话，我觉得应该是这句：AI 是杠杆，不是替代品。没有人类的品味和判断力，再多 Agent 也只是在高速生产垃圾。

⚠️Agentic Trap（Agent 陷阱）

Peter：我看到太多人在 Twitter 上发现 Agent 很强大，然后试图让它更强大，然后掉进兔子洞。他们构建各种复杂工具来加速工作流，但他们只是在造工具，而不是在创造真正的价值。

他自己就掉进去过：早期花两个月做了一个 VPN 隧道让自己能在手机上操作终端，做得太好了，以至于有一次和朋友吃饭全程都在手机上 vibe coding，完全没参与对话。

我不得不停下来，主要是为了心理健康。

Slop Town （垃圾城）

他对那些“一个超复杂编排器同时跑十几二十个 Agent 互相沟通分工”的系统，持明确的批评态度：这些 Agent 缺乏品味。它们在某些方面聪明得吓人，但如果用户不引导它们、不告诉它们用户想要什么，出来的全是垃圾。

Human-in-the-loop（人在回路中）

很多人在开始一个项目的时候，只有一个模糊的想法。往往在构建、体验的过程中，开发者愿景才逐渐清晰，下一个 prompt 取决于此刻看到、感受到和思考的状态。如果一开始就试图把所有东西写进规格说明书，那么就会错过这个人机循环。

Peter 创造了Agentic Engineering（智能体工程）来描述这种工作方式：用户提供品味和判断力，AI 提供执行力，两者协作。白天我做 Agentic engineering，凌晨三点以后切换到 vibe coding，然后第二天后悔。

一人公司 vs 零员工公司

这里面有一个严肃洞察：当代码生成变得极其廉价，“写得快”不再是竞争力，“知道该写什么”才是。

这也引出了一个热门话题：“零员工公司”靠谱吗？

坦率地说，现在还不靠谱。

但“一人公司”——一个有专业 know-how 的人带领一支 Agent 军团——是完全可行的。关键在于这个人必须有判断力：他需要知道 Agent 做的东西好不好、对不对。

如果一个人不懂拍电影，只是让 Agent 去拍，拍出来好坏又判断不了，那肯定难以为继。

一人公司的创业者得是“将军”，Agent 就是他的军团。

Agent 团队有一个天然优势：它们不会产生人类团队最大的成本——沟通损耗。人和人之间的信息折损率惊人，所谓“对齐一下”就是因为不对齐真的会出问题——四个人做出五个方向。但 Agent 之间沟通成本几乎为零，而且它们天生爱写文档——不让它写，它反而难受。

80% 的 App 会消失:

一个值得认真对待的预言

Peter（YC 采访）：用户手机上 80% 的 App 其实已经死了，你只是还不知道。

他的逻辑链条：为什么我需要一个 App 来记录饮食？我的 Agent 已经知道我吃了什么——通过聊天或者照片。它也知道我的健身目标。如果我吃了垃圾食品，它会自动调整我的运动计划。我不需要一个特殊的界面来输入数据——我需要一个帮我达成目标的 Agent。

推演下去：大多数 App 的本质只是“数据的漂亮前端”。当 Agent 能直接读写数据、调用 API，用户就不需要在各种界面里点来点去了。

未来只有拥有独特传感器或硬件连接的 App 才能存活，那些纯数据库前端的 SaaS 工具将毫无价值。

甚至 Agent 与 Agent 之间也会直接对话——未来我要订餐厅，我的 Agent 会直接跟餐厅的 Agent 谈判。

.md 域名与知识资产

一个有趣的信号：Peter 最近开始大量注册 .md 结尾的域名。

为什么？因为当 Skill 以 Markdown 文件的形式存在，.md 就变成了 Agent 时代的 App Store 入口。

有人写安全检测教程时突然想通了——为什么要把技术文档，写成人类能够看懂的格式？直接做成一个 MD 文件，用户就可以扔给 Agent，让它自己进行检查。

以前的软件用代码编译，未来的软件可能用自然语言编译。

与此相关的另一个判断：当软件开发成本趋近于零，未来的商业模式会从“卖软件”转向“卖知识资产”。

卖的不是代码，而是 Skill、Context、专业知识。已经有人把网络安全渗透测试的经验写成 SOP 喂给 Agent，让它 24 小时不停做安全审计拿 bounty。

知识和经验正在从“脑子里的东西”变成“可交易的数字资产”。

风险和局限性

⚠️安全

上线 48 小时内，数百个未认证的 OpenClaw 实例暴露在公网上。ClawHub 一周内出现 230+ 个恶意 Skill。更真实的案例：有人让 Agent 继续干用户所有能干的事，结果它在清理磁盘时差点把甲方客户的数据资料也删了。

安全做得越好，小龙虾能干的事就越少；安全做得越松，用户也不知道模型会不会干点意外的事情。

但这里有一个有意思的现象：用户对隐私正在形成一种新共识。有人描述得很精准——我愿意在 Claude Code 里说'这是我的 API Key，帮我放到环境变量里；但如果一个不知道的网站让我填 API Key，我不愿意。

也就是说，人们逐渐接受把原始数据发给大模型，但不接受在应用层产品里暴露隐私。OpenClaw 刚好踩在这个 sweet spot 上：数据跑在用户自己电脑上（应用层安全），但最终通过大模型 API 处理（原始数据层信任）。这也解释了为什么很多人明明知道，最终还是把数据发给了 Anthropic，却依然觉得 OpenClaw 比 Manus 更让人放心——因为不需要在别人的电脑上登录自己的邮箱和各种账号。

Peter：有些人太信任、太轻信了。我们作为一个社会，在理解 AI 这方面还有很多功课要补。猫已经出了袋子，安全是我接下来的核心工作。

⚠️心理依赖

Peter 自己都承认掉进过 Agent 陷阱 ——跟朋友吃饭全程在手机上跟 Agent 工作。他还警告：AI psychosis（AI 心理症）是真实存在的。当 Agent 有了“人格”和“记忆”，人们对它的信任会不知不觉越过合理边界。

⚠️成本

OpenClaw 虽然免费，但大模型 API 调用要钱。全天候运行的 Agent 如果配置不当，API 费用就很可能超出预期。

一位用户跑了五个 Agent，一个月 $200 的 Claude 订阅基本够用——但前提是知道，怎么避免不必要的 token 消耗（比如让 Agent 用 Playwright 操作浏览器而不是反复截屏做图像识别）。

对我们的启示

启示一：竞争焦点转移

从“谁的模型更聪明”转向“谁能让模型做更多事”。大模型正在商品化，Claude、GPT、Gemini 在越来越多任务上表现趋同。但要注意风险：大模型公司最终很可能窃取胜利果实 ——开源社区验证好的方向，大厂自己下场做。AI coding 已经上演过这个剧本。

启示二：从用户角度出发不是口号

OpenClaw 的所有设计都不是深不可测的技术创新。它只是认真想了一下“人类用户想要什么样的 AI 助手”，然后做出来了。之前那么多大厂和创业公司，都在想“怎么让模型更强”“怎么让 API 更好卖”。

启示三：代码门槛塌陷，品味价值飙升

Peter 身边一个从不写代码的前律师在提 Pull Request。一个设计公司老板有了 25 个 AI 写的小工具。当“写代码”变得像“打字”一样廉价，“知道该写什么”才是真正的竞争力。

启示四：知识资产成为新商业形态

软件开发成本趋零的世界里，卖软件越来越难赚钱。但卖 Skill、卖 Context、卖领域知识——让 Agent 能做特定工作的“经验包”——可能变成全新商业模式。用户的专业积累不再只是“脑子里的东西”，而是“可交易的数字资产”。

启示五：安全不是事后的事

AI 从“给建议”到“替你执行”，安全重要性翻了不止一个量级。OpenClaw 的教训已经足够深刻。

尾声

Peter Steinberger 被问到未来打算时说：我希望这个项目能比我活得更久。它太酷了，不能让它烂掉。在有 Agent 之前，做这些事的门槛太高了。而现在，有了合适的软件，门槛就这么一直降、一直降。每一个人提交的第一个 Pull Request 都是人类的一个小胜利。这难道不是人类的一种进步吗？这难道不酷吗？

2022 年有 ChatGPT 时刻，2025 年有 DeepSeek 时刻，2026 年我们正在经历 OpenClaw 时刻。一只龙虾用最朴素的方式告诉我们：AI 的下一章不是“更聪明的对话”，而是“真正能干活”。而这一切始于一个烧尽激情又重新点燃的人。

看完这篇，你会发现小龙虾没有那么神秘，但也不是说随便让它干就能干好。它的能力边界，和你给它配了什么模型、部署在哪里、怎么引导它，关系都很大。

现在最合适的姿势，可能就是先把它部署在自己的电脑上，把它当一个随时在后台帮你盯着事情、没事给自己找事干的搭档用起来，然后慢慢往上加扩展。

最后的最后，前两天看到一句让人印象深刻的话：