打开网易新闻 查看精彩图片

2026年1月底,一个开源项目在GitHub上7天斩获10万星。不是新模型,不是新框架,而是一个叫OpenClaw的"个人AI代理"——它能帮你干ChatGPT死活干不了的事:查话费、和保险扯皮、跨WhatsApp和Slack追deadline。

开发者AJ Stuyvenberg用它谈下一辆车的价格,省了4200美元。方法很朴素:让代理接管邮箱,跟经销商来回磨了几天。

有人叫它"长了手的Claude"。这个比喻流传很广,也错得很离谱。

OpenClaw的本质不是给聊天机器人接几只机械臂,而是把生产级AI代理的完整架构摊开了给你看。搞懂它,你就搞懂了现在所有agentic系统的运作逻辑。

三层架构:消息怎么变成行动

三层架构:消息怎么变成行动

大多数人装OpenClaw是想要个更聪明的聊天工具。实际到手的,是一个跑在本地或VPS上的网关进程。它把你日常用的通讯平台串成一张网,每条消息都塞进一个LLM驱动的运行时——这个运行时真的能对外部世界动手。

WhatsApp、Telegram、Slack、Discord、Signal、iMessage、WebChat,全部连进同一个Gateway。你在WhatsApp发语音,在Slack打字,面对的是同一个代理。它记得你两分钟前在另一个平台说过什么。

代理的指令、性格、工具连接,全写进三份配置文件:SOUL.md定义身份,USER.md交代你的背景,AGENTS.md划定行为边界。没有图形界面,纯文本,像给新员工写入职手册。

消息进来后要走完七步:渠道标准化→路由与会话序列化→上下文组装→模型推理→ReAct循环→按需加载技能→记忆持久化。ReAct那一步是关键——代理自己决定"想→做→观察→再想"的循环次数,直到任务闭环。

工具层:MCP协议与浏览器自动化

工具层:MCP协议与浏览器自动化

代理要干活,得接外部服务。OpenClaw用MCP(模型上下文协议)打通这些连接。一个MCP server就是一块乐高,插上去就能调API、读数据库、操作浏览器

浏览器任务是最直观的例子。你说"帮我订下周去上海的机票",代理会:打开航司网站→搜索航班→对比价格→填你的常旅客信息→ hold住座位→截图发你确认。全程在隔离的浏览器实例里跑,你能看到它点了什么、卡在哪一步。

技能是按需加载的。代理不会启动就背下所有工具文档,而是推断"现在需要查日历",然后去调对应的MCP server。省token,也省上下文窗口的噪音。

安全:自己托管的代价

安全:自己托管的代价

OpenClaw的安全设计很"旧派"——默认不信任任何一层。网关绑定localhost,外网流量进不来;token认证强制开启,没有匿名访问;文件权限锁死,代理能读哪些目录写进白名单。

群聊行为要单独配置。你可以让代理只在被@时回应,或者完全忽略群组消息。否则把代理拉进50人的工作群,它会被@到token破产。

最头疼的是"引导问题"(bootstrap problem):代理需要凭证才能登录你的服务,但这些凭证存在哪?OpenClaw的解法是本地加密存储+启动时手动解锁。没有云托管的密码管理器,也没有"一键同步所有账号"的魔法。

提示词注入是另一个雷区。攻击者如果能在你让代理处理的邮件里塞指令,理论上可以劫持代理行为。OpenClaw的防御很务实:社区技能必须经过人工审计才能进官方仓库,运行时还有一层行为沙箱——代理想删文件或对外转账,会触发二次确认。

安全审计工具是内置的。跑一遍能列出所有暴露的攻击面:哪些MCP server有网络权限、哪些文件路径可读、代理的system prompt有没有被用户消息污染的风险。

为什么是现在

为什么是现在

AJ Stuyvenberg那4200美元的案例之所以出圈,是因为它戳破了一个幻觉:我们以为AI代理需要多复杂的规划能力,其实很多时候只是"持续跟进"——在正确的时间发正确的邮件,记住三天前经销商说过什么,不被已读不回搞崩心态。

OpenClaw的代码量不算大,但每一行都在回答"生产级代理长什么样"。它不是demo,是跑在真实开发者机器上的基础设施。100,000颗GitHub星里,有多少人会真的部署?不知道。但至少现在,想亲手搭一个的人有了完整的图纸。

你会让一个代理接管你的邮箱去谈判吗?如果省了4200美元,但全程不知道它具体发了什么——这笔账怎么算?