逼走 OpenClaw 后，Anthropic 还是买了一家 Agent 公司|agent|anthropic|openai|安全卫士|极客|电脑

Agent 大战，谁也等不起。

作者｜桦林舞王

编辑｜靖宇

2025 年底，一个奥地利开发者 Peter Steinberger 用一个小时写了个 Agent 工具，最初叫 Clawdbot，名字蹭了 Claude 的边。Anthropic 发律师函威胁法律行动，Steinberger 被迫改名，先改成 Moltbot，后来又改成 OpenClaw。

这本来是一件小事。

但 OpenClaw 随后爆了。GitHub 上狂飙到 17 万星，单周访问量破 200 万，成了有史以来增长最快的开源 Agent 项目之一。更关键的是，它默认推荐用 Claude 模型跑任务——某种程度上，它是 Anthropic 最大的免费流量入口之一。

然后 Anthropic 做了一件蠢事：开始封禁那些把 Claude API 接入 OpenClaw 的用户账号。

社区炸了。

Vercept 的产品让 AI 可以让 AI 控制电脑｜图片来源：Vercept

「用自己花钱买的 API 做自动化，被封号」，这个操作让 AI 圈对 Anthropic 的舆论在一夜之间翻转。Steinberger 本人也彻底凉了对 Anthropic 的心。

2026 年 2 月 15 日，Sam Altman 宣布：Peter Steinberger 加入 OpenAI，负责下一代个人 Agent。

11 天后，Anthropic 宣布收购 Vercept。

媒体的第一反应大多是：「又一家创业公司被大厂收购了。」

但这两件事放在一起看，说的是同一件事：AI 的战场正在发生一次非常具体的迁移——从「谁的模型更聪明」，到「谁能让 AI 真正控制一台电脑」。

而在这场迁移里，Anthropic 目前处于被动追赶的位置，部分原因是它自己造成的。

屏幕，真正的「最后一公里」

过去几年，AI 的能力突破大多发生在对话框里——你打字，它回答，精准、流畅、越来越快。但有一件事始终没变：你依然得亲自打开软件、点击按钮、复制粘贴，然后再回来问 AI 下一步怎么做。

这就是 Agent 要解决的问题。

Agent 不是让 AI 更聪明地回答你，而是让 AI 直接替你干活：帮你打开 Excel、填好表格、切换到邮件客户端、把数据发出去，然后关掉窗口。整个过程，你只需要说一句话。

问题在于，要做到这一步，AI 必须先「看懂」你的屏幕——识别出每一个按钮、输入框、菜单，然后像人一样去点它。

这件事听起来简单，实际上极难。

一个有意思的现象是，在 AI 写代码、做分析、生成报告这些领域，各家的差距已经越来越小。但在「看屏幕、控电脑」这件事上，差距依然是代差级别的。

OpenAI 自己的 Operator，在 OSWorld（模拟真实电脑操作任务的基准测试）上得分是 38.1%。Anthropic 的 Computer Use，只有 22%。而人类平均水平是 72.4%——对，AI 做这件事，目前还远不如普通人顺手。

Vercept 为什么值得？

这就是 Vercept 被盯上的原因。

Vercept 的创始团队来自 Allen 人工智能研究所（Ai2），几个人在机器人感知、计算机视觉、强化学习领域都有深厚积累。

Vercept 团队做的 Vy，走的是一条和 OpenAI 完全不同的技术路线。

Operator 的逻辑是「读代码」：通过解析网页底层 DOM 结构（文档对象模型），理解界面有哪些元素可以交互。这种方式速度快、稳定性好，但有一个硬伤——它只对有结构的 web 界面有效。碰到本地软件、老系统、没有 API 的企业应用，它就完全没辙。

Vy 的逻辑是「看像素」：不断截图，用视觉模型理解屏幕上的所有内容，再模拟鼠标键盘操作。覆盖范围是任何有屏幕的软件——不管是 Excel、本地 ERP，还是一个 20 年前开发的企业内网系统。

Vercept 介绍视频｜视频来源：Vercept

Vercept 公布过一组数据：在 UI 元素识别基准测试 ScreenSpot v1 上，他们自研的 VyUI 模型准确率是 92%，OpenAI 同类模型是 18.3%。ScreenSpot v2 上是 94.7% 对 87.9%。

这个差距不是「我们优化得更好」，而是底层技术路线带来的系统性优势。

正是这个东西，补了 Anthropic 的短板。

Claude 的 Computer Use 能用，但一直不够惊艳。吸收 Vercept 的模型和团队，是 Anthropic 在「看屏幕」这件事上最快的提速方式。

OpenAI 在抢的，

是另一个入口

OpenAI 合并的 OpenClaw 是另一回事，但同样关键。

Peter Steinberger 做的 OpenClaw，不是桌面 Agent，而是把 AI 操控能力接入 WhatsApp、Telegram 这类消息平台——你在手机上发一条消息，它帮你在电脑上完成一个任务。

这条路解决的不是「AI 怎么看屏幕」，而是「用户从哪里发指令」。

这个细节很重要。大多数人不会专门打开一个 Agent 界面来操作电脑，但每天都在用消息 App。把指令入口放进消息 App，是让 Agent 真正融入日常使用习惯的关键一步。

OpenAI 收人而不是收公司，抢的就是这个方向的工程能力和产品直觉。

所以这两笔「收购」，针对的是 Agent 版图的不同层次：Anthropic 在补「屏幕感知」的技术短板，OpenAI 在布局「指令入口」的场景卡位。

一个是基础设施，一个是用户习惯，缺哪个都不行。

更大的背景是，这场战争等不起。

Google、Microsoft 早就在布局，UiPath 这类 RPA（机器人流程自动化）公司的股价在 Anthropic 收购 Vercept 的消息发出后下跌了 3.6%——市场已经嗅到了威胁。

Agent 时代的竞争，本质上是一场基础设施的抢占。谁先把「AI 控制电脑」这件事做到足够好用，谁就在未来几年的企业和个人市场里握有真正的筹码。

Vercept 联合创始人兼早期投资者 Oren Etzioni 说了一句挺直白的话：「我们基本上还是认输了。」

但认输的原因，不是技术不好——他们的技术在某些维度上领先全场。认输的原因，是这场战争烧的钱和资源，不是一家 20 人的初创公司能撑起来的。

这大概也是 AI Agent 这个赛道最无情的地方：

好技术不够，还得有足够大的容器来装它。

*头图来源：ProductHunt

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你认为 Vercept 的技术，

和豆包手机有什么区别？

苹果宣布 Mac mini，首度实现美国本土化生产。

点赞关注极客公园视频号，

逼走 OpenClaw 后，Anthropic 还是买了一家 Agent 公司

热搜

热门跟贴

热搜

热门跟贴

相关推荐

OpenAI最新报告：Codex取代ChatGPT，大神让“Agent团队”干活

造ChatGPT的人，已经不用ChatGPT干活了

美国政府对OpenAI出手！GPT-5.6惨遭“截胡”

Hermes上线3000多种电子宠物，8大更新必看

正确使用微信“小微”的12个姿势

从需求到设计到代码，一个软件全搞定！TRAE Work Design实测来了

“框架”比“模型”本身对Agent成功的影响大7倍！“推理成本”和“部署效率”才是创业公司的核心竞争优势

刚刚，全球第一个能同时扫微信和支付宝的AI眼镜，诞生了

AI就业冲击已初现裂缝，高盛：1500万美国工人或将经历岗位转移

Agent输出到底该用谁？ 卡帕西转发：试试让AI输出HTML

这个时代必须以Agent为中心：三个趋势回顾

AI成本反噬终端与IPO延期共振：拥挤的算力交易迎来重估时刻

40年来从未见过的景象！数据中心与内存成本激增正在推动第三波通胀浪潮

王晓野：Working Agent将是下一个爆发点

巨石强森现身上海参加活动，主动拿起现场观众的手机合影，并调侃：这是AI

德国输球，竟完成对韩国的“间接复仇”

鼠标坏了后走好几天流程，依然没领到新的，找老田维修问题被秒解

2.8万Star爆款作者竟被谷歌裁了！硅谷大佬火速抢人

“911电话号码是多少？”

Leader 考核实习生：“你怎么配置 Claude Code？” 我挠头：“多写 Skills？” 她摇头：“明天别来了！”

Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML