Agent 大战,谁也等不起。
作者|桦林舞王
编辑|靖宇
2025 年底,一个奥地利开发者 Peter Steinberger 用一个小时写了个 Agent 工具,最初叫 Clawdbot,名字蹭了 Claude 的边。Anthropic 发律师函威胁法律行动,Steinberger 被迫改名,先改成 Moltbot,后来又改成 OpenClaw。
这本来是一件小事。
但 OpenClaw 随后爆了。GitHub 上狂飙到 17 万星,单周访问量破 200 万,成了有史以来增长最快的开源 Agent 项目之一。更关键的是,它默认推荐用 Claude 模型跑任务——某种程度上,它是 Anthropic 最大的免费流量入口之一。
然后 Anthropic 做了一件蠢事:开始封禁那些把 Claude API 接入 OpenClaw 的用户账号。
社区炸了。
Vercept 的产品让 AI 可以让 AI 控制电脑|图片来源:Vercept
「用自己花钱买的 API 做自动化,被封号」,这个操作让 AI 圈对 Anthropic 的舆论在一夜之间翻转。Steinberger 本人也彻底凉了对 Anthropic 的心。
2026 年 2 月 15 日,Sam Altman 宣布:Peter Steinberger 加入 OpenAI,负责下一代个人 Agent。
11 天后,Anthropic 宣布收购 Vercept。
媒体的第一反应大多是:「又一家创业公司被大厂收购了。」
但这两件事放在一起看,说的是同一件事:AI 的战场正在发生一次非常具体的迁移——从「谁的模型更聪明」,到「谁能让 AI 真正控制一台电脑」。
而在这场迁移里,Anthropic 目前处于被动追赶的位置,部分原因是它自己造成的。
01
屏幕,真正的「最后一公里」
过去几年,AI 的能力突破大多发生在对话框里——你打字,它回答,精准、流畅、越来越快。但有一件事始终没变:你依然得亲自打开软件、点击按钮、复制粘贴,然后再回来问 AI 下一步怎么做。
这就是 Agent 要解决的问题。
Agent 不是让 AI 更聪明地回答你,而是让 AI 直接替你干活:帮你打开 Excel、填好表格、切换到邮件客户端、把数据发出去,然后关掉窗口。整个过程,你只需要说一句话。
问题在于,要做到这一步,AI 必须先「看懂」你的屏幕——识别出每一个按钮、输入框、菜单,然后像人一样去点它。
这件事听起来简单,实际上极难。
一个有意思的现象是,在 AI 写代码、做分析、生成报告这些领域,各家的差距已经越来越小。但在「看屏幕、控电脑」这件事上,差距依然是代差级别的。
OpenAI 自己的 Operator,在 OSWorld(模拟真实电脑操作任务的基准测试)上得分是 38.1%。Anthropic 的 Computer Use,只有 22%。而人类平均水平是 72.4%——对,AI 做这件事,目前还远不如普通人顺手。
02
Vercept 为什么值得?
这就是 Vercept 被盯上的原因。
Vercept 的创始团队来自 Allen 人工智能研究所(Ai2),几个人在机器人感知、计算机视觉、强化学习领域都有深厚积累。
Vercept 团队做的 Vy,走的是一条和 OpenAI 完全不同的技术路线。
Operator 的逻辑是「读代码」:通过解析网页底层 DOM 结构(文档对象模型),理解界面有哪些元素可以交互。这种方式速度快、稳定性好,但有一个硬伤——它只对有结构的 web 界面有效。碰到本地软件、老系统、没有 API 的企业应用,它就完全没辙。
Vy 的逻辑是「看像素」:不断截图,用视觉模型理解屏幕上的所有内容,再模拟鼠标键盘操作。覆盖范围是任何有屏幕的软件——不管是 Excel、本地 ERP,还是一个 20 年前开发的企业内网系统。
Vercept 介绍视频|视频来源:Vercept
Vercept 公布过一组数据:在 UI 元素识别基准测试 ScreenSpot v1 上,他们自研的 VyUI 模型准确率是 92%,OpenAI 同类模型是 18.3%。ScreenSpot v2 上是 94.7% 对 87.9%。
这个差距不是「我们优化得更好」,而是底层技术路线带来的系统性优势。
正是这个东西,补了 Anthropic 的短板。
Claude 的 Computer Use 能用,但一直不够惊艳。吸收 Vercept 的模型和团队,是 Anthropic 在「看屏幕」这件事上最快的提速方式。
03
OpenAI 在抢的,
是另一个入口
OpenAI 合并的 OpenClaw 是另一回事,但同样关键。
Peter Steinberger 做的 OpenClaw,不是桌面 Agent,而是把 AI 操控能力接入 WhatsApp、Telegram 这类消息平台——你在手机上发一条消息,它帮你在电脑上完成一个任务。
这条路解决的不是「AI 怎么看屏幕」,而是「用户从哪里发指令」。
这个细节很重要。大多数人不会专门打开一个 Agent 界面来操作电脑,但每天都在用消息 App。把指令入口放进消息 App,是让 Agent 真正融入日常使用习惯的关键一步。
OpenAI 收人而不是收公司,抢的就是这个方向的工程能力和产品直觉。
所以这两笔「收购」,针对的是 Agent 版图的不同层次:Anthropic 在补「屏幕感知」的技术短板,OpenAI 在布局「指令入口」的场景卡位。
一个是基础设施,一个是用户习惯,缺哪个都不行。
更大的背景是,这场战争等不起。
Google、Microsoft 早就在布局,UiPath 这类 RPA(机器人流程自动化)公司的股价在 Anthropic 收购 Vercept 的消息发出后下跌了 3.6%——市场已经嗅到了威胁。
Agent 时代的竞争,本质上是一场基础设施的抢占。谁先把「AI 控制电脑」这件事做到足够好用,谁就在未来几年的企业和个人市场里握有真正的筹码。
Vercept 联合创始人兼早期投资者 Oren Etzioni 说了一句挺直白的话:「我们基本上还是认输了。」
但认输的原因,不是技术不好——他们的技术在某些维度上领先全场。认输的原因,是这场战争烧的钱和资源,不是一家 20 人的初创公司能撑起来的。
这大概也是 AI Agent 这个赛道最无情的地方:
好技术不够,还得有足够大的容器来装它。
*头图来源:ProductHunt
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你认为 Vercept 的技术,
和豆包手机有什么区别?
苹果宣布 Mac mini,首度实现美国本土化生产。
点赞关注极客公园视频号,
热门跟贴