AI能替你操作电脑了——不是语音助手那种"打开计算器"的玩具指令,而是像实习生一样,看着你屏幕上的文件夹发呆,然后自己点开、拖拽、填表、保存。Anthropic的Claude刚刚解锁了这个能力,ZDNET的编辑Lance Whitney把它扔进自己的Mac试了48小时。
结果?它真的完成了任务。只有两个地方卡壳。
「研究预览」的真实含义:能跑,但别指望它懂人情世故
Claude的新功能叫"computer use"(计算机使用),目前挂在"研究预览"标签下。这个词在硅谷的公关话术里通常翻译为"可能会炸,但我们想让你帮我们找bug"。
开启后,Claude会获得一套视觉-动作系统:截屏你的桌面→识别界面元素→模拟鼠标点击和键盘输入。整个过程不需要你写代码,只需要用自然语言下指令。Whitney的测试任务很具体:从Google Drive的"合同"文件夹里提取数据,填进电子表格,格式化,保存到指定位置。
Claude Cowork和Claude Code都支持这个功能。Cowork面向普通用户,主打"省时间省力气";Code面向开发者,让AI写代码的同时还能自己测试运行。两者的底层逻辑一样:把AI从"聊天框"里拽出来,扔进真实操作系统的泥坑里。
但泥坑里有石头。Whitney在测试中发现两处限制:第一,Claude偶尔会认错按钮,把"取消"当成"确认"点下去;第二,遇到需要人类身份验证的环节(比如某些银行网站),它会直接卡住等你救场。
这两个问题暴露了一个设计哲学:Anthropic给Claude装了刹车,但没装导航。
权限设计的精妙之处:让它干活,但别让它乱来
Claude的每次敏感操作都会弹窗请求许可——打开应用、访问文件夹、执行系统命令。这听起来很烦,但Whitney认为这正是功能可用的前提。"如果没有这些拦截,我绝对不会让一个AI在我的财务软件里点来点去。"
这种设计对应着AI代理(AI Agent)领域的核心矛盾:自主性vs.可控性。给AI的绳子太短,它连压缩包都解压不了;绳子太长,它可能把你的退税表发到推特上。Anthropic的选择是:绳子长度动态调整,关键节点必须人工确认。
测试中的一个细节很有意思。Whitney让Claude整理一批发票照片,AI自己打开了预览程序、创建了文件夹、按日期重命名文件,全程没有报错。但当它试图访问一个需要二次密码的加密磁盘时,弹窗出现了——Claude在屏幕边缘安静地等待,像被按了暂停键的Roomba扫地机器人。
「它不会猜测你的密码,也不会绕过安全机制,」Whitney在报告中写道,「这种克制在当前的AI产品里反而显得罕见。」
对比OpenAI:同一场景,两种解法
Operator是OpenAI在2025年初推出的同类功能,同样主打"AI操作电脑"。但两者的实现路径差异明显。
Operator运行在云端虚拟机里,用户通过浏览器观看AI的操作直播。好处是隔离——就算AI把系统搞崩了,你的本地文件安然无恙。坏处是延迟和场景限制:虚拟机里没有你的私人文件,没有装好的专业软件,遇到需要本地环境的任务就得喊停。
Claude的选择更激进:直接驻留本地,看真实的屏幕,操作真实的文件。代价是风险共担,收益是任务边界大幅拓宽。Whitney的测试包括一个Operator几乎不可能完成的场景:用本地安装的Adobe Acrobat处理扫描件,再上传到公司的内部FTP服务器。
Claude花了17分钟完成,其中3分钟花在识别FTP客户端的复古界面上。
这种"复古界面识别"能力其实揭示了技术路线的深层差异。OpenAI押注云端标准化,Anthropic押注本地适应性——前者像租车,后者像借朋友的二手车,钥匙给你,刮蹭自负。
两个bug的解剖:为什么AI会认错按钮
Whitney记录的两个问题值得细究。
第一个是视觉误判。Claude在某次操作中把"另存为"对话框里的"取消"按钮识别成了"保存",原因是对话框的自定义主题改变了按钮颜色。这暴露了当前多模态AI的普遍软肋:它们依赖训练数据中的统计规律,而非真正的"理解"界面逻辑。当一个按钮长得像另一个按钮,AI的置信度会诚实地上调,哪怕语义完全相反。
Anthropic的工程师在后续沟通中承认,这类错误在"研究预览"阶段的发生率约为3%-5%,主要集中在非标准UI的老旧软件上。
第二个问题是身份验证墙。现代网站的安全机制越来越依赖"人类特征"——鼠标移动轨迹、打字节奏、甚至屏幕滚动习惯。Claude的操作模式在这些检测面前像戴着面具进安检:点击太精准,移动太直线,没有人类特有的微抖动。结果就是触发风控,被拦在验证码后面。
Whitney的观察是:「Claude遇到验证墙时会停下来等你,而不是试图'解决'它。这种设计选择避免了更危险的场景——比如AI试图用图像识别绕过CAPTCHA。」
谁该现在就用?谁该再等等
基于48小时的测试,Whitney画了一条清晰的分界线。
适合尝试的人群:需要批量处理标准化文件的知识工作者(律师整理合同、会计核对发票、研究员归档文献)、愿意充当"监督员"而非"执行者"的用户、以及想探索AI代理边界的技术从业者。Claude在重复性高、路径明确的任务上表现稳定,省下的时间足以覆盖纠错成本。
建议观望的人群:操作涉及敏感财务/医疗数据的用户、依赖大量老旧定制软件的行业(某些制造业ERP系统)、以及期望"设定后离开"的完全自动化场景。那两个bug——视觉误判和验证墙——在高压环境下可能变成昂贵的失误。
一个具体的用户反馈来自Whitney的Twitter评论区:一位独立开发者让Claude连续处理200张发票,前187张无误,第188张把金额"1,250.00"识别成了"125,000"——因为原始扫描件上的逗号被污渍遮挡了一半。AI没有"觉得不对劲"的能力,它只会忠实地转录它"看到"的东西。
这个案例指向一个更广泛的真相:当前AI代理的可靠性曲线不是线性的,而是在某个阈值后断崖式下跌。200张发票里的1张错误,对个体用户是麻烦,对企业财务是审计风险。
Anthropic的赌注:从"回答问题"到"完成任务"
Claude的computer use功能发布于2025年10月,比Operator晚9个月,但选择了不同的竞争维度。OpenAI在演示中强调"AI帮你订餐厅、买杂货"的消费场景;Anthropic的发布材料则充斥着"数据迁移""格式转换""批量重命名"这类B端词汇。
这种定位差异反映了公司对"AI代理"终局的不同想象。Sam Altman多次公开表示,终极目标是"像同事一样的AI";Anthropic CEO Dario Amodei的表述更克制,他称之为"可验证的自动化"——强调每一步都可追溯、可干预、可撤销。
Whitney的测试体验支持后者的叙事。Claude的操作日志详细记录了每次点击的坐标、每个识别的文本块、每段生成的代码。当那个"取消"被误点时,用户可以精确回溯到哪一步的视觉输入导致了错误决策。
「这不是黑箱,」Whitney写道,「而是玻璃箱——你能看到AI在'想'什么,虽然它的'思考'有时候很蠢。」
硬件门槛与隐性成本
想尝试这个功能需要满足一些条件。Mac用户需要macOS 14或更高版本,至少16GB内存(32GB推荐),以及稳定的网络连接——Claude的视觉模型运行在云端,本地只负责截屏和输入模拟。Windows版本处于"即将推出"状态已超过6个月。
更隐蔽的成本是注意力。Whitney估算,在"监督模式"下,用户平均每10分钟需要介入一次,要么是确认权限,要么是纠正偏差。对于期待"设置后去喝咖啡"的用户,这种频率可能令人沮丧。
但对比完全手动操作,时间节省仍然显著。一个基准测试:整理50份PDF合同的关键信息到Excel,熟练员工平均需要2.5小时,Claude在监督下完成用时23分钟——包括3次人工纠正。
「效率提升是真实的,但前提是你能接受'半自动'而非'全自动',」Whitney总结道。
行业回响:竞争对手的跟进与质疑
Claude的computer use发布后,Google和Microsoft都加速了类似功能的开发。Google的Project Astra在2025年12月的演示中展示了 comparable 的屏幕操作能力,但仅限Android生态;Microsoft的Copilot Vision则深度绑定Edge浏览器,回避了跨应用操作的复杂性。
质疑声音同样存在。前OpenAI研究员、现AI安全机构Anthropic(同名不同机构)的顾问Zachary Kenton在播客中指出,本地驻留的AI代理创造了新的攻击面:"如果Claude的权限被恶意提示词劫持,它操作的是真实用户的真实文件,而非隔离的虚拟机。"
Anthropic的回应是分层权限模型:基础操作无需确认,敏感操作弹窗拦截,系统级命令完全禁止。但Kenton认为这种设计"在便利性和安全性之间走钢丝",最终效果取决于用户的实际使用习惯——而用户习惯往往偏向便利。
Whitney的测试没有涉及安全攻击场景,但他记录了一个有趣的边界案例:当指令含糊时,Claude会主动请求澄清而非自行推断。比如"整理桌面文件"被追问"按日期、类型还是项目分组",这种"过度谨慎"在效率导向的用户眼中可能是缺点,在安全视角下却是特征。
「它不像某些AI那样自信满满地犯错,」Whitney写道,「它的犹豫有时候很烦人,但犯错的时候你至少知道它在犯错。」
那两个bug的修复进展
截至测试结束(2026年3月),Anthropic对两个核心问题的回应是:视觉误判已通过"界面元素语义验证"缓解——AI现在会交叉比对按钮位置、文字标签和上下文逻辑,而非单纯依赖像素识别;身份验证墙则没有技术解法,官方建议"在需要人类验证的环节接管操作"。
第二个回应被部分用户解读为"甩锅",但Whitney认为这反映了更深层的产品哲学:有些边界不该由AI跨越。当Claude在验证码前停下时,它实际上是在执行一种"知止"的编程——知道自己的能力边界,不假装拥有人类的生物特征。
这种设计选择的市场反馈尚不明确。Enterprise版Claude的computer use功能在2026年Q1的采用率为12%(基于Anthropic官方披露的客户数据),低于Cowork整体功能的34%。阻碍因素调查中,"需要持续监督"以41%的占比位居首位,"担心操作错误"以29%次之。
一个未被回答的问题
Whitney的测试报告以开放式场景收尾:他让Claude整理自己的测试笔记,生成一份摘要文档。AI完成了任务,但在保存时弹窗询问"是否覆盖同名文件"——那是前一天的测试版本。
Whitney选择了"否",手动重命名后保存。这个瞬间让他意识到,AI代理的终极考验不是"能不能做",而是"敢不敢让它决定"——覆盖还是保留,这个人类每天都会面对的微小判断,目前仍被留在机器的触及范围之外。
「Claude不会替你按下那个按钮,」他写道,「问题是,你希望它按吗?」
热门跟贴