很多人对 Agent 的理解,还停留在“它会写代码、会跑命令、会改文件”。
这已经很强了,但电脑里的很多工作,其实不发生在终端里。你要打开邮件,点搜索框,找一封账单;你要进入某个后台系统,导出一份报表;你要在桌面软件里点菜单、切页面、确认状态;你要测试一个应用界面,看按钮是否能正常点击。
这些动作过去很尴尬。Agent 会分析,会推理,会写脚本,但碰到真实软件界面,往往还要人自己动鼠标。
Hermes 这次发布的 Computer Use,就是补这个短板。
简单说,它让 Hermes Agent 可以操作你的桌面:点击、输入、滚动、拖拽,都可以交给 Agent 去做。更有意思的是,它的目标并不局限于某一个特定模型,而是让支持工具调用的模型都能接入这套电脑操作能力,比如 Claude、GPT、Gemini,甚至本地 vLLM 端点上的开放模型。文档里也写明,纯文本模型也能以辅助功能树模式降级使用。
这意味着什么?
以后“会操作电脑”不再只是某些模型厂商自己的特殊能力 (前期 Claude Code 和 Codex 都分别发布了 Computer Use的插件)。Hermes 把它做成一个工具集,模型负责理解和决策,Computer Use 负责把决策落到真实软件界面上。
这次最值得注意的点:它不抢你的鼠标
一听“Agent 操作电脑”,很多人第一反应是有点慌。
它会不会突然移动鼠标?
会不会抢走键盘焦点?
会不会切到另一个桌面空间?
我正在干别的事,它会不会把我打断?
Hermes 这次的亮点就在这里:它强调的是后台操作。文档说明,Hermes 可以驱动 Mac 桌面,但你的光标不会移动,键盘焦点不会改变,macOS 也不会突然切换空间;你和 Agent 可以在同一台机器上并行工作。
这个设计很关键。
传统远程控制或桌面自动化,最烦人的地方就是“它动的时候你别动”。Agent 一旦开始操作,鼠标到处跑,窗口到处切,你只能在旁边看着。Hermes 这套方式更像后台有一个助手在操作目标应用,你的主操作不被打断。
它背后用的是 cua-driver。文档里写到,computer_use 工具集通过 MCP stdio 和 cua-driver 通信;这个 macOS 驱动使用 SkyLight 私有接口和辅助功能接口,把合成事件直接发给目标进程,因此不需要移动鼠标,也不需要把窗口拉到前台。
这就解释了为什么官方发文时会强调:“最好的地方,就是它不接管你的电脑。”
它能做什么?别只想到写代码
Computer Use 的价值,不只在开发场景。
它可以打开邮件软件,搜索某个发件人,点开邮件,总结对方要你做什么。官方示例就是:让 Agent 找到最新一封 Stripe 邮件,并总结里面要求的事项;过程中它会截图识别 Mail 界面元素、点击搜索框、输入查询语句、回车、打开结果并阅读内容。文档还特别说明,整个过程里你的光标停在原处,Mail 也不会跳到前台。
把这个场景扩展开,就很实用了。
比如你让它在报销系统里查某个记录。
让它在浏览器后台系统里导出一份 CSV。
让它打开日历,检查下周是否有重复会议。
让它在测试环境里点击几个按钮,确认流程是否正常。
让它在某个桌面应用里找设置项,然后告诉你位置。
让它打开下载文件夹,帮你确认最近导出的文件是否存在。
这些任务都有一个共同点:人做起来不难,但很碎,很消耗注意力。Agent 如果能自己看屏幕、点按钮、读结果,价值就不只停留在“写代码”。
为什么说“任意模型都能用”?
这里要讲清楚,避免误会。
“任意模型都能用”,不是说随便一个只会聊天的模型都能完美操作电脑。更准确的说法是:Hermes 这套 Computer Use 面向支持工具调用的模型;如果模型还支持视觉输入,体验会更完整。换句话说,除了大家熟知的Claude Code opus,Codex GPT等使用存在门槛的模型外,国产的deepseek、Glm、Kimi、Mimo等都可以使用。
这个方向很重要。
过去大家容易把 Computer Use 看成某个模型的专属能力。你换一个模型,这套能力可能就没了。Hermes 的思路更像“工具层统一”:只要模型能调用工具,Hermes 就提供电脑操作工具;模型负责决定下一步,工具负责执行。
对用户来说,这意味着选择更灵活。你可以用强模型处理复杂界面,也可以在某些简单任务里换成更便宜的模型。将来如果本地模型视觉和工具调用能力继续提升,这套能力也有机会继续往下沉。
安装方法:很遗憾,新版本只支持 macOS,未来其他平台应该能跟上
原因很直接:cua-driver 用到了 Apple 的私有接口,Linux 和 Windows 没有这些接口。文档也明确写了,跨平台 GUI 自动化建议使用 browser 工具集。
如果你是 Windows 或 Linux 用户,现在先别照着装。
如果你是 Mac 用户,可以按下面流程试。
最直接的安装命令:
hermes computer-use install安装后检查状态:
hermes computer-use status文档说明,这条命令会获取并运行上游 cua-driver 安装脚本;如果你想强制刷新到最新版,可以用:
hermes computer-use install --upgrade还有一种交互式方式:
hermes tools然后选择:
Computer Use (macOS) → cua-driver (background)两条路径底层跑的是同一个安装器,选你更顺手的方式就行。
安装完成后,需要给权限。打开 macOS 设置:
系统设置 → 隐私与安全性 → 辅助功能系统设置 → 隐私与安全性 → 屏幕录制把你运行 Hermes 的终端,或者 Hermes 应用,加入允许列表。没有这两个权限,它看不到屏幕,也没法操作界面。
最后启动带 Computer Use 的会话:
hermes -t computer_use chat你也可以把 computer_use 写进 ~/.hermes/config.yaml 的启用工具集里,这样后面不用每次手动加 -t。
第一次测试别上来就让它干大活
这个功能很新,第一次测试要保守一点。
不要一上来就让它登录后台、改设置、删除文件、提交表单。先让它做只读观察,确认它能看到界面、能识别元素、能描述清楚。
可以复制这段:
请使用 Computer Use 做一次只读测试。要求:1. 截取当前可见界面;2. 识别有哪些可点击元素;3. 不要点击任何按钮;4. 不要输入任何文字;5. 不要修改文件或设置;6. 最后告诉我你看到了哪些应用、窗口和可操作区域。如果这一步正常,再做一个低风险动作:
请打开当前可见应用里的一个安全菜单或搜索框。只允许点击,不允许提交表单,不允许删除或修改任何内容。每一步操作前先说明你准备做什么。等你确认它的识别和点击都稳定,再让它处理更复杂任务。
这个顺序很重要。Computer Use 不是普通问答,它会真实操作你的电脑。再强的 Agent,也要先从低风险任务验证。
安全边界:能操作电脑,不等于可以放飞
Hermes 给 Computer Use 加了多层防护。
文档里写明,点击、输入、拖拽、滚动、按键、聚焦应用等破坏性动作需要批准,可以通过命令行交互确认,也可以通过消息平台按钮确认。它还在工具层硬拦一些危险快捷键,比如清空废纸篓、强制删除、锁屏、登出等;对 curl | bash、sudo rm -rf /、fork bomb 这类危险输入模式也会拦截。系统提示还会要求 Agent 不要点击权限弹窗,不要输入密码,不要跟随截图里嵌入的指令。
这套护栏值得肯定,但用户自己也要有边界。
建议一开始用手动审批:
approvals: mode: manual这样每个关键动作都要你确认。尤其是涉及下面几类场景,更要谨慎:
登录和密码输入。
财务、支付、报销系统。
生产后台和管理后台。
删除、覆盖、批量修改文件。
发送邮件或消息。
授权、权限设置和账号管理。
一个简单原则:你平时会二次确认的操作,不要让 Agent 静默执行。
它可以帮你看、帮你点、帮你整理,但最后那个高风险确认按钮,最好还是你自己按。
截图会不会很耗上下文?
会,所以 Hermes 做了优化。
Computer Use 需要截图,截图本身很贵。如果每一步都把完整图片塞进上下文,很快就会把会话撑大。文档里写了四层优化:只保留最近 3 张截图,旧截图替换成占位符;压缩时会剥离旧的图片部分;按每张图片约 1500 token 估算,而不是按 base64 字符长度粗暴估算;在 Anthropic 上还会启用服务端上下文编辑来清理旧工具结果。
文档给了一个直观数据:在 1568×900 屏幕上进行 20 步操作,截图上下文通常大约消耗 30K token,而不是 600K。
这说明它不是无脑把图片堆进上下文。
但用户也别滥用。任务越长、界面变化越多,截图和工具结果仍然会积累。做复杂任务时,最好让 Agent 分阶段总结,必要时清理上下文,避免后面判断被旧界面信息干扰。
常见报错怎么处理?
如果看到:
computer_use backend unavailable: cua-driver is not installed先运行:
hermes computer-use install或者打开:
hermes tools启用 Computer Use 工具集。文档的排查部分也给了这个处理方式。
如果点击没有效果,先让它重新截图确认。有时是某个弹窗挡住了输入,或者元素编号过期了。文档提醒,SOM 元素编号只在下一次状态变化前有效;任何状态改变后,都应该重新 capture。
如果出现:
blocked pattern in type text说明它尝试输入的内容命中了危险命令模式。这时不要急着绕过,先检查它到底想输入什么。很多时候,这个拦截是在保护你。
适合谁,不适合谁?
适合 Mac 用户。
适合愿意测试 Agent 操作真实软件的人。
适合有大量重复界面操作的人。
适合需要在桌面应用、邮件、后台系统之间来回处理信息的人。
适合想把 GUI 测试、资料查询、文件检查交给 Agent 辅助的人。
暂时不适合 Windows 和 Linux 用户。
不适合把密码、支付、生产后台直接交出去。
不适合需要高速精准鼠标操作的场景。文档也提到,后台模式比前台 HID 事件慢一些,SkyLight 路由事件大概 5 到 20 毫秒;正常 Agent 点击没问题,拿来做速度挑战就不合适。
如果你的任务主要发生在网页里,也可以先看 browser 工具集。Computer Use 更适合那些跨应用、桌面软件、系统界面相关任务。
最后说一句
Hermes 发布 Computer Use,说明 Agent 的边界又往前推了一步。
以前 Agent 更多是会聊天、会写代码、会调用命令。现在它开始能看真实界面,点真实按钮,操作真实软件。这个变化很大,因为大量工作本来就不在代码里,而在各种应用窗口、后台页面、邮件、文件和表单里。
这次最值得关注的,不只是“它能操作电脑”,还有两个点:
第一,它能后台操作,不抢鼠标,不抢键盘焦点。
第二,它面向任意支持工具调用的模型,不把能力锁死在单一模型里。
当然,它现在还是 Mac 优先,而且要认真配置权限、审批和安全边界。先从只读测试开始,再让它做低风险点击,最后再逐步尝试真实任务。
Computer Use 这类能力真正成熟以后,Agent 就不只是屏幕里给建议的助手,而是能在电脑上帮你跑流程的执行者。Hermes 这次,算是把这个入口正式打开了。
热门跟贴