更新速报：Hermes 发布Computer Use，任意模型能用，附保姆级干货|agent|hermes|上下文|调用

很多人对 Agent 的理解，还停留在“它会写代码、会跑命令、会改文件”。

这已经很强了，但电脑里的很多工作，其实不发生在终端里。你要打开邮件，点搜索框，找一封账单；你要进入某个后台系统，导出一份报表；你要在桌面软件里点菜单、切页面、确认状态；你要测试一个应用界面，看按钮是否能正常点击。

这些动作过去很尴尬。Agent 会分析，会推理，会写脚本，但碰到真实软件界面，往往还要人自己动鼠标。

Hermes 这次发布的 Computer Use，就是补这个短板。

简单说，它让 Hermes Agent 可以操作你的桌面：点击、输入、滚动、拖拽，都可以交给 Agent 去做。更有意思的是，它的目标并不局限于某一个特定模型，而是让支持工具调用的模型都能接入这套电脑操作能力，比如 Claude、GPT、Gemini，甚至本地 vLLM 端点上的开放模型。文档里也写明，纯文本模型也能以辅助功能树模式降级使用。

这意味着什么？

以后“会操作电脑”不再只是某些模型厂商自己的特殊能力（前期 Claude Code 和 Codex 都分别发布了 Computer Use的插件）。Hermes 把它做成一个工具集，模型负责理解和决策，Computer Use 负责把决策落到真实软件界面上。

这次最值得注意的点：它不抢你的鼠标

一听“Agent 操作电脑”，很多人第一反应是有点慌。

它会不会突然移动鼠标？
会不会抢走键盘焦点？
会不会切到另一个桌面空间？
我正在干别的事，它会不会把我打断？

Hermes 这次的亮点就在这里：它强调的是后台操作。文档说明，Hermes 可以驱动 Mac 桌面，但你的光标不会移动，键盘焦点不会改变，macOS 也不会突然切换空间；你和 Agent 可以在同一台机器上并行工作。

这个设计很关键。

传统远程控制或桌面自动化，最烦人的地方就是“它动的时候你别动”。Agent 一旦开始操作，鼠标到处跑，窗口到处切，你只能在旁边看着。Hermes 这套方式更像后台有一个助手在操作目标应用，你的主操作不被打断。

它背后用的是 cua-driver。文档里写到，computer_use 工具集通过 MCP stdio 和 cua-driver 通信；这个 macOS 驱动使用 SkyLight 私有接口和辅助功能接口，把合成事件直接发给目标进程，因此不需要移动鼠标，也不需要把窗口拉到前台。

这就解释了为什么官方发文时会强调：“最好的地方，就是它不接管你的电脑。”

它能做什么？别只想到写代码

Computer Use 的价值，不只在开发场景。

它可以打开邮件软件，搜索某个发件人，点开邮件，总结对方要你做什么。官方示例就是：让 Agent 找到最新一封 Stripe 邮件，并总结里面要求的事项；过程中它会截图识别 Mail 界面元素、点击搜索框、输入查询语句、回车、打开结果并阅读内容。文档还特别说明，整个过程里你的光标停在原处，Mail 也不会跳到前台。

把这个场景扩展开，就很实用了。

比如你让它在报销系统里查某个记录。
让它在浏览器后台系统里导出一份 CSV。
让它打开日历，检查下周是否有重复会议。
让它在测试环境里点击几个按钮，确认流程是否正常。
让它在某个桌面应用里找设置项，然后告诉你位置。
让它打开下载文件夹，帮你确认最近导出的文件是否存在。

这些任务都有一个共同点：人做起来不难，但很碎，很消耗注意力。Agent 如果能自己看屏幕、点按钮、读结果，价值就不只停留在“写代码”。

为什么说“任意模型都能用”？

这里要讲清楚，避免误会。

“任意模型都能用”，不是说随便一个只会聊天的模型都能完美操作电脑。更准确的说法是：Hermes 这套 Computer Use 面向支持工具调用的模型；如果模型还支持视觉输入，体验会更完整。换句话说，除了大家熟知的Claude Code opus，Codex GPT等使用存在门槛的模型外，国产的deepseek、Glm、Kimi、Mimo等都可以使用。

这个方向很重要。

过去大家容易把 Computer Use 看成某个模型的专属能力。你换一个模型，这套能力可能就没了。Hermes 的思路更像“工具层统一”：只要模型能调用工具，Hermes 就提供电脑操作工具；模型负责决定下一步，工具负责执行。

对用户来说，这意味着选择更灵活。你可以用强模型处理复杂界面，也可以在某些简单任务里换成更便宜的模型。将来如果本地模型视觉和工具调用能力继续提升，这套能力也有机会继续往下沉。

安装方法：很遗憾，新版本只支持 macOS，未来其他平台应该能跟上

原因很直接：cua-driver 用到了 Apple 的私有接口，Linux 和 Windows 没有这些接口。文档也明确写了，跨平台 GUI 自动化建议使用 browser 工具集。

如果你是 Windows 或 Linux 用户，现在先别照着装。
如果你是 Mac 用户，可以按下面流程试。

最直接的安装命令：

hermes computer-use install

安装后检查状态：

hermes computer-use status

文档说明，这条命令会获取并运行上游 cua-driver 安装脚本；如果你想强制刷新到最新版，可以用：

hermes computer-use install --upgrade

还有一种交互式方式：

hermes tools

然后选择：

Computer Use (macOS) → cua-driver (background)

两条路径底层跑的是同一个安装器，选你更顺手的方式就行。

安装完成后，需要给权限。打开 macOS 设置：

系统设置 → 隐私与安全性 → 辅助功能系统设置 → 隐私与安全性 → 屏幕录制

把你运行 Hermes 的终端，或者 Hermes 应用，加入允许列表。没有这两个权限，它看不到屏幕，也没法操作界面。

最后启动带 Computer Use 的会话：

hermes -t computer_use chat

你也可以把 computer_use 写进 ~/.hermes/config.yaml 的启用工具集里，这样后面不用每次手动加 -t。

第一次测试别上来就让它干大活

这个功能很新，第一次测试要保守一点。

不要一上来就让它登录后台、改设置、删除文件、提交表单。先让它做只读观察，确认它能看到界面、能识别元素、能描述清楚。

可以复制这段：

请使用 Computer Use 做一次只读测试。要求：1. 截取当前可见界面；2. 识别有哪些可点击元素；3. 不要点击任何按钮；4. 不要输入任何文字；5. 不要修改文件或设置；6. 最后告诉我你看到了哪些应用、窗口和可操作区域。

如果这一步正常，再做一个低风险动作：

请打开当前可见应用里的一个安全菜单或搜索框。只允许点击，不允许提交表单，不允许删除或修改任何内容。每一步操作前先说明你准备做什么。

等你确认它的识别和点击都稳定，再让它处理更复杂任务。

这个顺序很重要。Computer Use 不是普通问答，它会真实操作你的电脑。再强的 Agent，也要先从低风险任务验证。

安全边界：能操作电脑，不等于可以放飞

Hermes 给 Computer Use 加了多层防护。

文档里写明，点击、输入、拖拽、滚动、按键、聚焦应用等破坏性动作需要批准，可以通过命令行交互确认，也可以通过消息平台按钮确认。它还在工具层硬拦一些危险快捷键，比如清空废纸篓、强制删除、锁屏、登出等；对 curl | bash、sudo rm -rf /、fork bomb 这类危险输入模式也会拦截。系统提示还会要求 Agent 不要点击权限弹窗，不要输入密码，不要跟随截图里嵌入的指令。

这套护栏值得肯定，但用户自己也要有边界。

建议一开始用手动审批：

approvals:  mode: manual

这样每个关键动作都要你确认。尤其是涉及下面几类场景，更要谨慎：

登录和密码输入。
财务、支付、报销系统。
生产后台和管理后台。
删除、覆盖、批量修改文件。
发送邮件或消息。
授权、权限设置和账号管理。

一个简单原则：你平时会二次确认的操作，不要让 Agent 静默执行。

它可以帮你看、帮你点、帮你整理，但最后那个高风险确认按钮，最好还是你自己按。

截图会不会很耗上下文？

会，所以 Hermes 做了优化。

Computer Use 需要截图，截图本身很贵。如果每一步都把完整图片塞进上下文，很快就会把会话撑大。文档里写了四层优化：只保留最近 3 张截图，旧截图替换成占位符；压缩时会剥离旧的图片部分；按每张图片约 1500 token 估算，而不是按 base64 字符长度粗暴估算；在 Anthropic 上还会启用服务端上下文编辑来清理旧工具结果。

文档给了一个直观数据：在 1568×900 屏幕上进行 20 步操作，截图上下文通常大约消耗 30K token，而不是 600K。

这说明它不是无脑把图片堆进上下文。

但用户也别滥用。任务越长、界面变化越多，截图和工具结果仍然会积累。做复杂任务时，最好让 Agent 分阶段总结，必要时清理上下文，避免后面判断被旧界面信息干扰。

常见报错怎么处理？

如果看到：

computer_use backend unavailable: cua-driver is not installed

先运行：

hermes computer-use install

或者打开：

hermes tools

启用 Computer Use 工具集。文档的排查部分也给了这个处理方式。

如果点击没有效果，先让它重新截图确认。有时是某个弹窗挡住了输入，或者元素编号过期了。文档提醒，SOM 元素编号只在下一次状态变化前有效；任何状态改变后，都应该重新 capture。

如果出现：

blocked pattern in type text

说明它尝试输入的内容命中了危险命令模式。这时不要急着绕过，先检查它到底想输入什么。很多时候，这个拦截是在保护你。

适合谁，不适合谁？

适合 Mac 用户。
适合愿意测试 Agent 操作真实软件的人。
适合有大量重复界面操作的人。
适合需要在桌面应用、邮件、后台系统之间来回处理信息的人。
适合想把 GUI 测试、资料查询、文件检查交给 Agent 辅助的人。

暂时不适合 Windows 和 Linux 用户。
不适合把密码、支付、生产后台直接交出去。
不适合需要高速精准鼠标操作的场景。文档也提到，后台模式比前台 HID 事件慢一些，SkyLight 路由事件大概 5 到 20 毫秒；正常 Agent 点击没问题，拿来做速度挑战就不合适。

如果你的任务主要发生在网页里，也可以先看 browser 工具集。Computer Use 更适合那些跨应用、桌面软件、系统界面相关任务。

最后说一句

Hermes 发布 Computer Use，说明 Agent 的边界又往前推了一步。

以前 Agent 更多是会聊天、会写代码、会调用命令。现在它开始能看真实界面，点真实按钮，操作真实软件。这个变化很大，因为大量工作本来就不在代码里，而在各种应用窗口、后台页面、邮件、文件和表单里。

这次最值得关注的，不只是“它能操作电脑”，还有两个点：

第一，它能后台操作，不抢鼠标，不抢键盘焦点。
第二，它面向任意支持工具调用的模型，不把能力锁死在单一模型里。

当然，它现在还是 Mac 优先，而且要认真配置权限、审批和安全边界。先从只读测试开始，再让它做低风险点击，最后再逐步尝试真实任务。

Computer Use 这类能力真正成熟以后，Agent 就不只是屏幕里给建议的助手，而是能在电脑上帮你跑流程的执行者。Hermes 这次，算是把这个入口正式打开了。

更新速报：Hermes 发布Computer Use，任意模型能用，附保姆级干货

热搜

热门跟贴

热搜

热门跟贴

相关推荐

手机语音操控Hermes：3步零成本搭建本地语音助手，告别小屏幕打字噩梦

Hermes Agent vs OpenDevin vs Claude Code深度对比

Hermes挑战OpenClaw，揭秘Hermes三大亮点！必看解析！

DeepSeek V4 之后又被刷屏，蚂蚁集团 Ling-2.6-1T 来了：1T 参数 + 快思考 + Agent 工程级实力

OpenClaw安装什么不迷路？十款Skill实测清单！

Claude被吐槽3年不会画图，开发者用1个协议让它秒变多模态

MagicWorld：用光流约束+历史记忆+多步训练，让长时程交互稳定不漂移

960万人围观！Claude Code工程师谈HTML“复兴”：Agent时代，Markdown不够用了

Claude Code终于长出调度台：一个屏幕盯住所有AI会话，无需多开

龙虾退烧后，荣耀给它造了一个宇宙

TTS也要真人感！首个字级内容、毫秒级停顿控制的语音合成系统

Agent中的“爱马仕”来啦：100k+ Star 的开源AI Agent ，正在偷偷给自己升级

和平饭店门童，从少年干到中年，进去吃饭从来不看菜单！

13年不写代码，5天花200美元重建400万美元产品——YC掌门人是怎么做到的？

别急着做新工具的“小白鼠”：AI时代的慢沉淀与大迭代

姚来英已任中国烟草总公司总经理

字节砍掉30%的AI项目？背后的真假与焦虑

ChatGPT、豆包集体翻车：AI没有价值观，只有「求生欲」

冲刺3400亿估值，翁荔亲自出镜，交出一款更像人的大模型

一句话，AI生成了整个可点击的广州！Flipbook实测太离谱了