支持远程操控和通用GUI操作，开源版桌面虚拟同事Open Cowork来了！|gui|open|命令提示符|沙箱|电脑|远程操控

来源：市场资讯

（来源：机器之心）

当 AI Agent 逐渐走出对话框，真正的难点不再是 “回答得多聪明”，而是能否像人一样完成任务闭环：看懂屏幕、点击按钮、填写表单、整理文件、生成交付物，并把结果同步回团队协作系统。

我们开源的 Open Cowork，正是一次面向 “桌面端虚拟同事” 的实践：一键安装、无需写代码，让模型在安全沙箱里操作你的工作空间，既能产出 PPT/Word/Excel/PDF 等专业成果，也能通过 GUI 直接操作电脑完成更复杂更通用的跨应用流程。

代码链接：https://github.com/OpenCoworkAI/open-cowork

GUI操作

PPT生成

飞书操控

一、为什么要做「能用电脑」的 AI？

过去两年，大模型的推理与生成能力突飞猛进，但在真实办公场景中，高频任务往往卡在执行层面：

应用孤岛：网页、桌面应用、企业系统之间缺乏统一 API。
流程割裂：数据分散在浏览器、文档、IM 和本地文件中。
人工瓶颈：用户仍需充当 “搬运工”，在不同窗口间复制粘贴。

我们认为，Agent 不应只止步于 “对话建议”。Open Cowork 的目标是将这些碎片化动作自动化：像人一样操作电脑，跑完流程，并以可交付的形式（文档、表格、PPT）落地，最终通过飞书等工具进入团队协作流。

二、Open Cowork 是什么？

Open Cowork 是 Claude Cowork 理念的开源增强实现。它提供 Windows 与 macOS 的一键安装包，核心是一个 “沙箱化工作区”：模型被授权在指定 Workspace 内读写文件、调用工具，并通过内置 Skills 系统将数据加工成专业交付物。

此外，Open Cowork 不仅仅是 Claude Cowork 的开源复刻，我们还实现了近期热门的 OpenClaw 的核心远程控制功能（例如通过飞书远程发送指令并收到回复），以及支持了对电脑端 APP 的通用 GUI 操作（例如可以支持模型操作 Cursor APP 来进行代码的迭代改进与交互测试），这对于没有实现 MCP 接口的桌面 APP 尤为重要。

能力对比一览：

MCP & Skills

Remote Control

(远程协作)

GUI Operation

(屏幕操作)

Claude Cowork

OpenClaw

OpenCowork

三、三大能力组合：

Skills × GUI × Remote

1）Skills：面向交付的 “工作流技能库”

Agent 的价值不应止步于 Chat 窗口。Open Cowork 内置了标准化的 Skills 系统（支持自定义与扩展），核心目标只有一个：产出可用的文件。

覆盖主流格式：支持 PPTX、DOCX、XLSX、PDF 的原生生成与编辑。
结构化输出：无论是将非结构化文本转为 Excel 报表，还是根据大纲自动生成演示文稿，我们让模型直接交付 “半成品” 甚至 “成品”，而非中间态的文字。

PPT 制作视频：从本地文件 / 大纲自动生成可编辑的 PPTX

2）GUI：让模型像人一样操作电脑，把能做的事情变多

API 总有覆盖不到的地方，但 UI 界面是通用的。GUI 模块让模型具备了 “人类操作” 的能力，将 Agent 的可用性扩展到 OS 层面。

Screen-to-Action：通过截图理解当前 UI 状态，规划并执行鼠标点击、拖拽、文本输入等动作。
跨应用自动化：能够处理复杂的跨软件链路（例如：从 ERP 抓数据 -> 填入 Excel -> 导出 PDF）。

在产品体验上，我们强调的是 “能做更多事、像人一样动手”。对于 GUI 理解与操作任务，建议选择更强的多模态模型以获得更稳的步骤执行。

GUI 操作视频：利用 GUI 界面操作 cursor 写小程序并迭代改进

3）Remote：接入飞书，把它变成真正的 “虚拟同事”

如果 GUI 让它 “会做事”，Remote 则让它 “懂协作”。Open Cowork 拒绝做一个孤独的桌面程序，通过接入飞书（Lark）等协作平台，它打通了本地执行与团队协同的壁垒。

闭环工作流： AI 在你电脑上跑完数据（GUI/Skills），转头就能把做好的报表扔进部门群（Remote），或者同步到在线文档。
真正的虚拟同事：它既有本地环境的执行权限，又有团队系统的沟通权限。产出不再停留在你的硬盘里，而是直接流动到团队的业务流中。

远程操控视频：利用飞书远程操控 Open Cowork

四、安全性：让 “能动手” 尽量可控

桌面端 Agent 的能力越强，安全边界越重要。Open Cowork 的基本原则是：默认把所有操作限制在你选定的 workspace 内。同时，我们提供更强的 VM 级隔离选项：Windows 侧优先使用 WSL2，macOS 侧可使用 Lima，将命令执行放入隔离环境中运行，以降低对宿主机的影响。

桌面端 Agent 的能力越强，赋予 Agent “系统级操作权限” 越要严格地风控。Open Cowork 坚持 “默认安全” 的设计原则：