你有没有想过,当AI代理需要操作那些连API都没有的上古软件时,它得多费劲?一遍遍截图、分析像素、模拟点击——像个看不清屏幕的人拿着放大镜摸索。AWS今天的答案是:直接给它一台看得见摸得着的虚拟电脑。
经过短暂的公开预览,AWS在周二正式上线了Amazon WorkSpaces for Agents。别把它和Amazon Connect Agent Workspace搞混了——后者是给人用的客服工作台,而WorkSpaces for Agents专为AI代理打造,让它们能在云端操作桌面应用程序。
普通的Amazon WorkSpaces是给企业员工用的持久化云桌面,管理员预先配好环境,员工远程登录干活。新推出的WorkSpaces for Agents也是虚拟桌面,但服务对象换成了代理——那些需要与旧系统、老软件互动的AI程序。
这件事的现实意义是什么?想想你公司里那些跑了十几年的财务系统、合规平台、税务工具。以前想让AI代理接入,要么大动干戈做定制集成,要么干脆把旧系统推倒重来。现在,代理可以直接登录一台安装了这些软件的云桌面,像人类员工一样操作它们。
AWS公布的参考客户是荷兰跨国集团威科集团。这家公司为全球客户管理复杂的税务、法律和合规流程。威科工作场所技术总监安德烈·阿克曼在公告中解释了这项服务的价值:"我们的团队为全球客户管理着复杂的税务、法律和合规流程。Amazon WorkSpaces让我们能够将AI代理直接放入这些工作流程中——它们可以访问和操作我们员工使用的相同业务应用程序,而我们不需要重建任何东西。这对我们思考自动化的方式而言,是向前迈出的有意义的一步。"
一旦启用,代理可以通过模型上下文协议连接到这些桌面。连接建立后,代理就能流式传输会话,按需与桌面应用程序交互。访问权限由AWS的身份与访问管理服务控制,审计追踪则通过AWS CloudTrail和Amazon CloudWatch完成。
这里有一个关键的技术选择值得细看。目前主流的"计算机使用代理"工作方式是循环截图加视觉分析:代理截取当前屏幕,分析画面内容,决定下一步操作,执行点击或输入,然后再截图重复。整个过程慢得让人着急——相当于每一步都要停下来"看"一眼再走。
AWS的做法是在两种方案之间找到互补路径。实现方式是这样:创建主操作系统镜像时,在WorkSpace上安装一个文件系统MCP服务器。有了这个服务器,代理可以通过工具调用直接读写文件,不需要走截图循环的老路。那些需要操作图形界面、没有API可调的任务,仍然用视觉驱动方案处理;而能用MCP工具解决的部分,直接通过高效的文件操作完成。
AWS在公告中解释了这种设计模式的逻辑:"正确的设计模式将每个子任务路由到最高效的可用接口——当存在MCP工具时调用它,只有在没有API覆盖该任务、或者操作图形界面本身才是目标时,才回到视觉驱动的操作方式。这里存在复合收益:当工作流程的大部分通过MCP路由时,剩余的视觉子任务收缩为聚焦的操作——更少步骤、更短序列、更少失败。MCP工具转发让这种模式在WorkSpaces Application实例内部得以运作。"
随着正式上线,AWS还增加了一项重要能力:人类可以观察代理的操作,并在必要时接管控制。公告中明确写道:"如果你观察到代理正在执行意外操作,停止按钮让你可以直接干预,无需重新启动会话或回滚状态。"随着从开发阶段过渡到生产环境,用户可以根据实际情况,灵活决定采用哪种控制模式。
从商业逻辑上看,WorkSpaces for Agents解决了一个真实痛点:大量企业软件永远不会被重写或提供API,但它们承载着核心业务。AWS没有试图改变这个现实,而是给了代理一个"人"的身份——让它进入这些软件运行的原始环境,用最直接的方式完成工作。带给用户的价值很清晰:不需要重建任何东西,就能让AI代理参与到真正的业务流程中。
热门跟贴