2024年底,第一批屏幕抓取原型机问世时,计算机使用智能体成了AI领域最难"诚实演示"的技术。整个2025年,业界共识是:这个品类有意思,但太脆弱——模型能点击、能输入、能截图,可失败模式太明显,研究实验室之外没人敢把它接入真实工作流。
2026年前五个月,局面彻底变了。到5月中旬,三家前沿实验室各自推出了生产级计算机使用产品,架构不同,目标客户也刻意错开。
打开网易新闻 查看精彩图片
Anthropic的赌注架构最纯粹。Claude Computer Use从最初测试版一路打磨至今,核心思路是"可移植的智能体"——不绑定特定平台,靠视觉理解屏幕内容,像人一样操作任何软件界面。这套方案对开发者最友好,但学习曲线也最陡,需要用户自己搭建工作流。
打开网易新闻 查看精彩图片
OpenAI的Codex则走了另一条路。它直接嵌入GitHub和VS Code生态,把"计算机使用"窄化为"代码场景的深度自动化"。目标用户明确:每天写代码的工程师。优势是开箱即用,劣势是出了IDE就寸步难行。
Google的Gemini Computer Use选择绑定自家生态。从Chrome到Workspace,从Android到云服务,智能体在Google产品矩阵内流转最顺畅。对已经深度使用Google全家桶的企业用户,这是迁移成本最低的选择;但对跨平台需求强的团队,反而成了枷锁。
打开网易新闻 查看精彩图片
三家路线没有高下,只有匹配度。要灵活选Claude,要编码选Codex,要省心选Gemini。2026年的计算机使用时刻,真正的分水岭不是技术成熟度,而是你愿意为哪种生态锁定买单。
热门跟贴