OpenAI把Codex变成"屏幕盯梢员"：AI能自己用Mac干活了|codex|mac|openai|命令提示符|屏幕盯梢员|插件|浏览器

凌晨两点，你终于合上笔记本。但你的AI同事还在跑——它在测试你白天写的页面，给GitHub上的PR写回复，顺便盯着Slack有没有紧急消息。这不是科幻，是OpenAI今天给Codex装上的新能力。

从"代码助手"到"屏幕操作员"

这次更新的核心就一句话：Codex能自己看屏幕、点鼠标、敲键盘了。OpenAI管它叫"后台计算机使用"（background computer use）。

具体来说，Codex现在可以控制Mac上的任何应用。它有自己的光标，能截图分析界面，然后执行点击和输入。更关键的是，多个Codex代理能同时在后台跑，不干扰你正常使用其他软件。

OpenAI官方举了几个场景：前端开发者改完代码，Codex自动打开浏览器验证效果；测试没有API的老旧程序；或者同时处理多个终端任务。目前仅限macOS，欧盟和英国用户还要再等等。

这个功能直接对标Anthropic的Claude Code。后者今年3月发布时，"计算机使用"（computer use）就是最大卖点——让AI像人一样操作界面。现在OpenAI追上来了，而且做得更激进：Claude Code需要用户主动触发，Codex可以"后台常驻"。

新Codex还内置了一个浏览器。用户可以直接在网页上圈选、批注，给代理下达精确指令。OpenAI说目前主要针对前端和游戏开发，未来会让Codex完全控制浏览器，而不只是本地Web应用。

能"记住"还能"预约自己"

如果说屏幕操作是"手"的延伸，那记忆和调度能力就是"脑"的升级。

Codex现在可以复用对话线程。以前每次新开聊天，上下文清零，你得重新交代项目背景。现在之前的设定、偏好、代码风格都能继承。对长期项目来说，这是省掉大量重复沟通的关键。

更意外的是"自调度"功能。Codex能给自己安排未来的任务，到点自动唤醒继续执行。OpenAI的原话是："可能跨越数天或数周"（potentially across days or weeks）。

这意味着什么？一个典型场景：你周五下班前让Codex盯着三个开源PR，它周末自动跑测试、写评论、汇总结果，周一早上给你报告。或者持续监控Slack频道、Gmail、Notion里的特定关键词，发现异常立即处理。

这已经不是"辅助编程"了，是"代理式工作流"（agentic workflow）的落地。AI从被动响应变成主动值守。

图像生成塞进同一套工作流

技术细节：Codex现在调用的是gpt-image-1.5，OpenAI最新的图像模型。结合截图和代码，团队可以在同一个会话里完成产品概念、前端设计、Mockup、游戏美术的迭代。

举个例子：你描述一个登录页想法，Codex生成代码预览，截图给你看效果，你说"按钮太蓝了"，它直接调图像模型重绘，再更新代码。不需要切到Midjourney或Figma再回来。

插件生态也在膨胀。这次新增90多个，包括Atlassian Rovo（JIRA管理）、CircleCI、CodeRabbit、GitLab Issues、微软全家桶、Databricks的Neon、Remotion、Render等等。加上MCP服务器，Codex能从更多工具拉取上下文，也能直接操作它们。

正方：这是开发者效率的质变

支持者的逻辑很直接：当前AI编程助手的瓶颈不是代码质量，是"上下文断裂"。

你在IDE里用Copilot写函数，切到终端跑测试，再开浏览器查文档，回GitHub看PR评论——每个环节都是独立的，AI只能看到局部。Codex的新架构试图打通全链路：代码、终端、浏览器、设计工具、沟通平台，全部在一个代理的视线范围内。

自调度能力更是打破"人机同步"的约束。开发者的时间被会议、休息、睡眠切割，AI可以填补这些空隙。对开源维护者、小团队技术负责人来说，这相当于雇了一个永不疲倦的初级工程师。

图像生成的整合也击中痛点。前端开发里，视觉调整和代码修改往往是来回切换的耗时环节。现在能在一个对话闭环里完成，迭代速度会快很多。

反方：安全、可控性和"代理幻觉"

质疑的声音同样尖锐。

首先是安全风险。一个能自主点击、输入、访问多个系统的AI，攻击面比纯文本助手大得多。如果Codex被诱导访问恶意网站、泄露代码库，或者"自作主张"执行了危险命令，责任算谁的？OpenAI目前只字未提具体的安全隔离机制。

可控性是更深层的焦虑。"数周自主运行"听起来美好，但AI的"记忆"真的可靠吗？上下文窗口再长，长期任务中也可能丢失关键约束，或者对早期指令的理解发生漂移。等你发现时，它可能已经提交了几十条错误的PR评论。

还有"代理幻觉"问题——不是编造事实，而是编造行动。Codex可能以为自己完成了任务（"已回复所有评论"），实际上点错了按钮、看漏了页面，或者误解了界面状态。这种错误比代码幻觉更难发现，因为它发生在AI的"视线"之外。

最后是用途边界。监控Slack、Gmail、Notion，这已经开始触碰个人助理甚至管理工具的领地。开发者真的希望同一个系统既写代码又读邮件吗？数据隔离和隐私合规会变得更复杂。

我的判断：工具链正在"代理化"，但"全自动"是个陷阱