凌晨两点,你终于合上笔记本。但你的AI同事还在跑——它在测试你白天写的页面,给GitHub上的PR写回复,顺便盯着Slack有没有紧急消息。这不是科幻,是OpenAI今天给Codex装上的新能力。
从"代码助手"到"屏幕操作员"
这次更新的核心就一句话:Codex能自己看屏幕、点鼠标、敲键盘了。OpenAI管它叫"后台计算机使用"(background computer use)。
具体来说,Codex现在可以控制Mac上的任何应用。它有自己的光标,能截图分析界面,然后执行点击和输入。更关键的是,多个Codex代理能同时在后台跑,不干扰你正常使用其他软件。
OpenAI官方举了几个场景:前端开发者改完代码,Codex自动打开浏览器验证效果;测试没有API的老旧程序;或者同时处理多个终端任务。目前仅限macOS,欧盟和英国用户还要再等等。
这个功能直接对标Anthropic的Claude Code。后者今年3月发布时,"计算机使用"(computer use)就是最大卖点——让AI像人一样操作界面。现在OpenAI追上来了,而且做得更激进:Claude Code需要用户主动触发,Codex可以"后台常驻"。
新Codex还内置了一个浏览器。用户可以直接在网页上圈选、批注,给代理下达精确指令。OpenAI说目前主要针对前端和游戏开发,未来会让Codex完全控制浏览器,而不只是本地Web应用。
能"记住"还能"预约自己"
如果说屏幕操作是"手"的延伸,那记忆和调度能力就是"脑"的升级。
Codex现在可以复用对话线程。以前每次新开聊天,上下文清零,你得重新交代项目背景。现在之前的设定、偏好、代码风格都能继承。对长期项目来说,这是省掉大量重复沟通的关键。
更意外的是"自调度"功能。Codex能给自己安排未来的任务,到点自动唤醒继续执行。OpenAI的原话是:"可能跨越数天或数周"(potentially across days or weeks)。
这意味着什么?一个典型场景:你周五下班前让Codex盯着三个开源PR,它周末自动跑测试、写评论、汇总结果,周一早上给你报告。或者持续监控Slack频道、Gmail、Notion里的特定关键词,发现异常立即处理。
这已经不是"辅助编程"了,是"代理式工作流"(agentic workflow)的落地。AI从被动响应变成主动值守。
图像生成塞进同一套工作流
技术细节:Codex现在调用的是gpt-image-1.5,OpenAI最新的图像模型。结合截图和代码,团队可以在同一个会话里完成产品概念、前端设计、Mockup、游戏美术的迭代。
举个例子:你描述一个登录页想法,Codex生成代码预览,截图给你看效果,你说"按钮太蓝了",它直接调图像模型重绘,再更新代码。不需要切到Midjourney或Figma再回来。
插件生态也在膨胀。这次新增90多个,包括Atlassian Rovo(JIRA管理)、CircleCI、CodeRabbit、GitLab Issues、微软全家桶、Databricks的Neon、Remotion、Render等等。加上MCP服务器,Codex能从更多工具拉取上下文,也能直接操作它们。
正方:这是开发者效率的质变
支持者的逻辑很直接:当前AI编程助手的瓶颈不是代码质量,是"上下文断裂"。
你在IDE里用Copilot写函数,切到终端跑测试,再开浏览器查文档,回GitHub看PR评论——每个环节都是独立的,AI只能看到局部。Codex的新架构试图打通全链路:代码、终端、浏览器、设计工具、沟通平台,全部在一个代理的视线范围内。
自调度能力更是打破"人机同步"的约束。开发者的时间被会议、休息、睡眠切割,AI可以填补这些空隙。对开源维护者、小团队技术负责人来说,这相当于雇了一个永不疲倦的初级工程师。
图像生成的整合也击中痛点。前端开发里,视觉调整和代码修改往往是来回切换的耗时环节。现在能在一个对话闭环里完成,迭代速度会快很多。
反方:安全、可控性和"代理幻觉"
质疑的声音同样尖锐。
首先是安全风险。一个能自主点击、输入、访问多个系统的AI,攻击面比纯文本助手大得多。如果Codex被诱导访问恶意网站、泄露代码库,或者"自作主张"执行了危险命令,责任算谁的?OpenAI目前只字未提具体的安全隔离机制。
可控性是更深层的焦虑。"数周自主运行"听起来美好,但AI的"记忆"真的可靠吗?上下文窗口再长,长期任务中也可能丢失关键约束,或者对早期指令的理解发生漂移。等你发现时,它可能已经提交了几十条错误的PR评论。
还有"代理幻觉"问题——不是编造事实,而是编造行动。Codex可能以为自己完成了任务("已回复所有评论"),实际上点错了按钮、看漏了页面,或者误解了界面状态。这种错误比代码幻觉更难发现,因为它发生在AI的"视线"之外。
最后是用途边界。监控Slack、Gmail、Notion,这已经开始触碰个人助理甚至管理工具的领地。开发者真的希望同一个系统既写代码又读邮件吗?数据隔离和隐私合规会变得更复杂。
我的判断:工具链正在"代理化",但"全自动"是个陷阱
这次更新真正的信号,不是某个具体功能,而是OpenAI对开发者工具的战略定位转变。
从ChatGPT到Codex,再到今天的"后台计算机使用",OpenAI在走一条清晰的路径:让AI从"回答问题"变成"执行任务",从"单点工具"变成"系统代理"。这符合Sam Altman多次提到的"代理时代"(agentic era)愿景。
但"数周自主运行"这个表述,我更倾向于视为产品叙事而非成熟能力。当前大模型的可靠性,还撑不起真正无人监督的长期任务。更现实的用法是"有界自治"——AI在明确的时间窗口、明确的工具范围内自主行动,关键节点人工确认。
对Anthropic来说,压力是真实的。Claude Code的差异化优势正在被侵蚀。但这也说明"计算机使用"这个方向被验证了,竞争会加速双方迭代。
对普通开发者,我的建议是:先试用屏幕操作和浏览器批注,这是最立即可用的增量。记忆线程和插件整合值得投入时间配置,长期调度则建议保持谨慎——设定清晰的检查点,别让AI"跑丢"。
更新已推送给所有Codex桌面应用用户,用ChatGPT账号登录即可。企业版、教育版以及欧盟、英国用户的个性化功能还要再等等。
一个值得观察的细节:OpenAI这次没有公布定价。Codex目前包含在ChatGPT Pro(200美元/月)里,但"数周后台运行"的算力成本显然不低。当代理能力从"偶尔用"变成"常驻跑",商业模式会不会调整?这可能是下一个风暴眼。
如果AI真的能替你值守数周,你会让它先接管哪块工作——是那些烦人的机械维护,还是你其实想亲自把关的核心决策?
热门跟贴