AI写代码已经不新鲜了。但让AI真的"坐"在你电脑前,点开你的设计软件、改完前端截图发你确认——这事还没人做成。

OpenAI今天更新的Codex,正在把这个边界往前推了一步。不是概念视频,是今天开始推送的桌面端更新。

打开网易新闻 查看精彩图片

一、三个新能力,每个都在试探边界

这次更新可以拆成三块:手、眼、脑。

「手」是电脑操控。Codex现在能在Mac上运行自己的光标,看屏幕、点击、输入,完成完整任务流。OpenAI强调它能和用户并行工作,不抢你的鼠标——这听起来像废话,但用过早期自动化工具的人都知道,「不干扰」本身就是产品决策。

「眼」是图像生成。接入了gpt-image-1.5,可以直接在应用里出产品概念图和mockup。设计师可能嗤之以鼻,但产品经理和独立开发者会懂:从想法到能看的图,中间少了一个提需求、等排期、反复改的环节。

「脑」是记忆系统。Codex开始记住你的偏好、重复工作流、技术栈。不是每次对话清空的临时工,是能跨天、跨周续上任务的长期关系。

这三件事分开看都不算首创。但打包进一个给开发者用的桌面端AI,顺序很重要:先让你习惯用它写代码,再让它接管你的屏幕,最后让它记住你是谁。

二、记忆功能藏着真正的野心

官方列了记忆能存什么:偏好设置、重复工作流、技术栈、个人工作习惯。

但更值得看的是它怎么用这些记忆。Codex现在能「基于项目上下文、记忆和已连接插件来提议工作」。翻译一下:它不是等你下指令,而是主动说「根据你上周的写法,这部分我可以先做了」。

这踩中了一个真实痛点。开发者的时间不是被「写代码」吃掉的,是被「决定写什么、怎么组织、从哪开始」吃掉的。AI如果只能执行,省的是打字时间;如果能提议,省的是决策精力。

当然,前提是你愿意让AI记住你。OpenAI的隐私政策里,记忆功能默认开启,但用户可以删除特定记忆或全部清空。企业版、教育版、欧盟和英国用户暂时还用不上——监管合规比技术实现慢半拍,这很OpenAI。

电脑操控功能同样被欧盟和英国排除在外。原因没明说,但桌面自动化涉及屏幕录制和输入模拟,GDPR的「目的限制」和「数据最小化」原则确实难绕。

三、90个新插件和那个没说完的浏览器

插件数量从几十个跳到90+,类型包括技能组合、应用集成、MCP服务器。MCP(模型上下文协议)是Anthony今年推的标准,OpenAI这么快跟进,说明开发者工具层的协议战争已经开打。

但插件数量本身不重要。重要的是Codex现在能「组合」它们——一个插件读你的GitHub PR评论,另一个改代码,第三个跑测试。自动化链条的长度,决定了它能替你省多少事。

浏览器功能目前是半成品。用户只能在Codex内置浏览器里评论页面来指导AI,但官方预告了完整版:打开网站、走用户流程、截图、检查输出。这要是落地,前端测试和UI验收的工作方式会变天。

想象一下:Codex打开你的staging环境,走完注册-下单-支付的完整流程,截图对比每个步骤的UI,把差异标出来。现在这事需要QA团队或者至少一个Selenium脚本。以后可能是一句「测一下新用户下单流程」。

四、为什么偏偏是Mac桌面端

OpenAI没有解释为什么首发Mac。但看用户画像很清晰:开发者、设计师、产品经理——Mac渗透率最高的群体。

更隐蔽的考量可能是控制。Mac的辅助功能和权限管理比Windows更标准化,屏幕录制和输入模拟的API更成熟。做第一个能稳定运行的demo,Mac是最小阻力路径。

Windows版肯定会来,但时间线未知。Linux更悬——桌面环境碎片化,自动化接口各家自己玩。

这次更新只推送给用ChatGPT账号登录的Codex桌面用户。没提价格,但Codex本身需要ChatGPT Plus或Pro订阅。记忆和电脑操控是功能更新,不是新 tier,这算良心——至少没搞成「Pro Max Ultra」的套娃收费。

五、独立开发者最该关注什么

如果你是独立开发者或小团队,这次更新里有三个信号值得抓:

第一,「一个人就是一支队伍」的门槛在降低。设计、前端、测试、部署——AI能参与的环节在变多。不是每个环节都能替代人,但每个环节能省的时间在累加。

第二,工作流记忆意味着AI在从「工具」变成「同事」。工具是你每次教,同事是下次直接上手。这个切换点的价值,被严重低估。

第三,浏览器自动化一旦落地,SaaS产品的测试和运营方式要重写。现在靠堆人力的环节,以后可能靠堆算力。

当然,所有「以后」都有前提:OpenAI的更新节奏、监管放行速度、以及你自己的学习曲线。但至少今天,Mac上的开发者可以先试试让AI真的「用」你的电脑了。