OpenAI给AI程序员装上了"手"和"脑"

Ping值焦虑

2026-04-17 01:10 ·北京

AI写代码已经不新鲜了。但让AI真的"坐"在你电脑前，点开你的设计软件、改完前端截图发你确认——这事还没人做成。

OpenAI今天更新的Codex，正在把这个边界往前推了一步。不是概念视频，是今天开始推送的桌面端更新。

一、三个新能力，每个都在试探边界

这次更新可以拆成三块：手、眼、脑。

「手」是电脑操控。Codex现在能在Mac上运行自己的光标，看屏幕、点击、输入，完成完整任务流。OpenAI强调它能和用户并行工作，不抢你的鼠标——这听起来像废话，但用过早期自动化工具的人都知道，「不干扰」本身就是产品决策。

「眼」是图像生成。接入了gpt-image-1.5，可以直接在应用里出产品概念图和mockup。设计师可能嗤之以鼻，但产品经理和独立开发者会懂：从想法到能看的图，中间少了一个提需求、等排期、反复改的环节。

「脑」是记忆系统。Codex开始记住你的偏好、重复工作流、技术栈。不是每次对话清空的临时工，是能跨天、跨周续上任务的长期关系。

这三件事分开看都不算首创。但打包进一个给开发者用的桌面端AI，顺序很重要：先让你习惯用它写代码，再让它接管你的屏幕，最后让它记住你是谁。

二、记忆功能藏着真正的野心

官方列了记忆能存什么：偏好设置、重复工作流、技术栈、个人工作习惯。

但更值得看的是它怎么用这些记忆。Codex现在能「基于项目上下文、记忆和已连接插件来提议工作」。翻译一下：它不是等你下指令，而是主动说「根据你上周的写法，这部分我可以先做了」。

这踩中了一个真实痛点。开发者的时间不是被「写代码」吃掉的，是被「决定写什么、怎么组织、从哪开始」吃掉的。AI如果只能执行，省的是打字时间；如果能提议，省的是决策精力。

当然，前提是你愿意让AI记住你。OpenAI的隐私政策里，记忆功能默认开启，但用户可以删除特定记忆或全部清空。企业版、教育版、欧盟和英国用户暂时还用不上——监管合规比技术实现慢半拍，这很OpenAI。

电脑操控功能同样被欧盟和英国排除在外。原因没明说，但桌面自动化涉及屏幕录制和输入模拟，GDPR的「目的限制」和「数据最小化」原则确实难绕。

三、90个新插件和那个没说完的浏览器

插件数量从几十个跳到90+，类型包括技能组合、应用集成、MCP服务器。MCP（模型上下文协议）是Anthony今年推的标准，OpenAI这么快跟进，说明开发者工具层的协议战争已经开打。

但插件数量本身不重要。重要的是Codex现在能「组合」它们——一个插件读你的GitHub PR评论，另一个改代码，第三个跑测试。自动化链条的长度，决定了它能替你省多少事。

浏览器功能目前是半成品。用户只能在Codex内置浏览器里评论页面来指导AI，但官方预告了完整版：打开网站、走用户流程、截图、检查输出。这要是落地，前端测试和UI验收的工作方式会变天。

想象一下：Codex打开你的staging环境，走完注册-下单-支付的完整流程，截图对比每个步骤的UI，把差异标出来。现在这事需要QA团队或者至少一个Selenium脚本。以后可能是一句「测一下新用户下单流程」。

四、为什么偏偏是Mac桌面端

OpenAI没有解释为什么首发Mac。但看用户画像很清晰：开发者、设计师、产品经理——Mac渗透率最高的群体。

更隐蔽的考量可能是控制。Mac的辅助功能和权限管理比Windows更标准化，屏幕录制和输入模拟的API更成熟。做第一个能稳定运行的demo，Mac是最小阻力路径。

Windows版肯定会来，但时间线未知。Linux更悬——桌面环境碎片化，自动化接口各家自己玩。

这次更新只推送给用ChatGPT账号登录的Codex桌面用户。没提价格，但Codex本身需要ChatGPT Plus或Pro订阅。记忆和电脑操控是功能更新，不是新 tier，这算良心——至少没搞成「Pro Max Ultra」的套娃收费。

五、独立开发者最该关注什么

如果你是独立开发者或小团队，这次更新里有三个信号值得抓：

第一，「一个人就是一支队伍」的门槛在降低。设计、前端、测试、部署——AI能参与的环节在变多。不是每个环节都能替代人，但每个环节能省的时间在累加。

第二，工作流记忆意味着AI在从「工具」变成「同事」。工具是你每次教，同事是下次直接上手。这个切换点的价值，被严重低估。

第三，浏览器自动化一旦落地，SaaS产品的测试和运营方式要重写。现在靠堆人力的环节，以后可能靠堆算力。

当然，所有「以后」都有前提：OpenAI的更新节奏、监管放行速度、以及你自己的学习曲线。但至少今天，Mac上的开发者可以先试试让AI真的「用」你的电脑了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴