Codex正经历GPT时刻？我们更关心的是它居然能自己赚钱 | AI实测|codex|代码|命令提示符|插件|程序员|编程

作者 | 博雯

编辑 | 张洁

最近Codex来了波大更新，直接接管了谷歌浏览器，整个AI圈又玩嗨了。

有人拿它做多人在线小游戏，有人拿它编学术PPT，甚至还有个叫Chris的开发者给Codex丢下一条“去挣5美元”的指令，结果22小时内，Codex居然真自己找了个开源安全审计的赏金路径，完成并提交了PR，16美元就这么成功到账。

这一下可真在开发者圈子炸了锅了，Chris这条帖子短短一天就超过了上百万浏览量，奥特曼看到估计都要笑开花了。

毕竟在去年年初，奥特曼就预言说，2025年可能看到第一批AI智能体“加入劳动力大军”，并实质性改变公司产出。

现在看来，自家的Codex似乎成为了他最好的证据。

奥特曼显然也对Codex十分满意，就在今年五一假期前，他就发帖称“Codex正在经历一个ChatGPT时刻”，一句话获得97万阅读。

这句话发出一周后，Codex谷歌浏览器插件于5月8日正式推出，在AI圈掀起一阵热潮。

事实上，从4月30日奥特曼这句话之后，Codex的下载量就开始暴涨。根据海外AI数据平台TickerTrends，从4月30日到5月3日，Codex的npm下载量达到8610万次，周环比暴涨1397%。而到了5月8日，这个数字进一步攀升至单周9000万。

相对应的，老对头Claude Code则跌至720万次。

也难怪在X、抖音、小红书等多个社区，Codex已经成了不少开发者口中“脚踩Claude Code”“干翻所有AI浏览器”的存在了……

那么，Codex新功能真有那么厉害吗？“AI新榜”也进行了一波实测。

0代码生成小游戏？

响应速度较慢，仍面向专业程序员

这次Codex最核心的更新，就是上线了谷歌浏览器插件——让用户在桌面，即可操控以前需要打开网页才能使用的功能，比如测试Web应用、看控制台、调试、登录各种内部系统等等。

而且它可以打开多个标签并行处理，不会霸占浏览器，不影响人工同时操作电脑。

对于一天大部分工作时间都泡在浏览器上的现代人来说，这听起来确实很让人兴奋。

官方演示里也给了一个挺有意思的案例，用Codex控制谷歌浏览器，同时派出4个AI子代理，用各自的浏览器标签页一起玩一个多人画图游戏。

这就和以前见到的AI编程不一样了，不仅是测试代码成果，还能协调多个AI代理并行测试复杂的网页交互场景，比如多人协作/多人在线应用这种人工测试比较麻烦的流程。

于是我们模仿这个官方案例，做了一个“胡闹厨房mini版”，同样设置了四个玩家位，分别负责切菜、传菜、灭火、收钱，由系统随机生成客人需求，四个玩家共同配合出餐。

和官方演示稍有不同的是，它直接新增了一个多人测试台，同时打开了四个真实的客户端页面，点击“开始四人协作”之后就能看到四个页面并排运行：P1切菜、P2传菜、P3灭火、P4收钱，各自做自己的事，每个操作都会实时同步到其他页面。

虽然最后生成的结果是不错的，但实际上在过程中，我们差点跟Codex吵起来。

一个是未经优化的Codex会随着会话加长，性能慢慢下滑，因此在编写代码的过程中，平均响应速度算不上快。

另一个，由于并非专业编程人士，哪怕整个过程中我们可以不写一行代码，但对于Codex不断抛出的“重启服务器窗口”“将命令行在终端执行”之类的请求，我们只能不断反问，这些对技术人员堪称“常识”的话到底是什么意思。

重复太多次，不禁升起一种对自身智商的羞愧，差点气急败坏地对着Codex骂起来。

冷静下来再思索，到底哪些场景非要频繁地用Agent去操作浏览器，读取本地文件呢？内容创作者的实用场景可能不多，真正用得上的还是前端测试、调试验证、检查日志、PR review等面向开发者的场景。

所以Codex的目标受众很明确——仍然是面向专业的程序员，或至少有一定编程经验的个人开发者。对于此前没有任何经验的普通人来说，还是很难达到“一句话出一个小游戏”那样惊艳的效果，更不用说能大幅度地提高工作效率。

再看这次Codex发布后的技术社区，也出现不少论战。最激烈的就是——Codex和Claude Code相比到底谁强？

毕竟此前奥特曼自己也暴言：如果世界将只剩下两个AI编程智能体，那将是Claude Code和Codex——于是社区里的争论，就更加甚嚣尘上。

猎豹集团CEO傅盛就发帖，表示自己还是觉得“Claude Code更强”，在评论区引发大范围讨论。

不少博主的观点是：在一次性脚本、算法题，或者demo级web应用上，确实是Codex的推理密度更高，但一旦进入长期开发中，要维护三个月，要多轮修改，要保持对上下文和风格的长期记忆时，Claude code的优势就出来了。

也有评论总结了两个产品的不同：

实测选题、舆情分析、行文逻辑：

有惊喜，但也有平替

而在代码能力之外，一个新出的AI工具最直接的影响，就是能否嵌入普通人的工作流，实打实地提升工作效率。

作为新媒体人，每天最重要的就是选题。

直接丢给它过往500多篇稿件和常年积累下来的一众选题渠道，包括公众号、自媒体（抖音/X）博主、国内外的新闻网站、以及多个技术论坛。

最终得到了一份今日新闻的推送，一共8个选题。

说实话，还不错，内容都符合我们过往的选题范围，分了“快选题”和“深度选题”两个版块，也标注了各自的信源。

但实际上，受限于部分渠道本身反爬虫、内容折叠、风控等限制，Codex推送的选题其实并不全面。同时，在对选题的取舍上，人常常会带有一些微妙而模糊的判断，有时候是对于选题重磅程度的判断，有时候又是对于某种行业现象的更深层的思考。在这些较为模糊的地方，Codex还并无法将其很清晰地量化出来。

其次，对某个具体选题进行分析。

比如，我们要做一个关于“追觅俞浩”的社交媒体舆情分析，写篇文章。

Codex可以直接生成舆情分析，用图表进行表达。这个图表虽然算不上非常有设计感，但也不用像过往那样，还要再全网寻觅一个好用又免费的在线图表制作工具，而是直接在一个对话框里就全都能完成了。

最后在生成具体文字内容上，我们直接让Codex帮忙打包了电脑本地囤积的大量本地文档稿件，并总结了过往的所有文档资料，体量共超过200M。

最后让它生成的带有自我风格的写作skill，说实话还蛮惊喜的。

因为它不是机械复制某篇文章，而是进行全量语义分析。把所有历史文档的结构、主题、关注的选题、开篇的写法，乃至自媒体人常用的“反转”等结构，都进行了精准总结，它甚至敏锐地挖掘了测试文章结尾中，那些常用来调动情绪的“套路”。

当然，文字内容的生成效果需要长期实操选题才能有比较清晰的感受，每个人都有各自的主观偏好。

但有亮点，不等于完全可以替代内容创作者目前用的产品。

Codex的本地电脑操控、控制浏览器等功能，此前国内云厂商集成的龙虾，还有很多国内外大厂推出的桌面版Agent，也都能实现。

而在涉及到专业内容的生成，比如用内置的remotion插件生成具有科技感的视频片段，或者通过风格化的写作skill生成稿件，离媒体质量要求还有距离，且仍需要专业人士全程监控，没法真的做到“撒手不管”。

更何况，不管是剪辑素材的搜寻，还是写作选题的寻找，Codex都无法做到全覆盖所有渠道，而这些前期的搜寻与准备工作，恰恰是媒体人工作中最消耗时间的部分之一。

更重要的是，国内跑Codex比较慢，而且非常耗Token。作为GPT初级会员，我们只是跑了上述关于俞浩的一条内容，用量就已经消耗了近2%。

总之，对内容创作者而言，Codex有新意，可也有相对低成本的解决方案。

不仅有卖萌桌宠能做学术PTT，还能自己打工赚钱

而除了代码与内容能力之外，其他有趣的玩法也不少。

比如这次Codex就新上线了一个桌面宠物功能，通过左下角的设置-外观-宠物，就可以唤起一个像素风的桌面宠物，实时反应Codex的回应状态。

而点击宠物，可以快速打开Codex主界面；鼠标放上去会有交互动画；Codex在忙的时候，宠物可能会挠头、展示忙碌动画；在你输入时，宠物会安静待机；而当Codex终于返回结果时，宠物就会挥手提醒你去审核。

除了内置8个默认宠物，你还可以登录官方提供的社区宠物画廊平台Petdex，里面已开源了几百款，包括某只死鸟（多邻国）、祢豆子、菲比啾比，还有咕咕嘎嘎……

一个宠物通常搭载九种状态，每种动画状态都做得很精致。

而广大用户们也不满足于此，围绕“电子宠物”开发出了更多玩法。

比如在小红书，就兴起了一股“用Codex将我家小猫住进电脑”的热潮，一众用户纷纷把自家小猫的照片直接丢给Codex，让小猫的电子形象陪着自己上班。其中播放量最高的超过70万阅读，小红书4.5万点赞，抖音也有超过1万赞。

在视频演示中，电子小猫一般会在程序坞或者任务栏里住着，也可以直接将猫拖动到任务栏上，让其在边框来回走动，玩耍，伸懒腰。

此外，用Codex做学术PPT的玩法也火了起来，小红书和抖音出现了多条万赞视频，基本上都是直接输入学术内容，Codex就能生成一整套PPT的outline，确认无误后再直接生成图片。

生成的效果也是各种风格都有，看起来相当专业。

有博主提出，可以让Codex再写一个skill，将这些图片再转换为可编辑的VBA状态。还有博主提出，可以使用Codex本体+内置插件image2+内置插件presentations，从项目经理到视觉素材生产，再到PPT排版和导出，一条龙做好PPT。

最后再说说开头提到的Codex“自主打工第一单”。

根据Chris在X发帖公布的流程，在收到“去GitHub上找活赚钱，目标5美元”的指令后，Codex便定位到一个bounty（赏金）平台，读代码、改代码、提交拉取请求（PR）、和维护者来回回复评论，最终在PR合并和验证流程完成几天后，Chris收到了16.88美元付款。

Chris说，这次总共跑了约10-15个安全审计项目，消耗了22M tokens。根据OpenAI API公开定价是输出30美元/1M tokens，输入是5美元/1M tokens。如果按照这个成本来算的话，这单生意看着似乎又没那么划算了。

不过Chris也在后续的跟帖中说，现在的重点根本不是能不能盈利，而是GPT-5.5未来的价格还会再降。等到未来模型成本越来越低，这条商业闭环，也就能越来越便宜地被跑通。

说白了，重要的不是一条现在就成熟的商业路径，而是“有东西跑通了”的信号。

整体来看，Codex这次更新确实是一次AI编程工具突破能力边界的新尝试。

对程序员来说，它是一个值得尝试的新玩具；对内容创作者来说，它是一个有趣的补充，但也远没有到"让所有人扔掉手头工具"的程度。

至于那个像素风桌宠——好吧，这可能是我们整个测评过程中最不想关掉的功能了。

欢迎分享、点赞、推荐

一起研究AI

Codex正经历GPT时刻？我们更关心的是它居然能自己赚钱 | AI实测

热搜

热门跟贴

热搜

热门跟贴

相关推荐

AI 真开始打工了：Codex 为我赚到 115 元

AI代码审查省了程序员多少时间？实测数据来了

部署开源AI编程工具，带你用 OpenCode 打造自由可控的 AI 编程工作流

OpenAI 明牌抢人，Codex 上线「一键搬家」！

OpenAI让Codex直接操控Chrome，浏览器自动化再进一步

DeepSeek V4 硬核炸场！开源编码 AI 杀疯了，硬刚 GPT-5.5/Opus 4.7

AI的边界有多宽?看看大神们用GPT-5.5搓出来的这些狠活

DeepSeek拒绝400亿投资，国产AI硬骨头显实力

用AI写代码更快，我的脑子却变慢了

英伟达400亿美元押注AI生态，字节AI支出加码至2000亿

AI预言正在成为现实：99%人将被淘汰，仅三类人能成功突围

自从有了Ai，小时候的动画片算是白看了

Clawdbot进化速度离谱：突然开口说话，给自己捏脸，还能炒股砍价

大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

做视频的「Cursor」，Anijam重写动画创作流程丨涌现新项目

绝杀！OpenAI正式接管人类耳朵，首个GPT-5级推理音频模型来了

冲刺3400亿估值，翁荔亲自出镜，交出一款更像人的大模型

支持远程操控和通用GUI操作3

告别云端依赖！字节开源新作DreamLite让手机秒变 AI 画板

智元APC香港观察：具身智能的终极角色是先进生产力单元