作者 | 博雯
编辑 | 张洁
最近Codex来了波大更新,直接接管了谷歌浏览器,整个AI圈又玩嗨了。
有人拿它做多人在线小游戏,有人拿它编学术PPT,甚至还有个叫Chris的开发者给Codex丢下一条“去挣5美元”的指令,结果22小时内,Codex居然真自己找了个开源安全审计的赏金路径,完成并提交了PR,16美元就这么成功到账。
这一下可真在开发者圈子炸了锅了,Chris这条帖子短短一天就超过了上百万浏览量,奥特曼看到估计都要笑开花了。
毕竟在去年年初,奥特曼就预言说,2025年可能看到第一批AI智能体“加入劳动力大军”,并实质性改变公司产出。
现在看来,自家的Codex似乎成为了他最好的证据。
奥特曼显然也对Codex十分满意,就在今年五一假期前,他就发帖称“Codex正在经历一个ChatGPT时刻”,一句话获得97万阅读。
这句话发出一周后,Codex谷歌浏览器插件于5月8日正式推出,在AI圈掀起一阵热潮。
事实上,从4月30日奥特曼这句话之后,Codex的下载量就开始暴涨。根据海外AI数据平台TickerTrends,从4月30日到5月3日,Codex的npm下载量达到8610万次,周环比暴涨1397%。而到了5月8日,这个数字进一步攀升至单周9000万。
相对应的,老对头Claude Code则跌至720万次。
也难怪在X、抖音、小红书等多个社区,Codex已经成了不少开发者口中“脚踩Claude Code”“干翻所有AI浏览器”的存在了……
那么,Codex新功能真有那么厉害吗?“AI新榜”也进行了一波实测。
0代码生成小游戏?
响应速度较慢,仍面向专业程序员
这次Codex最核心的更新,就是上线了谷歌浏览器插件——让用户在桌面,即可操控以前需要打开网页才能使用的功能,比如测试Web应用、看控制台、调试、登录各种内部系统等等。
而且它可以打开多个标签并行处理,不会霸占浏览器,不影响人工同时操作电脑。
对于一天大部分工作时间都泡在浏览器上的现代人来说,这听起来确实很让人兴奋。
官方演示里也给了一个挺有意思的案例,用Codex控制谷歌浏览器,同时派出4个AI子代理,用各自的浏览器标签页一起玩一个多人画图游戏。
这就和以前见到的AI编程不一样了,不仅是测试代码成果,还能协调多个AI代理并行测试复杂的网页交互场景,比如多人协作/多人在线应用这种人工测试比较麻烦的流程。
于是我们模仿这个官方案例,做了一个“胡闹厨房mini版”,同样设置了四个玩家位,分别负责切菜、传菜、灭火、收钱,由系统随机生成客人需求,四个玩家共同配合出餐。
和官方演示稍有不同的是,它直接新增了一个多人测试台,同时打开了四个真实的客户端页面,点击“开始四人协作”之后就能看到四个页面并排运行:P1切菜、P2传菜、P3灭火、P4收钱,各自做自己的事,每个操作都会实时同步到其他页面。
虽然最后生成的结果是不错的,但实际上在过程中,我们差点跟Codex吵起来。
一个是未经优化的Codex会随着会话加长,性能慢慢下滑,因此在编写代码的过程中,平均响应速度算不上快。
另一个,由于并非专业编程人士,哪怕整个过程中我们可以不写一行代码,但对于Codex不断抛出的“重启服务器窗口”“将命令行在终端执行”之类的请求,我们只能不断反问,这些对技术人员堪称“常识”的话到底是什么意思。
重复太多次,不禁升起一种对自身智商的羞愧,差点气急败坏地对着Codex骂起来。
冷静下来再思索,到底哪些场景非要频繁地用Agent去操作浏览器,读取本地文件呢?内容创作者的实用场景可能不多,真正用得上的还是前端测试、调试验证、检查日志、PR review等面向开发者的场景。
所以Codex的目标受众很明确——仍然是面向专业的程序员,或至少有一定编程经验的个人开发者。对于此前没有任何经验的普通人来说,还是很难达到“一句话出一个小游戏”那样惊艳的效果,更不用说能大幅度地提高工作效率。
再看这次Codex发布后的技术社区,也出现不少论战。最激烈的就是——Codex和Claude Code相比到底谁强?
毕竟此前奥特曼自己也暴言:如果世界将只剩下两个AI编程智能体,那将是Claude Code和Codex——于是社区里的争论,就更加甚嚣尘上。
猎豹集团CEO傅盛就发帖,表示自己还是觉得“Claude Code更强”,在评论区引发大范围讨论。
不少博主的观点是:在一次性脚本、算法题,或者demo级web应用上,确实是Codex的推理密度更高,但一旦进入长期开发中,要维护三个月,要多轮修改,要保持对上下文和风格的长期记忆时,Claude code的优势就出来了。
也有评论总结了两个产品的不同:
实测选题、舆情分析、行文逻辑:
有惊喜,但也有平替
而在代码能力之外,一个新出的AI工具最直接的影响,就是能否嵌入普通人的工作流,实打实地提升工作效率。
作为新媒体人,每天最重要的就是选题。
直接丢给它过往500多篇稿件和常年积累下来的一众选题渠道,包括公众号、自媒体(抖音/X)博主、国内外的新闻网站、以及多个技术论坛。
最终得到了一份今日新闻的推送,一共8个选题。
说实话,还不错,内容都符合我们过往的选题范围,分了“快选题”和“深度选题”两个版块,也标注了各自的信源。
但实际上,受限于部分渠道本身反爬虫、内容折叠、风控等限制,Codex推送的选题其实并不全面。同时,在对选题的取舍上,人常常会带有一些微妙而模糊的判断,有时候是对于选题重磅程度的判断,有时候又是对于某种行业现象的更深层的思考。在这些较为模糊的地方,Codex还并无法将其很清晰地量化出来。
其次,对某个具体选题进行分析。
比如,我们要做一个关于“追觅俞浩”的社交媒体舆情分析,写篇文章。
Codex可以直接生成舆情分析,用图表进行表达。这个图表虽然算不上非常有设计感,但也不用像过往那样,还要再全网寻觅一个好用又免费的在线图表制作工具,而是直接在一个对话框里就全都能完成了。
最后在生成具体文字内容上,我们直接让Codex帮忙打包了电脑本地囤积的大量本地文档稿件,并总结了过往的所有文档资料,体量共超过200M。
最后让它生成的带有自我风格的写作skill,说实话还蛮惊喜的。
因为它不是机械复制某篇文章,而是进行全量语义分析。把所有历史文档的结构、主题、关注的选题、开篇的写法,乃至自媒体人常用的“反转”等结构,都进行了精准总结,它甚至敏锐地挖掘了测试文章结尾中,那些常用来调动情绪的“套路”。
当然,文字内容的生成效果需要长期实操选题才能有比较清晰的感受,每个人都有各自的主观偏好。
但有亮点,不等于完全可以替代内容创作者目前用的产品。
Codex的本地电脑操控、控制浏览器等功能,此前国内云厂商集成的龙虾,还有很多国内外大厂推出的桌面版Agent,也都能实现。
而在涉及到专业内容的生成,比如用内置的remotion插件生成具有科技感的视频片段,或者通过风格化的写作skill生成稿件,离媒体质量要求还有距离,且仍需要专业人士全程监控,没法真的做到“撒手不管”。
更何况,不管是剪辑素材的搜寻,还是写作选题的寻找,Codex都无法做到全覆盖所有渠道,而这些前期的搜寻与准备工作,恰恰是媒体人工作中最消耗时间的部分之一。
更重要的是,国内跑Codex比较慢,而且非常耗Token。作为GPT初级会员,我们只是跑了上述关于俞浩的一条内容,用量就已经消耗了近2%。
总之,对内容创作者而言,Codex有新意,可也有相对低成本的解决方案。
不仅有卖萌桌宠能做学术PTT,还能自己打工赚钱
而除了代码与内容能力之外,其他有趣的玩法也不少。
比如这次Codex就新上线了一个桌面宠物功能,通过左下角的设置-外观-宠物,就可以唤起一个像素风的桌面宠物,实时反应Codex的回应状态。
而点击宠物,可以快速打开Codex主界面;鼠标放上去会有交互动画;Codex在忙的时候,宠物可能会挠头、展示忙碌动画;在你输入时,宠物会安静待机;而当Codex终于返回结果时,宠物就会挥手提醒你去审核。
除了内置8个默认宠物,你还可以登录官方提供的社区宠物画廊平台Petdex,里面已开源了几百款,包括某只死鸟(多邻国)、祢豆子、菲比啾比,还有咕咕嘎嘎……
一个宠物通常搭载九种状态,每种动画状态都做得很精致。
而广大用户们也不满足于此,围绕“电子宠物”开发出了更多玩法。
比如在小红书,就兴起了一股“用Codex将我家小猫住进电脑”的热潮,一众用户纷纷把自家小猫的照片直接丢给Codex,让小猫的电子形象陪着自己上班。其中播放量最高的超过70万阅读,小红书4.5万点赞,抖音也有超过1万赞。
在视频演示中,电子小猫一般会在程序坞或者任务栏里住着,也可以直接将猫拖动到任务栏上,让其在边框来回走动,玩耍,伸懒腰。
此外,用Codex做学术PPT的玩法也火了起来,小红书和抖音出现了多条万赞视频,基本上都是直接输入学术内容,Codex就能生成一整套PPT的outline,确认无误后再直接生成图片。
生成的效果也是各种风格都有,看起来相当专业。
有博主提出,可以让Codex再写一个skill,将这些图片再转换为可编辑的VBA状态。还有博主提出,可以使用Codex本体+内置插件image2+内置插件presentations,从项目经理到视觉素材生产,再到PPT排版和导出,一条龙做好PPT。
最后再说说开头提到的Codex“自主打工第一单”。
根据Chris在X发帖公布的流程,在收到“去GitHub上找活赚钱,目标5美元”的指令后,Codex便定位到一个bounty(赏金)平台,读代码、改代码、提交拉取请求(PR)、和维护者来回回复评论,最终在PR合并和验证流程完成几天后,Chris收到了16.88美元付款。
Chris说,这次总共跑了约10-15个安全审计项目,消耗了22M tokens。根据OpenAI API公开定价是输出30美元/1M tokens,输入是5美元/1M tokens。如果按照这个成本来算的话,这单生意看着似乎又没那么划算了。
不过Chris也在后续的跟帖中说,现在的重点根本不是能不能盈利,而是GPT-5.5未来的价格还会再降。等到未来模型成本越来越低,这条商业闭环,也就能越来越便宜地被跑通。
说白了,重要的不是一条现在就成熟的商业路径,而是“有东西跑通了”的信号。
整体来看,Codex这次更新确实是一次AI编程工具突破能力边界的新尝试。
对程序员来说,它是一个值得尝试的新玩具;对内容创作者来说,它是一个有趣的补充,但也远没有到"让所有人扔掉手头工具"的程度。
至于那个像素风桌宠——好吧,这可能是我们整个测评过程中最不想关掉的功能了。
欢迎分享、点赞、推荐
一起研究AI
热门跟贴