OpenAI刚刚向部分用户开放了Codex的预览权限。我把它扔进了一个真实的Python代码库,想看看它到底能不能打。
结论先放在前面:这是目前Claude Code最直接的竞争对手,而且某些场景下可能更顺手。
测试环境是一个运行了四年的Django项目,代码量不大但足够真实——有技术债、有遗留逻辑、有没写注释的黑箱函数。Codex接到的第一个任务是排查一个间歇性出现的API超时问题。
它的处理方式很直接:先扫描整个项目的依赖关系,锁定可能涉事的三个模块,然后逐行追问我对业务逻辑的理解。没有一上来就给我十页分析报告,而是像结对编程那样,一边查一边确认方向对不对。
这个交互节奏和Claude Code很像,但Codex在代码定位的速度上明显更快。同样是检索跨文件的函数调用链,Codex平均用时4秒左右,Claude Code大概要7-8秒。差距不算悬殊,但在频繁跳转的场景下会累积成体感差异。
真正让我意外的是它的"假设验证"模式。当我描述了一个可能的根因后,Codex没有直接附和或反驳,而是生成了一段可执行的测试脚本来验证这个假设。脚本跑完,假设被证伪,它立刻切换了排查路径。这种"用代码说话"的习惯,比纯文本辩论省了很多来回。
当然,短板也很明显。遇到需要理解业务上下文才能判断的取舍时,Codex的倾向是保守——它会列出所有技术可行的方案,但不做推荐。Claude Code在这方面更主动,偶尔会基于常见实践给出倾向性建议。
另一个细节是成本感知。Codex会在每次调用前估算token消耗,并询问是否继续。这个功能对预算敏感的小团队很实用,但重度用户可能会觉得打断感太强。
目前Codex还处于有限预览阶段,OpenAI没有公布正式定价。从现有表现来看,它更适合那些希望保持对排查过程强控制、同时不想在机械检索上耗时间的开发者。如果你想要一个更像"资深同事"的AI——会主动拍板、敢承担建议责任——Claude Code暂时还是更对味。
这场结对编程工具的军备竞赛,现在才算真正开打。
热门跟贴