实测OpenAI Codex新功能：Claude Code最强对手来了

灰度测试中

2026-05-07 23:57 ·北京

OpenAI刚刚向部分用户开放了Codex的预览权限。我把它扔进了一个真实的Python代码库，想看看它到底能不能打。

结论先放在前面：这是目前Claude Code最直接的竞争对手，而且某些场景下可能更顺手。

测试环境是一个运行了四年的Django项目，代码量不大但足够真实——有技术债、有遗留逻辑、有没写注释的黑箱函数。Codex接到的第一个任务是排查一个间歇性出现的API超时问题。

它的处理方式很直接：先扫描整个项目的依赖关系，锁定可能涉事的三个模块，然后逐行追问我对业务逻辑的理解。没有一上来就给我十页分析报告，而是像结对编程那样，一边查一边确认方向对不对。

这个交互节奏和Claude Code很像，但Codex在代码定位的速度上明显更快。同样是检索跨文件的函数调用链，Codex平均用时4秒左右，Claude Code大概要7-8秒。差距不算悬殊，但在频繁跳转的场景下会累积成体感差异。

真正让我意外的是它的"假设验证"模式。当我描述了一个可能的根因后，Codex没有直接附和或反驳，而是生成了一段可执行的测试脚本来验证这个假设。脚本跑完，假设被证伪，它立刻切换了排查路径。这种"用代码说话"的习惯，比纯文本辩论省了很多来回。

当然，短板也很明显。遇到需要理解业务上下文才能判断的取舍时，Codex的倾向是保守——它会列出所有技术可行的方案，但不做推荐。Claude Code在这方面更主动，偶尔会基于常见实践给出倾向性建议。

另一个细节是成本感知。Codex会在每次调用前估算token消耗，并询问是否继续。这个功能对预算敏感的小团队很实用，但重度用户可能会觉得打断感太强。

目前Codex还处于有限预览阶段，OpenAI没有公布正式定价。从现有表现来看，它更适合那些希望保持对排查过程强控制、同时不想在机械检索上耗时间的开发者。如果你想要一个更像"资深同事"的AI——会主动拍板、敢承担建议责任——Claude Code暂时还是更对味。

这场结对编程工具的军备竞赛，现在才算真正开打。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴