Claude和Codex之争，本质是开发者星座占卜

摸鱼算法

2026-05-07 00:13 ·北京

周三下午，一个React开发者刚在论坛敲下"Claude写React无敌"，三分钟后同一个人换了帖子就说"Claude根本不行，Codex吊打它"。不是精分，是AI工具战争的日常。人们不是在比较基准测试，是在捍卫身份认同。

这场论战已经退化成了带语法高亮的星座占卜。同样的框架，相反的结论，双方都深信不疑，却没人做过控制变量。

不可证伪的玄学

核心问题在于：没人控制任何变量。

你用Claude的效果，取决于提示词怎么写、项目复杂度、编程语言、库的版本，以及——说实话——你评估结果时的心情。Codex也一样，Gemini也一样。

模型性能随语言和框架剧烈波动。Rust开发者的体验与Python开发者截然不同。写CLI工具的人和接Next.js项目的人，所处环境天差地别。

但没人说"Claude适合我的特定场景和提示习惯"。他们说的是"Claude更好"。句号。

饭圈化动力学

如果你逛过开发者论坛的AI工具帖，会发现双方呈现明显的饭圈特征：

→ 把精挑细选的例子当成普世真理
→ 把相反体验斥为"技术不行"
→ 与工具身份融合（"我是Claude开发者"）
→ 对另一阵营的部落敌意

这不是工程，这是付了订阅费的体育迷。

最荒诞的是：同一线程里，用同一模型的人报告截然相反的体验。A说TypeScript泛型写得完美，B说它 constantly 幻觉类型。都没撒谎，都在用"我这个下午"的样本量做归纳。

工作流才是变量

一个没人爱听的真相：模型本身不如你围绕它搭建的流程重要。

问题拆解方式比选哪个模型更重要。输出验证方式更重要。是逐段给上下文还是一次性全扔进去，更重要。

我用Claude和Codex都出过优秀结果，也都出过垃圾结果。从来不是因为选了哪个模型，而是因为我输入时偷懒了，还是真的花了心思。

没人问的真问题

人们热衷问"这两个模型有什么区别"，却从不问自己：

→ 我最常写什么类型的代码？
→ 我的提示词结构是什么——给示例还是纯描述？
→ 我是仔细评估输出，还是凭第一印象 vibe？
→ 我的"糟糕体验"会不会其实是提示词没写好？

这些问题很无聊。它们不会让你收获点赞，不会让你感觉属于某个阵营，不会让你在网上赢。

但它们能让你写出更好的代码。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴