周三下午,一个React开发者刚在论坛敲下"Claude写React无敌",三分钟后同一个人换了帖子就说"Claude根本不行,Codex吊打它"。不是精分,是AI工具战争的日常。人们不是在比较基准测试,是在捍卫身份认同。
这场论战已经退化成了带语法高亮的星座占卜。同样的框架,相反的结论,双方都深信不疑,却没人做过控制变量。
不可证伪的玄学
核心问题在于:没人控制任何变量。
你用Claude的效果,取决于提示词怎么写、项目复杂度、编程语言、库的版本,以及——说实话——你评估结果时的心情。Codex也一样,Gemini也一样。
模型性能随语言和框架剧烈波动。Rust开发者的体验与Python开发者截然不同。写CLI工具的人和接Next.js项目的人,所处环境天差地别。
但没人说"Claude适合我的特定场景和提示习惯"。他们说的是"Claude更好"。句号。
饭圈化动力学
如果你逛过开发者论坛的AI工具帖,会发现双方呈现明显的饭圈特征:
→ 把精挑细选的例子当成普世真理
→ 把相反体验斥为"技术不行"
→ 与工具身份融合("我是Claude开发者")
→ 对另一阵营的部落敌意
这不是工程,这是付了订阅费的体育迷。
最荒诞的是:同一线程里,用同一模型的人报告截然相反的体验。A说TypeScript泛型写得完美,B说它 constantly 幻觉类型。都没撒谎,都在用"我这个下午"的样本量做归纳。
工作流才是变量
一个没人爱听的真相:模型本身不如你围绕它搭建的流程重要。
问题拆解方式比选哪个模型更重要。输出验证方式更重要。是逐段给上下文还是一次性全扔进去,更重要。
我用Claude和Codex都出过优秀结果,也都出过垃圾结果。从来不是因为选了哪个模型,而是因为我输入时偷懒了,还是真的花了心思。
没人问的真问题
人们热衷问"这两个模型有什么区别",却从不问自己:
→ 我最常写什么类型的代码?
→ 我的提示词结构是什么——给示例还是纯描述?
→ 我是仔细评估输出,还是凭第一印象 vibe?
→ 我的"糟糕体验"会不会其实是提示词没写好?
这些问题很无聊。它们不会让你收获点赞,不会让你感觉属于某个阵营,不会让你在网上赢。
但它们能让你写出更好的代码。
热门跟贴