Claude把GPT的代码自信病治好了：我测了47个真实任务

赛博兰博

2026-03-30 12:28 ·北京

一位写了15年C#的老工程师，同时开了两个AI窗口写代码。三个月后，他的工作流彻底变了。

不是选哪个，而是什么时候该喊谁上桌——这个结论本身，就和两年前"AI将取代程序员"的论调形成了奇妙的反差。

测试环境：不是"Hello World"，是生产环境的泥坑

测试环境：不是"Hello World"，是生产环境的泥坑

作者没玩虚的。复杂LINQ查询、API控制器设计、遗留代码重构、异步逻辑的xUnit测试——全是能从Stack Overflow抄来但抄了会出事的场景。

他想知道三件事：谁更能理解业务上下文，谁更少产出"看起来对跑起来错"的代码，以及谁能在长对话里记住自己三分钟前说过什么。

结果分成两个阵营，但和预想的不太一样。

GPT 5.4：那个读过所有编程书、但还没被现实毒打过的实习生

GPT 5.4：那个读过所有编程书、但还没被现实毒打过的实习生

速度是GPT 5.4的第一张牌。DbContext样板代码、标准ASP.NET Core控制器、常见设计模式——基本是指哪打哪，输出还带着点"这里还有三种写法，您看哪种顺眼"的殷勤。

作者的原话是：「incredibly bright junior developer who's read every programming book」。翻译过来：聪明，知识面广，起手式漂亮。

但坑也藏在这份自信里。

GPT 5.4偶尔会生成"看起来完全合理、编译也能过、但跑起来 subtly wrong"的代码。更麻烦的是上下文遗忘——对话一长，它就像被下一个 shiny problem 吸走了注意力，前面聊过的项目约束、业务规则，说丢就丢。

这毛病很多程序员熟：实习生写的代码，Code Review时才发现假设了不存在的数据库字段。

Claude Opus 4.6：那个会问你"为什么"的资深架构师

Claude Opus 4.6：那个会问你"为什么"的资深架构师

Claude的慢是明牌。但它慢在哪？作者观察到一个细节：Claude经常先抛澄清问题，再铺推理过程，最后才给代码。

复杂重构和异步性能优化是Claude的主场。它不仅给代码，还给选择背后的 rationale，顺带指出"这里如果并发量上去会踩的坑"。

作者形容这种感觉像「pair programming with someone who meticulously considers every angle」——结对编程，但对面坐了个会把每个角度都量一遍的人。

代价也明显。你只是想要个IEnumerable扩展方法，Claude却递过来一份带设计哲学的小论文。急的时候，这份"过度思考"让人想切窗口。

47个任务后的结论：不是二选一，是分时租赁

47个任务后的结论：不是二选一，是分时租赁

作者最终的workflow很有意思：

快速原型、样板代码、需要多种方案对比时——喊GPT 5.4。它的广度能帮你快速遍历可能性，哪怕最后不用它的代码，思路也被打开了。

复杂逻辑、关键路径重构、需要理解业务上下文的长对话——切Claude。它的深度和记忆稳定性，在"改坏就出事"的场景里更值得信赖。

这个分工本身说明了一件事：当前这一代LLM还没有"通吃"的能力。GPT 5.4的"实习生感"和Claude的"架构师感"是互补的缺陷，也是互补的优势。

作者提到一个被很多人忽略的细节：Claude在长对话中的上下文保持明显更稳。对于需要多轮迭代的复杂任务，这直接决定了你是"接着聊"还是"从头再讲一遍需求"。

最后他抛了一个开放的问题：如果下一代模型把GPT的速度和Claude的深度缝在一起，我们现在这套"两个窗口来回切"的工作流，会不会像当年从FTP部署切换到CI/CD一样，变成一段值得回忆的笨拙时光？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴