打开网易新闻 查看精彩图片

一位写了15年C#的老工程师,同时开了两个AI窗口写代码。三个月后,他的工作流彻底变了。

不是选哪个,而是什么时候该喊谁上桌——这个结论本身,就和两年前"AI将取代程序员"的论调形成了奇妙的反差。

测试环境:不是"Hello World",是生产环境的泥坑

测试环境:不是"Hello World",是生产环境的泥坑

作者没玩虚的。复杂LINQ查询、API控制器设计、遗留代码重构、异步逻辑的xUnit测试——全是能从Stack Overflow抄来但抄了会出事的场景。

他想知道三件事:谁更能理解业务上下文,谁更少产出"看起来对跑起来错"的代码,以及谁能在长对话里记住自己三分钟前说过什么。

结果分成两个阵营,但和预想的不太一样。

GPT 5.4:那个读过所有编程书、但还没被现实毒打过的实习生

GPT 5.4:那个读过所有编程书、但还没被现实毒打过的实习生

速度是GPT 5.4的第一张牌。DbContext样板代码、标准ASP.NET Core控制器、常见设计模式——基本是指哪打哪,输出还带着点"这里还有三种写法,您看哪种顺眼"的殷勤。

打开网易新闻 查看精彩图片

作者的原话是:「incredibly bright junior developer who's read every programming book」。翻译过来:聪明,知识面广,起手式漂亮。

但坑也藏在这份自信里。

GPT 5.4偶尔会生成"看起来完全合理、编译也能过、但跑起来 subtly wrong"的代码。更麻烦的是上下文遗忘——对话一长,它就像被下一个 shiny problem 吸走了注意力,前面聊过的项目约束、业务规则,说丢就丢。

这毛病很多程序员熟:实习生写的代码,Code Review时才发现假设了不存在的数据库字段。

Claude Opus 4.6:那个会问你"为什么"的资深架构师

Claude Opus 4.6:那个会问你"为什么"的资深架构师

Claude的慢是明牌。但它慢在哪?作者观察到一个细节:Claude经常先抛澄清问题,再铺推理过程,最后才给代码。

复杂重构和异步性能优化是Claude的主场。它不仅给代码,还给选择背后的 rationale,顺带指出"这里如果并发量上去会踩的坑"。

作者形容这种感觉像「pair programming with someone who meticulously considers every angle」——结对编程,但对面坐了个会把每个角度都量一遍的人。

打开网易新闻 查看精彩图片

代价也明显。你只是想要个IEnumerable扩展方法,Claude却递过来一份带设计哲学的小论文。急的时候,这份"过度思考"让人想切窗口。

47个任务后的结论:不是二选一,是分时租赁

47个任务后的结论:不是二选一,是分时租赁

作者最终的workflow很有意思:

快速原型、样板代码、需要多种方案对比时——喊GPT 5.4。它的广度能帮你快速遍历可能性,哪怕最后不用它的代码,思路也被打开了。

复杂逻辑、关键路径重构、需要理解业务上下文的长对话——切Claude。它的深度和记忆稳定性,在"改坏就出事"的场景里更值得信赖。

这个分工本身说明了一件事:当前这一代LLM还没有"通吃"的能力。GPT 5.4的"实习生感"和Claude的"架构师感"是互补的缺陷,也是互补的优势。

作者提到一个被很多人忽略的细节:Claude在长对话中的上下文保持明显更稳。对于需要多轮迭代的复杂任务,这直接决定了你是"接着聊"还是"从头再讲一遍需求"。

最后他抛了一个开放的问题:如果下一代模型把GPT的速度和Claude的深度缝在一起,我们现在这套"两个窗口来回切"的工作流,会不会像当年从FTP部署切换到CI/CD一样,变成一段值得回忆的笨拙时光?