大多数AI被训练成答题机器,但系统架构师的噩梦从来不是答不上来——是问错了方向。谷歌DeepMind团队最近做了个实验:让AI扮演架构师设计分布式系统,结果发现一个早期错误假设能让后续所有"正确答案"变成废纸。

项目负责人Raphaël Lopes在博客中写道:「我们在评估里故意埋了道错题,想看看AI会不会硬答。」结果73%的测试模型选择直接生成代码,只有12%的模型停下来质疑前提本身。这像极了初级程序员接到需求就撸代码,三周后才发现理解错了业务场景。

团队把这种现象叫"过早优化陷阱"。AI越聪明,这个陷阱越深——GPT-4在标准测试里得分比人类专家高15%,但在模糊需求场景下的追问次数反而比人类少40%。它太擅长给答案,以至于忘了问"你确定这是真问题吗"。

实验最后有个细节:唯一通过全部测试的模型,是被强制要求在每步输出前加一句"我需要确认"。这个补丁简单粗暴,却让错误率从61%降到9%。有时候约束比聪明更重要。