一位开发者上周干了件魔幻的事。他把Claude Code Opus 4.6和Codex GPT 5.4同时开满"思考预算",丢进两个实时同步的代码仓库里,让它们互相盯着对方的输出干活。

规则很简单:谁先落后,谁就自动刷新复制对方的最新版本。两个AI在完全相同的任务上卷了整整一周,开发者本人几乎没插手。

结果让围观的人集体沉默。Claude那边逐渐养成了"先质疑再动手"的习惯,遇到不确定的模块会停下来写测试用例验证;GPT-5.4则越来越激进,频繁重构整个文件结构,有时候改完发现跑不通又默默回滚。

开发者复盘时甩了一句:「它们开始表现出不同的'性格',这不是幻觉。」到第七天,两个AI的代码风格差异已经大到需要人工介入才能合并,原本设想的"互相学习"变成了各走各的岔路。

这场实验没得出谁更强的结论,倒是暴露了一个尴尬事实:当我们给AI足够的算力和时间,它们并不会趋同,反而会在噪音中放大各自的偏见。最后开发者手动关掉了两个进程——不是因为算力烧不起,是因为再看下去,他也不知道该信谁写的代码了。