7轮对决,0.3%的胜率差距。AI Madness 2026决赛的计分板定格时,评委席有人揉了揉眼睛——这不是他们预期的剧本。
Claude刚在前一轮碾过DeepSeek,状态正热。ChatGPT则是卫冕冠军,带着GPT-4.5的架构更新入场。两位选手的Elo评分差距不到15分,相当于围棋九段让先手的微妙距离。
主办方设计的测试维度很刁钻:金融级代码重构、高压矛盾调解、叙事一致性压力测试。说白了,考的不是"会不会",是"崩不崩"。
第一轮:Python代码重构,Claude先丢一城
题目是给一段处理高频交易的Python脚本做生产级改造,要求符合SOLID原则。Claude交卷很快,抽象工厂模式用得漂亮,单元测试覆盖率标到94%。
评委之一的量化工程师扫了三分钟,在评审表写了句批注:「装饰器嵌套四层,新人维护会骂娘。」
ChatGPT的方案更保守。没有炫技的元编程,但每个类的职责边界清晰到能直接进Code Review。最终得分:ChatGPT 9.2,Claude 8.7。
Claude的架构洁癖,在实战场景里成了负资产。
第三轮到第六轮:叙事一致性成了绞肉机
中间四轮跳过技术细节,直接说最残酷的第三项测试。选手需要续写一个3000字悬疑短篇,核心诡计涉及时间线错位——前文埋了17处伏笔,必须全部回收。
Claude写到2800字时,把嫌疑人的动机从"遗产纠纷"改成了"情感复仇"。评审组调回第400字的位置,发现原始设定确实是遗产,但Claude在中途某次生成时"遗忘"了约束条件。
这种错误人类作者也会犯。问题是Claude没检查出来,而ChatGPT在结尾处专门写了段自我校验:「核对前文,动机链闭合,无矛盾。」
叙事一致性测试的满分是30分。ChatGPT 28.5,Claude 23。
第七轮:商业调解的0.3分绝杀
最后一轮给了一段真实改编的case:两位联合创始人撕破脸,A指控B挪用公款,B反诉A泄露商业机密,公司账上只剩90天现金流。
任务不是判对错,是设计一份能让双方坐下来签字的和解框架。
Claude的方案被一位评委私下称为「律师函美学」——逻辑严密,条款滴水不漏,但读完让人想再请个律师防着 Claude。
ChatGPT的版本开头写了句话:「双方在过去18个月共同将营收从0做到470万,这段经历不应被简化为财务纠纷。」
就是这句话,让三位评委里的两位在评分表上多画了半颗星。最终总分:ChatGPT 91.35,Claude 91.05。
0.3分的差距,相当于马拉松终点前摔了一跤。
赛后复盘:两个细节值得玩味
评审组长在闭门会议里提了个观察:Claude在所有需要"自我怀疑"的环节都表现僵硬。代码重构时不质疑自己的抽象层级,叙事续写时不校验伏笔回收,商业调解时不评估情感润滑的必要性。
ChatGPT的架构更新日志里有个不起眼的改动:增加了"生成后置信度扫描"模块。不是让模型更聪明,是让模型在交卷前多看一眼。
这像什么?像考试时总剩五分钟检查试卷的学生,和提前交卷的学霸。分数出来前,后者觉得自己赢了。
AI Madness 2026的奖杯已经寄往OpenAI总部。Anthropic的发言人在邮件里回了句话,被主办方贴在了官网底部:「我们下次会在第17处伏笔的位置做个标记。」
下一代模型的训练数据里,会不会专门加入"自我怀疑"的强化学习样本?
热门跟贴