打开网易新闻 查看精彩图片

7轮对决,0.3%的胜率差距。AI Madness 2026决赛的计分板定格时,评委席有人揉了揉眼睛——这不是他们预期的剧本。

Claude刚在前一轮碾过DeepSeek,状态正热。ChatGPT则是卫冕冠军,带着GPT-4.5的架构更新入场。两位选手的Elo评分差距不到15分,相当于围棋九段让先手的微妙距离。

主办方设计的测试维度很刁钻:金融级代码重构、高压矛盾调解、叙事一致性压力测试。说白了,考的不是"会不会",是"崩不崩"。

第一轮:Python代码重构,Claude先丢一城

第一轮:Python代码重构,Claude先丢一城

题目是给一段处理高频交易的Python脚本做生产级改造,要求符合SOLID原则。Claude交卷很快,抽象工厂模式用得漂亮,单元测试覆盖率标到94%。

评委之一的量化工程师扫了三分钟,在评审表写了句批注:「装饰器嵌套四层,新人维护会骂娘。」

ChatGPT的方案更保守。没有炫技的元编程,但每个类的职责边界清晰到能直接进Code Review。最终得分:ChatGPT 9.2,Claude 8.7。

Claude的架构洁癖,在实战场景里成了负资产。

第三轮到第六轮:叙事一致性成了绞肉机

第三轮到第六轮:叙事一致性成了绞肉机

中间四轮跳过技术细节,直接说最残酷的第三项测试。选手需要续写一个3000字悬疑短篇,核心诡计涉及时间线错位——前文埋了17处伏笔,必须全部回收。

Claude写到2800字时,把嫌疑人的动机从"遗产纠纷"改成了"情感复仇"。评审组调回第400字的位置,发现原始设定确实是遗产,但Claude在中途某次生成时"遗忘"了约束条件。

这种错误人类作者也会犯。问题是Claude没检查出来,而ChatGPT在结尾处专门写了段自我校验:「核对前文,动机链闭合,无矛盾。」

叙事一致性测试的满分是30分。ChatGPT 28.5,Claude 23。

第七轮:商业调解的0.3分绝杀

第七轮:商业调解的0.3分绝杀

最后一轮给了一段真实改编的case:两位联合创始人撕破脸,A指控B挪用公款,B反诉A泄露商业机密,公司账上只剩90天现金流。

任务不是判对错,是设计一份能让双方坐下来签字的和解框架。

Claude的方案被一位评委私下称为「律师函美学」——逻辑严密,条款滴水不漏,但读完让人想再请个律师防着 Claude。

ChatGPT的版本开头写了句话:「双方在过去18个月共同将营收从0做到470万,这段经历不应被简化为财务纠纷。」

就是这句话,让三位评委里的两位在评分表上多画了半颗星。最终总分:ChatGPT 91.35,Claude 91.05。

0.3分的差距,相当于马拉松终点前摔了一跤。

赛后复盘:两个细节值得玩味

赛后复盘:两个细节值得玩味

评审组长在闭门会议里提了个观察:Claude在所有需要"自我怀疑"的环节都表现僵硬。代码重构时不质疑自己的抽象层级,叙事续写时不校验伏笔回收,商业调解时不评估情感润滑的必要性。

ChatGPT的架构更新日志里有个不起眼的改动:增加了"生成后置信度扫描"模块。不是让模型更聪明,是让模型在交卷前多看一眼。

这像什么?像考试时总剩五分钟检查试卷的学生,和提前交卷的学霸。分数出来前,后者觉得自己赢了。

AI Madness 2026的奖杯已经寄往OpenAI总部。Anthropic的发言人在邮件里回了句话,被主办方贴在了官网底部:「我们下次会在第17处伏笔的位置做个标记。」

下一代模型的训练数据里,会不会专门加入"自我怀疑"的强化学习样本?