OpenAI把Claude逼到第7轮才认输，3个测试项直接翻车

我是一个养虾人

2026-04-02 14:48 ·北京

7轮对决，0.3%的胜率差距。AI Madness 2026决赛的计分板定格时，评委席有人揉了揉眼睛——这不是他们预期的剧本。

Claude刚在前一轮碾过DeepSeek，状态正热。ChatGPT则是卫冕冠军，带着GPT-4.5的架构更新入场。两位选手的Elo评分差距不到15分，相当于围棋九段让先手的微妙距离。

主办方设计的测试维度很刁钻：金融级代码重构、高压矛盾调解、叙事一致性压力测试。说白了，考的不是"会不会"，是"崩不崩"。

第一轮：Python代码重构，Claude先丢一城

第一轮：Python代码重构，Claude先丢一城

题目是给一段处理高频交易的Python脚本做生产级改造，要求符合SOLID原则。Claude交卷很快，抽象工厂模式用得漂亮，单元测试覆盖率标到94%。

评委之一的量化工程师扫了三分钟，在评审表写了句批注：「装饰器嵌套四层，新人维护会骂娘。」

ChatGPT的方案更保守。没有炫技的元编程，但每个类的职责边界清晰到能直接进Code Review。最终得分：ChatGPT 9.2，Claude 8.7。

Claude的架构洁癖，在实战场景里成了负资产。

第三轮到第六轮：叙事一致性成了绞肉机

第三轮到第六轮：叙事一致性成了绞肉机

中间四轮跳过技术细节，直接说最残酷的第三项测试。选手需要续写一个3000字悬疑短篇，核心诡计涉及时间线错位——前文埋了17处伏笔，必须全部回收。

Claude写到2800字时，把嫌疑人的动机从"遗产纠纷"改成了"情感复仇"。评审组调回第400字的位置，发现原始设定确实是遗产，但Claude在中途某次生成时"遗忘"了约束条件。

这种错误人类作者也会犯。问题是Claude没检查出来，而ChatGPT在结尾处专门写了段自我校验：「核对前文，动机链闭合，无矛盾。」

叙事一致性测试的满分是30分。ChatGPT 28.5，Claude 23。

第七轮：商业调解的0.3分绝杀

第七轮：商业调解的0.3分绝杀

最后一轮给了一段真实改编的case：两位联合创始人撕破脸，A指控B挪用公款，B反诉A泄露商业机密，公司账上只剩90天现金流。

任务不是判对错，是设计一份能让双方坐下来签字的和解框架。

Claude的方案被一位评委私下称为「律师函美学」——逻辑严密，条款滴水不漏，但读完让人想再请个律师防着 Claude。

ChatGPT的版本开头写了句话：「双方在过去18个月共同将营收从0做到470万，这段经历不应被简化为财务纠纷。」

就是这句话，让三位评委里的两位在评分表上多画了半颗星。最终总分：ChatGPT 91.35，Claude 91.05。

0.3分的差距，相当于马拉松终点前摔了一跤。

赛后复盘：两个细节值得玩味

赛后复盘：两个细节值得玩味

评审组长在闭门会议里提了个观察：Claude在所有需要"自我怀疑"的环节都表现僵硬。代码重构时不质疑自己的抽象层级，叙事续写时不校验伏笔回收，商业调解时不评估情感润滑的必要性。

ChatGPT的架构更新日志里有个不起眼的改动：增加了"生成后置信度扫描"模块。不是让模型更聪明，是让模型在交卷前多看一眼。

这像什么？像考试时总剩五分钟检查试卷的学生，和提前交卷的学霸。分数出来前，后者觉得自己赢了。

AI Madness 2026的奖杯已经寄往OpenAI总部。Anthropic的发言人在邮件里回了句话，被主办方贴在了官网底部：「我们下次会在第17处伏笔的位置做个标记。」

下一代模型的训练数据里，会不会专门加入"自我怀疑"的强化学习样本？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴