ARC-AGI-3上线即零分：AI集体交白卷，出题人却笑了

摸鱼算法

2026-04-01 08:18 ·北京

AI圈刚经历一场大型"羞辱测试"。新基准ARC-AGI-3发布当天，所有主流模型集体挂科，得分逼近零。这不是bug，是设计好的。

出题人François Chollet早就料到了。他放话：「这个测试就是故意让今天的AI得零分。」听起来像故意刁难？但往前翻，ARC-AGI前两代也是这么玩的——结果无一例外，一到两年内就被模型"刷爆"。

Chollet的算盘很直白：既然旧测试撑不过24个月，那就把难度直接拉到"人类觉得简单、AI完全不会"的区间。ARC-AGI测的不是知识储备，是抽象推理——看几张图找规律，三岁小孩秒懂，GPT-4o却原地打转。

历史正在复读。2020年的ARC-AGI-1，人类平均分85%，当时最好的模型不到20%；两年后，GPT-4把差距抹到5%以内。ARC-AGI-2去年发布，o3模型四个月就冲到75%。

现在ARC-AGI-3来了，难度曲线再次陡峭。Chollet在X上补了一句：前两代"mostly saturated with a year or two"—— mostly，不是全部，但足够说明问题。他赌的是：这一次，AI要多久才能从"完全不会"爬到"勉强及格"。

一个细节：测试发布几小时后，已有团队开始提交结果。目前最高分仍是个位数。Chollet没公布具体数字，只转发了那条"零分"的推文，配了个表情。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴