AI圈刚经历一场大型"羞辱测试"。新基准ARC-AGI-3发布当天,所有主流模型集体挂科,得分逼近零。这不是bug,是设计好的。
出题人François Chollet早就料到了。他放话:「这个测试就是故意让今天的AI得零分。」听起来像故意刁难?但往前翻,ARC-AGI前两代也是这么玩的——结果无一例外,一到两年内就被模型"刷爆"。
Chollet的算盘很直白:既然旧测试撑不过24个月,那就把难度直接拉到"人类觉得简单、AI完全不会"的区间。ARC-AGI测的不是知识储备,是抽象推理——看几张图找规律,三岁小孩秒懂,GPT-4o却原地打转。
历史正在复读。2020年的ARC-AGI-1,人类平均分85%,当时最好的模型不到20%;两年后,GPT-4把差距抹到5%以内。ARC-AGI-2去年发布,o3模型四个月就冲到75%。
现在ARC-AGI-3来了,难度曲线再次陡峭。Chollet在X上补了一句:前两代"mostly saturated with a year or two"—— mostly,不是全部,但足够说明问题。他赌的是:这一次,AI要多久才能从"完全不会"爬到"勉强及格"。
一个细节:测试发布几小时后,已有团队开始提交结果。目前最高分仍是个位数。Chollet没公布具体数字,只转发了那条"零分"的推文,配了个表情。
热门跟贴