GPT-5在ARC-AGI-3上翻车：1%得分背后|agi|arc|哈希表|基准|翻车|预训练

2025年，当GPT-5和Claude在ARC-AGI-2上还能拿到24%的时候，没人想到下一代基准会把所有大模型打回个位数。3月25日，ARC-AGI-3正式上线，预览结果让行业集体沉默：前沿大语言模型得分低于1%，而一个用CNN（卷积神经网络，一种经典图像识别架构）加简单图搜索的方案，拿下了12.58%。

人类基准是100%。

这不是难度升级，是游戏规则重写。ARC-AGI-3彻底抛弃了静态网格谜题，把AI扔进没有说明书、没有胜利条件、甚至没有"你在玩什么"提示的交互环境里。64×64的彩色格子，16种颜色，agent能做的就是移动、点击、重置——然后自己琢磨该干嘛。

François Chollet（基准设计者）等了7年，终于把"通用人工智能"的试金石从纸笔考试改成了荒野求生。

从"解谜"到"生存"：ARC的三次变形

2019年Chollet发布初代ARC时，设计哲学很直白：人类能秒懂的抽象推理，AI为什么不行？ARC-AGI-1给出输入输出网格对，系统要推断变换规则。比如输入是三个竖排的点，输出变成横排，规律是"旋转90度"。

这套玩法在2025年被吃透了。前沿模型靠暴力工程堆到90%+，Chollet承认"ARC-1已饱和"。2024年底的ARC-AGI-2加入组合推理——符号解释、上下文规则应用、多规则交互——直接把最高分压到24%。

ARC-AGI-3的跳跃更 radical（激进）：150多个手工设计的环境，1000多个关卡，每个游戏8-10关渐进解锁新机制。预览中的三个样本足以说明跨度：ls20要求边导航边变换符号，ft09要在重叠网格间匹配模式，vc33则需要调节"体积"高度来命中目标。

评分标准也换了。不再是简单的通过/失败，而是动作效率——AI用了多少步，对比人类基线。100%意味着全程和人类一样精练，不多走一步冤枉路。

大模型在这里暴露的短板，和它们在ARC-AGI-2里栽的跟头完全不同。

为什么GPT-5会低于1%？

预览期的12份提交里，8份在私有游戏上测试。前三名全是非LLM方案。这个分布本身就很说明问题。

榜首StochasticGoose来自Tufa Labs的Dries Smit，架构简单到近乎朴素：CNN做动作预测，稀疏奖励（只有通关信号），帧转储到内存做离线训练，哈希表去重。没有预训练知识，没有世界模型，没有链式推理——就是看图、试错、记住什么管用。

对比之下，GPT-5和Claude的架构假设了"有文本可读"。它们的训练数据里，任务通常附带明确指令。ARC-AGI-3的关卡设计刻意消除了这个假设：agent看到的只有像素变化，听到的只有沉默。

Chollet在发布说明里点明了四个被测试的新能力：探索（主动收集信息）、建模（构建可泛化的世界模型）、目标设定（无指令下识别目的）、规划与执行（带修正的战略行动）。这四项恰好都是当前LLM的盲区——它们擅长在已知规则内优化，而非在未知环境中发现规则。

低于1%不是偶然失误，是架构层面的错配。就像把象棋冠军扔进没有棋盘的密室逃脱，他读过的所有棋谱都帮不上忙。

12%的CNN意味着什么

StochasticGoose的成绩值得拆解。CNN在2012年ImageNet夺冠后，已经被Transformer压制多年，在AI叙事里早就是"上一代技术"。但ARC-AGI-3的预览结果说明：在特定约束下，经典架构可能比巨型语言模型更懂"从零开始"。

关键在"稀疏奖励"和"状态去重"。大模型的强化学习通常依赖密集反馈（每一步都有评分），而ARC-AGI-3只在通关时给信号。StochasticGoose用哈希表记录"来过这里"避免循环，用帧存储实现离线学习——这些技巧不新，但组合起来恰好契合环境特性。

12.58%距离人类还很远，但它证明了一件事：规模不是唯一解。当前SOTA（state-of-the-art，某领域最优）大模型在这个基准上可能严重 overfit（过拟合）了"有说明书的世界"。

比赛奖金池超过200万美元，分三个赛道。官方Kaggle leaderboard目前还是空白——正式提交窗口刚打开。

200万美元赌什么

ARC-AGI-3的奖金结构本身就在引导研究方向。三个赛道分别对应不同资源约束：公开赛道允许任意计算，受限赛道有成本上限，人类赛道要求实时交互。这种设计明显在防范"用算力 brute-force（暴力破解）"的老路。

Chollet的长期主张是：AGI需要"高效学习新技能的能力"，而非"预装大量技能"。ARC-AGI-1的失败在于被预训练知识覆盖，ARC-AGI-2开始强调组合泛化，ARC-AGI-3直接把"先验知识"清零——每个游戏都是全新物理规则，agent必须现场重建因果模型。

这和当前 industry's bet（行业押注）存在张力。OpenAI、Anthropic、Google的路径依赖预训练 scaling law（规模定律）：更多数据、更多参数、更多计算。ARC-AGI-3的预览结果暗示，这条路的边际效益可能在特定类型的智能上趋近于零。

但也不必急于宣布LLM死刑。预览样本有限，12份提交里的8份私有测试可能隐藏了未公开的LLM方案。更重要的是，ARC-AGI-3的设计者本人就是LLM的批评者——Chollet多次公开质疑"预测下一个token"能否通向AGI。基准的偏见性需要纳入考量。

游戏化基准的连锁反应

ARC-AGI-3的环境设计明显借鉴了游戏AI测试传统。DeepMind的Atari成果、OpenAI的Dota 2 agent、DeepMind的StarCraft II，都证明了强化学习在封闭游戏环境中的潜力。但那些项目有明确目标（赢比赛）、已知规则（游戏说明书）、可定义奖励（得分/胜负）。

ARC-AGI-3的 radical（激进）之处在于连这些都要agent自己发现。这更接近发展心理学里的"婴儿探索"——没有任务清单，通过互动建构对世界的理解。

150多个手工环境的设计成本不菲。每个游戏8-10关的渐进难度，确保agent不能靠单一策略通关。评分效率而非二元成功，惩罚"乱拳打死老师傅"的暴力尝试。这些设计选择把测试焦点从"知识储备"转向"学习速度"。

对AI安全研究，这种基准也有特殊价值。对齐问题的一个核心担忧是：AI在训练环境表现良好，但在分布外场景失效。ARC-AGI-3每个游戏都是分布外，强制测试泛化能力的下限。

开发者预览的隐藏信息

30天预览期的12份提交，样本量小但结构清晰。前三名非LLM，中间层混合方案，LLM垫底。这种分布和ARC-AGI-2形成镜像——当时LLM还能靠提示工程和思维链拿到可观分数。

一个可能的解释：ARC-AGI-3的"无文本"设计直接废除了LLM的核心优势。当环境不输出自然语言描述时，预训练的语言知识成为负担而非资产。agent需要处理的是像素级因果推断，这和token级预测是完全不同的计算图。

StochasticGoose的哈希去重策略也值得注意。大模型的上下文窗口有限，而ARC-AGI-3的关卡可能需要数十步探索。显式存储"已访问状态"避免了重复探索，这种工程技巧在资源受限时可能比端到端学习更可靠。

预览结果还暴露了一个评估盲区：当前没有标准化的"人类效率"测量。100%基准如何建立？多少人类测试者？什么背景？这些细节会影响分数的可比性。Chollet团队需要尽快公开方法论，否则12.58%的解读会有歧义。

行业叙事的分叉点

GPT-5低于1%的消息，和同期发布的其他"大模型遇挫"新闻形成共振。但需要区分两种失败：一种是能力边界被触及，另一种是能力错配被暴露。ARC-AGI-3更像是后者。

没有证据表明LLM在可预见的未来无法适应这类环境。多模态融合、世界模型预训练、神经符号混合架构——技术选项还很多。但预览结果确实提出了一个尖锐问题：当前 industry's trillion-dollar bet（行业数万亿美元押注）是否过度集中于单一架构？

CNN的12%是一个锚点。它说明在特定约束下，"小"方案可以击败"大"方案。这和2012年AlexNet颠覆传统计算机视觉的叙事形成有趣对照——当年是神经网络击败手工特征，今天是手工工程击败巨型神经网络。

历史不会简单重复，但技术范式的摇摆值得警惕。如果ARC-AGI-3的后续结果持续显示非LLM优势，可能会触发研究资源的重新分配。至少，它给了"反scaling law"阵营一个有力的数据点。

下一步看什么

Kaggle leaderboard的首次更新将是关键指标。如果LLM方案迅速追上或超越CNN基准，说明预览期的低分是暂时调试问题。如果差距持续，可能引发更深层的架构反思。

另一个观察点是获奖方案的公开细节。200万美元奖金会吸引顶级团队，他们的技术报告可能比分数本身更有信息量。特别是"受限赛道"的胜出者——在计算成本约束下获胜，直接回应了AGI可行性的核心争议。

Chollet本人承诺持续更新环境库，防止过拟合。这种动态基准的设计，借鉴了网络安全领域的CTF（夺旗赛）模式：攻击者（AI研究者）和防御者（基准设计者）持续博弈。长期有效性取决于更新频率和社区参与度。

最后，人类基准的测量细节需要关注。100%是理论上限，但实际人类表现分布如何？新手和专家的效率差距多大？这些基线数据会显著影响AI进度的解读。

3月25日，ARC-AGI-3上线当天，一个用CNN和哈希表的方案暂时领先。这个画面有点像2016年AlphaGo击败李世石前的序章——当时也没人相信神经网络能在围棋上超越人类。但区别在于，这次领先的不是更庞大的模型，而是更精瘦的架构。

如果三个月后的leaderboard上，GPT-6或Claude 4依然低于10%，我们可能需要重新问一个问题：通往AGI的路，是不是在某个岔口走错了方向？

GPT-5在ARC-AGI-3上翻车：1%得分背后

从"解谜"到"生存"：ARC的三次变形

为什么GPT-5会低于1%？

12%的CNN意味着什么

200万美元赌什么

游戏化基准的连锁反应

开发者预览的隐藏信息

行业叙事的分叉点

下一步看什么

热搜

热门跟贴

从"解谜"到"生存"：ARC的三次变形

为什么GPT-5会低于1%？

12%的CNN意味着什么

200万美元赌什么

游戏化基准的连锁反应

开发者预览的隐藏信息

行业叙事的分叉点

下一步看什么

热搜

热门跟贴

相关推荐

男子晒出自己的取快递神器，经过减速带居然也不会翻车，网友：看到最后我就放心了

小红车正常刹停等红灯 后方大货车蛇形躲避险翻车

隔壁老王离奇翻车，这一摔姿势太搞笑，基本凉凉没跑了

姥姥大锅烀饼子连连翻车，老伴暖心安慰，饭前龙宝帮拿碗筷真像样

盘点全网美女失误翻车爆笑瞬间，我一般不笑，除非忍不住

男子刚骑上摩托车，就被朋友踩了一脚油门，下一幕直接翻车

公路上惊险一幕，渣土车碰撞后侧翻，小轿车蛇形走位逃出生天

看了这么多给孩子喂药的视频 这是头一个翻车的

女子骑车时翻进了沟里，接下来，把网友的眼泪都看出来了！

万能修也不是什么都能修，这次翻车了

狂砸20亿美元却翻车的球场

笑晕！古代体育生考武举的翻车日常

大货车看到红灯没有丝毫减速，避让等红灯的小车失控翻车

罗福莉：AGI已经实现了，下一步是“自进化”

不用一个字，MIT团队让细胞自动机教会了大模型推理

钻这种空子一不小就会翻车

本想拍唯美画面结果鸬鹚没站稳翻车鸬鹚我真的会谢

煎蛋界的“翻车名场面”，以为是技术流，结果看完笑到打鸣

美国高尔夫球星“老虎”伍兹因酒驾发生翻车事故被捕

昆仑万维推出“AIGC全家桶大模型”，视频游戏音乐三线齐发，亮出新一代AGI战略

小红车正常刹停等红灯后方大货车蛇形躲避险翻车

看了这么多给孩子喂药的视频这是头一个翻车的