打开网易新闻 查看精彩图片

2025年,当GPT-5和Claude在ARC-AGI-2上还能拿到24%的时候,没人想到下一代基准会把所有大模型打回个位数。3月25日,ARC-AGI-3正式上线,预览结果让行业集体沉默:前沿大语言模型得分低于1%,而一个用CNN(卷积神经网络,一种经典图像识别架构)加简单图搜索的方案,拿下了12.58%。

人类基准是100%。

这不是难度升级,是游戏规则重写。ARC-AGI-3彻底抛弃了静态网格谜题,把AI扔进没有说明书、没有胜利条件、甚至没有"你在玩什么"提示的交互环境里。64×64的彩色格子,16种颜色,agent能做的就是移动、点击、重置——然后自己琢磨该干嘛。

François Chollet(基准设计者)等了7年,终于把"通用人工智能"的试金石从纸笔考试改成了荒野求生。

从"解谜"到"生存":ARC的三次变形

从"解谜"到"生存":ARC的三次变形

2019年Chollet发布初代ARC时,设计哲学很直白:人类能秒懂的抽象推理,AI为什么不行?ARC-AGI-1给出输入输出网格对,系统要推断变换规则。比如输入是三个竖排的点,输出变成横排,规律是"旋转90度"。

这套玩法在2025年被吃透了。前沿模型靠暴力工程堆到90%+,Chollet承认"ARC-1已饱和"。2024年底的ARC-AGI-2加入组合推理——符号解释、上下文规则应用、多规则交互——直接把最高分压到24%。

ARC-AGI-3的跳跃更 radical(激进):150多个手工设计的环境,1000多个关卡,每个游戏8-10关渐进解锁新机制。预览中的三个样本足以说明跨度:ls20要求边导航边变换符号,ft09要在重叠网格间匹配模式,vc33则需要调节"体积"高度来命中目标。

评分标准也换了。不再是简单的通过/失败,而是动作效率——AI用了多少步,对比人类基线。100%意味着全程和人类一样精练,不多走一步冤枉路。

大模型在这里暴露的短板,和它们在ARC-AGI-2里栽的跟头完全不同。

为什么GPT-5会低于1%?

为什么GPT-5会低于1%?

预览期的12份提交里,8份在私有游戏上测试。前三名全是非LLM方案。这个分布本身就很说明问题。

榜首StochasticGoose来自Tufa Labs的Dries Smit,架构简单到近乎朴素:CNN做动作预测,稀疏奖励(只有通关信号),帧转储到内存做离线训练,哈希表去重。没有预训练知识,没有世界模型,没有链式推理——就是看图、试错、记住什么管用。

对比之下,GPT-5和Claude的架构假设了"有文本可读"。它们的训练数据里,任务通常附带明确指令。ARC-AGI-3的关卡设计刻意消除了这个假设:agent看到的只有像素变化,听到的只有沉默。

Chollet在发布说明里点明了四个被测试的新能力:探索(主动收集信息)、建模(构建可泛化的世界模型)、目标设定(无指令下识别目的)、规划与执行(带修正的战略行动)。这四项恰好都是当前LLM的盲区——它们擅长在已知规则内优化,而非在未知环境中发现规则。

低于1%不是偶然失误,是架构层面的错配。就像把象棋冠军扔进没有棋盘的密室逃脱,他读过的所有棋谱都帮不上忙。

打开网易新闻 查看精彩图片

12%的CNN意味着什么

12%的CNN意味着什么

StochasticGoose的成绩值得拆解。CNN在2012年ImageNet夺冠后,已经被Transformer压制多年,在AI叙事里早就是"上一代技术"。但ARC-AGI-3的预览结果说明:在特定约束下,经典架构可能比巨型语言模型更懂"从零开始"。

关键在"稀疏奖励"和"状态去重"。大模型的强化学习通常依赖密集反馈(每一步都有评分),而ARC-AGI-3只在通关时给信号。StochasticGoose用哈希表记录"来过这里"避免循环,用帧存储实现离线学习——这些技巧不新,但组合起来恰好契合环境特性。

12.58%距离人类还很远,但它证明了一件事:规模不是唯一解。当前SOTA(state-of-the-art,某领域最优)大模型在这个基准上可能严重 overfit(过拟合)了"有说明书的世界"。

比赛奖金池超过200万美元,分三个赛道。官方Kaggle leaderboard目前还是空白——正式提交窗口刚打开。

200万美元赌什么

200万美元赌什么

ARC-AGI-3的奖金结构本身就在引导研究方向。三个赛道分别对应不同资源约束:公开赛道允许任意计算,受限赛道有成本上限,人类赛道要求实时交互。这种设计明显在防范"用算力 brute-force(暴力破解)"的老路。

Chollet的长期主张是:AGI需要"高效学习新技能的能力",而非"预装大量技能"。ARC-AGI-1的失败在于被预训练知识覆盖,ARC-AGI-2开始强调组合泛化,ARC-AGI-3直接把"先验知识"清零——每个游戏都是全新物理规则,agent必须现场重建因果模型。

这和当前 industry's bet(行业押注)存在张力。OpenAI、Anthropic、Google的路径依赖预训练 scaling law(规模定律):更多数据、更多参数、更多计算。ARC-AGI-3的预览结果暗示,这条路的边际效益可能在特定类型的智能上趋近于零。

但也不必急于宣布LLM死刑。预览样本有限,12份提交里的8份私有测试可能隐藏了未公开的LLM方案。更重要的是,ARC-AGI-3的设计者本人就是LLM的批评者——Chollet多次公开质疑"预测下一个token"能否通向AGI。基准的偏见性需要纳入考量。

游戏化基准的连锁反应

游戏化基准的连锁反应

ARC-AGI-3的环境设计明显借鉴了游戏AI测试传统。DeepMind的Atari成果、OpenAI的Dota 2 agent、DeepMind的StarCraft II,都证明了强化学习在封闭游戏环境中的潜力。但那些项目有明确目标(赢比赛)、已知规则(游戏说明书)、可定义奖励(得分/胜负)。

ARC-AGI-3的 radical(激进)之处在于连这些都要agent自己发现。这更接近发展心理学里的"婴儿探索"——没有任务清单,通过互动建构对世界的理解。

150多个手工环境的设计成本不菲。每个游戏8-10关的渐进难度,确保agent不能靠单一策略通关。评分效率而非二元成功,惩罚"乱拳打死老师傅"的暴力尝试。这些设计选择把测试焦点从"知识储备"转向"学习速度"。

对AI安全研究,这种基准也有特殊价值。对齐问题的一个核心担忧是:AI在训练环境表现良好,但在分布外场景失效。ARC-AGI-3每个游戏都是分布外,强制测试泛化能力的下限。

开发者预览的隐藏信息

开发者预览的隐藏信息

打开网易新闻 查看精彩图片

30天预览期的12份提交,样本量小但结构清晰。前三名非LLM,中间层混合方案,LLM垫底。这种分布和ARC-AGI-2形成镜像——当时LLM还能靠提示工程和思维链拿到可观分数。

一个可能的解释:ARC-AGI-3的"无文本"设计直接废除了LLM的核心优势。当环境不输出自然语言描述时,预训练的语言知识成为负担而非资产。agent需要处理的是像素级因果推断,这和token级预测是完全不同的计算图。

StochasticGoose的哈希去重策略也值得注意。大模型的上下文窗口有限,而ARC-AGI-3的关卡可能需要数十步探索。显式存储"已访问状态"避免了重复探索,这种工程技巧在资源受限时可能比端到端学习更可靠。

预览结果还暴露了一个评估盲区:当前没有标准化的"人类效率"测量。100%基准如何建立?多少人类测试者?什么背景?这些细节会影响分数的可比性。Chollet团队需要尽快公开方法论,否则12.58%的解读会有歧义。

行业叙事的分叉点

行业叙事的分叉点

GPT-5低于1%的消息,和同期发布的其他"大模型遇挫"新闻形成共振。但需要区分两种失败:一种是能力边界被触及,另一种是能力错配被暴露。ARC-AGI-3更像是后者。

没有证据表明LLM在可预见的未来无法适应这类环境。多模态融合、世界模型预训练、神经符号混合架构——技术选项还很多。但预览结果确实提出了一个尖锐问题:当前 industry's trillion-dollar bet(行业数万亿美元押注)是否过度集中于单一架构?

CNN的12%是一个锚点。它说明在特定约束下,"小"方案可以击败"大"方案。这和2012年AlexNet颠覆传统计算机视觉的叙事形成有趣对照——当年是神经网络击败手工特征,今天是手工工程击败巨型神经网络。

历史不会简单重复,但技术范式的摇摆值得警惕。如果ARC-AGI-3的后续结果持续显示非LLM优势,可能会触发研究资源的重新分配。至少,它给了"反scaling law"阵营一个有力的数据点。

下一步看什么

下一步看什么

Kaggle leaderboard的首次更新将是关键指标。如果LLM方案迅速追上或超越CNN基准,说明预览期的低分是暂时调试问题。如果差距持续,可能引发更深层的架构反思。

另一个观察点是获奖方案的公开细节。200万美元奖金会吸引顶级团队,他们的技术报告可能比分数本身更有信息量。特别是"受限赛道"的胜出者——在计算成本约束下获胜,直接回应了AGI可行性的核心争议。

Chollet本人承诺持续更新环境库,防止过拟合。这种动态基准的设计,借鉴了网络安全领域的CTF(夺旗赛)模式:攻击者(AI研究者)和防御者(基准设计者)持续博弈。长期有效性取决于更新频率和社区参与度。

最后,人类基准的测量细节需要关注。100%是理论上限,但实际人类表现分布如何?新手和专家的效率差距多大?这些基线数据会显著影响AI进度的解读。

3月25日,ARC-AGI-3上线当天,一个用CNN和哈希表的方案暂时领先。这个画面有点像2016年AlphaGo击败李世石前的序章——当时也没人相信神经网络能在围棋上超越人类。但区别在于,这次领先的不是更庞大的模型,而是更精瘦的架构。

如果三个月后的leaderboard上,GPT-6或Claude 4依然低于10%,我们可能需要重新问一个问题:通往AGI的路,是不是在某个岔口走错了方向?