当下AI似乎成为了一切的答案吗,前不久英伟达创始人黄仁勋还在采访中振臂高呼,AGI(通用人工智能)已经触手可及;各大AI实验室的新闻稿言辞凿凿,描绘着机器超越人类的历史节点。
但近日一份来自ARC Prize基金会的技术报告悄然向AI界投入了一枚深水炸弹。
报告的核心结论只有一句话:在全新的ARC-AGI-3基准测试中,人类参与者的解题成功率为100%,而截至2026年3月,包括谷歌Gemini、OpenAI GPT-5、Anthropic Claude等在内的全球顶尖大模型,得分均低于1%。
而所谓的ARC-AGI-3测试的内容,是一系列专门为人类设计、普通人平均花费不到10分钟就能通关的互动益智小游戏。
AI究竟到了哪一步?这场测试,或许给出了迄今为止最诚实的答案。
AI基准测试:衡量机器智能的尺子
要理解ARC-AGI-3为何重要,先要理解AI基准测试这件事本身。
所谓基准测试(Benchmark)是评估AI系统能力的标准化测量工具。它通过一组预先定义好的题目或任务,为不同的AI系统提供统一的评分标准,使得研究者和公众可以横向比较、纵向追踪AI能力的进步。
目前AI基准测试按照评估维度,大致可以分为语言理解类(测试模型对自然语言的理解、推理和问答能力)、代码能力类(测试模型编写、调试代码的能力)、数学推理类(测试模型解决数学问题的能)、多模态理解类(测试模型结合图像和文字进行理解、问答的能力)、智能体(Agentic)评估类以及通用推理与智能类。
但是AI基准测试有一个根本性的悖论:一旦一个基准测试被广泛使用,它本身就会被"攻克",但攻克它,并不意味着AI真的变聪明了。
这种现象叫做"基准饱和"(benchmark saturation)或"古德哈特定律"效应:当一个指标变成目标,它就不再是好指标。AI公司会针对性地用测试题数据训练模型,使其在特定基准上表现出色,但这种"表现"往往无法泛化到真实场景。
谷歌刷分刷到在博主自己制作的“内鬼”测试中也荣获了双满分的成绩
就比如谷歌的Gemini 3.1 Pro,就是名副其实的刷分大师,虽然在各项测试中分数都名列前茅,但上线后不久就曝露了真身。
正是在这一背景下,ARC-AGI系列基准测试应运而生,并以其独特的设计哲学,成为AI圈最难被"刷分"的测试之一。
从归类来看,ARC-AGI系列测试应该属与智能体(Agentic)评估类以及通用推理与智能类。简单来说,它们不测具体知识,而是测试模型面对全新问题时的泛化推理能力、测试AI在复杂、多步骤、交互式环境中自主完成任务的能力。
ARC-AGI系列:专为抵抗"作弊"而生
ARC-AGI系列的设计者是AI研究者François Chollet。2019年,他发表了一篇题为《论智能的度量》(On the Measure of Intelligence)的论文,提出了一个与主流AI评估截然不同的框架:
真正的智能,不是在你擅长的领域表现好,而是面对全新任务时,以尽可能少的资源和数据,快速习得解决该任务的能力。
创始人Mike Knoop & François Chollet 图片来源:ARC-AGI官网
这就是"技能习得效率"(skill-acquisition efficiency)的核心思想。换言之,智能的本质不是你知道多少,而是你在面对未知时学习得有多快、多高效。
这一定义,直接催生了ARC-AGI的设计逻辑:测试必须对所有人(无论是人类还是AI)都是全新的、未曾见过的;而且必须能区分"真正理解"和"记忆检索"这两种截然不同的能力。
而基于该逻辑,2019年推出的ARC-AGI-1的形式直观而优雅:给出若干对"输入→输出"的二维彩色网格示例,让测试者推断其中的变换规则,然后对一个新的输入网格应用该规则,输出正确答案。
整个测试严格遵守以下原则:
● 不依赖语言:没有文字,没有数字,只有颜色和图案。
● 只基于核心知识:仅使用人类天生具备的直觉——对物体、几何、基本物理和意图的感知。这些是婴儿期就已具备的认知,而非后天学习。
● 每道题都是独一无二的:杜绝通过背题或统计模式来作答。
在2019至2024年间,ARC-AGI-1对AI系统构成了极大的挑战。基于预训练数据扩大规模的基础大语言模型(base LLMs)在其上几乎得零分。
直到2024年,OpenAI的o1、o3系列模型凭借测试时推理(test-time reasoning)的突破,才开始在ARC-AGI-1上取得非零分数。这也是该测试第一次精准捕捉到大模型"流体智能"出现的历史信号。
而随着大模型在1代测试中取得成绩,2025年3月,ARC-AGI-2发布。它保持了相同的网格形式,但大幅提升了推理复杂度,引入了多步骤推理、顺序规则应用和符号解读等更高难度的任务。
与ARC-AGI-1相比,ARC-AGI-2的人类解题时间从平均30秒增加到300秒。
然而,ARC-AGI-2也面临一个新的威胁:随着AI能力的提升,前沿大模型已经展现出非零的流体智能,开始能够适应距离训练分布较远的任务。这意味着,只要公开训练集和私有测试集分布足够相似,模型便可以通过大规模生成合成题目、自动验证、循环训练的方式,变相"背下"整个题库,即使没有直接看过测试题本身。
ARC Prize基金会甚至发现,在对Gemini 3的验证过程中,模型的推理链里主动使用了ARC-AGI的整数-颜色映射(如"3对应绿色"),而测试提示词中从未提及这一信息。这强烈暗示:ARC-AGI的数据已经渗入了模型训练集。
静态测试的时代,正在终结。
ARC-AGI-3:当AI遭遇会动的世界
而ARC-AGI-3的核心转变,便是从静态推理转向交互式智能体推理(agentic intelligence)。
它的基本形式是:一系列完全原创的、基于回合制的益智小游戏。测试者需要在没有任何规则说明的情况下,独立探索游戏机制、推断胜利条件、制定策略、执行计划并最终通关。
这一转变意义深远。静态题目可以被大量合成数据"淹没"——只要题目空间是有限且可枚举的,AI就可以用暴力覆盖的方式绕过真正的推理。但一个动态交互环境中,每一次行动都会改变环境状态,信息必须通过主动探索才能获取,而目标本身也需要从无到有地被推断出来。
这是一种质的跃迁:从"我知道答案"到"我能在陌生世界中生存并取胜"。
根据官方温带和,ARC-AGI-3将智能体能力拆解为四个相互依存的核心维度:
1. 探索(Exploration) 在真实环境中,信息不会主动呈现给你,必须通过与环境的交互主动获取。AI必须学会在不知道规则的情况下,有策略地"探路"——而不是茫然地随机点击。
2. 建模(Modeling) 继承自前两代ARC-AGI,这是将原始观察转化为可泛化世界模型的能力。AI需要从若干次交互中,归纳出环境运行的内在逻辑,并能预测未来的状态。
3. 目标设定(Goal-Setting) 这是ARC-AGI-3最具挑战性的一环:AI从未被告知游戏目标是什么。它必须从环境线索中自主推断"胜利"意味着什么,而不是等待外部指令。这是自主性的核心,知道"要做什么",而不仅仅是"怎么做"。
4. 规划与执行(Planning and Execution) 在明确目标后,AI需要规划从当前状态到目标状态的最优行动路径,并在执行过程中根据反馈实时修正。
简单来看,ARC-AGI-3的游戏设计遵循严格的约束,每一条都指向同一个目的,即让AI无法作弊:
● 仅使用核心知识(Core Knowledge):物体感知、基础几何与拓扑、直觉物理(重力、碰撞)、意图感知。没有数字、字母、文字,没有任何文化符号(比如"绿色代表通行")。
● 强制原创性:每个游戏必须与已有游戏有足够的差异,且不能与市面上现存的任何视频游戏相似。
● 难度通过组合而非复杂度实现:后期关卡的难度来自于对前期所学机制的综合运用,而非单纯增加规模或引入晦涩规则。
● 至少六关,首关作为教程:第一关用于建立基本交互认知,不计入主要评分;后续关卡逐步叠加机制复杂度。
● 人类可解:所有游戏必须经过真实人类验证,确保普通人能在约20分钟内通关。毕竟一个人类都无法解决的测试,对衡量AI与人类的差距毫无意义。
观察空间与行动空间的极简设计
从官方展示的内容来看,ARC-AGI-3的界面设计刻意保持简单:一个64×64的彩色网格,每个格子可以是16种颜色之一。每一帧就是游戏的当前状态快照。
行动空间极为有限:五个方向键、一个撤销键,加上通过坐标选择格子的点击操作。
游戏之一:操纵左边的方块,右边的黄色方块会以镜面的方向移动,将黄色方块移动到灰色的阴影处即可
这种极简设计的背后逻辑是:难度必须来自逻辑,而非操作。排除了手眼协调、反应速度等因素,ARC-AGI-3专注于测试纯粹的推理与适应能力。
而在游戏设计之上,ARC-AGI-3最独特的评分设计,是以行动效率而非"通关与否"来衡量智能。核心指标叫做RHAE(Relative Human Action Efficiency,相对人类行动效率),发音为"Ray"。
评分逻辑如下:
1. 对每一关,统计AI通关所用的行动步数;
2. 将AI的步数与人类基准(定义为10名真实测试者中成绩第二好的那位)进行比较;
3. 效率比值取平方,以更重地惩罚低效行为(例如,AI用了人类10倍的步数,得分仅为1%,而非10%);
4. 每一关的得分按权重汇总为环境得分(后期关卡权重更高);
5. 所有环境的平均分即为总分。
当且仅当AI的行动效率达到或超过人类水平时,才算"击败"ARC-AGI-3。
这一设计背后的理念深刻而有力:一个需要随机试错1000次才能通关的系统,和一个凭借理解3步搞定的人类,不应该得到相同的分数。 效率本身就是智能的一种体现。
而为防止AI专门针对测试集进行训练,ARC-AGI-3对数据集进行了精心的分层设计。
其中25个公开演示集面向公众开放,用于展示格式和基本机制,难度相对较低。但公开集的机制刻意设计为与私有集不重叠,以防止过拟合。官方明确声明,公开集的成绩不会出现在正式排行榜上。
55个半私有集吗,用于通过API测试前沿模型,存在少量数据泄露风险。
另外55个完全私有集,仅供年度ARC Prize比赛使用,严格保密。
值得注意的是,与ARC-AGI-2维持约10:1的公私比例不同,ARC-AGI-3倒转了这一比例——私有集成为主要评估基础,公开集仅作为展示窗口。这是基准测试设计在"军备竞赛"压力下的主动进化。
人类几乎100%可解,大模型集体交白卷
而在内部测试中,最终统计数据:486名测试者参与,覆盖414个候选环境,共产生2893次尝试记录,累计游戏时长427.9小时。
成功通关的中位用时为8.1分钟;未通关的中位用时为5.9分钟,可见大多数人并非因为"没有努力",而是真的理解了游戏并顺利通关。
至于当前沿大模型在ARC-AGI-3半私有集上接受测试,结果则触目惊心:
要知道,这些模型,每一个都在传统基准测试上创造了令人瞠目的成绩:MMLU超过90%,代码生成近乎完美,数学推理令研究生汗颜。然而,面对一个普通人10分钟内就能通关的益智游戏,它们的综合表现不足1%。
值得一提的是,为了尽可能避免大模型作弊刷分的情况出现,ARC-AGI-3对官方排行榜的规则制定极为严格,明确拒绝两种"成绩虚高"的情况:
● 任务特定过拟合:直接在公开环境上训练、或使用专门为特定环境设计的解题框架,得分不计入官方榜。
● 领域特定过拟合:针对ARC-AGI-3风格批量合成训练数据、或专为ARC-AGI-3设计解题策略,同样不计入官方榜。
在报告中,官方还点名批评,表示此前有研究者为特定公开环境构建了专门的"脚手架"(harness),使Claude Opus 4.6在该环境中的得分从0%跃升至97.1%,但同样的脚手架在另一个不同的环境中,得分依然是0%。
对此官方表示,专门工程化的外部辅助,不是通用智能,只是针对特定任务的特殊技巧。 而AGI的定义,恰恰是不依赖这类任务专属辅助的系统。
ARC-AGI-3的测试结果,揭示了当前AI智能的一道根本性边界:静态知识的超级存储器,和能够在动态未知世界中自主导航的智能体之间,存在着巨大的鸿沟。
首当其冲就是,当前大模型的运作方式是"给我输入,我给输出"。但ARC-AGI-3要求AI主动与环境互动,通过行动来获取信息。这种"探索性学习"对于基于静态语料训练的模型来说,是范式层面的陌生领域。
目前AI已经可以玩《杀戮尖塔2》了,但还是要通过MCP等手段让AI理解、操作游戏
而相较于大模型,人类面对一个新游戏,会自然地观察哪些元素在变化、哪些行为会触发反馈,并从中推断出"赢"的条件。大模型缺乏这种从零开始推断目标本身的能力,它们擅长执行被告知的目标,而非自主发现目标。
更为重要的是,目前大模型的"推理"能力,在很大程度上仍然依附于训练数据中的领域知识。正如报告所指出的:AI的推理能力是绑定在知识上的,而人类的推理能力并不依赖领域知识。
面对ARC-AGI-3这种刻意清空了所有已知知识符号的"白板"环境,AI失去了知识拐杖,推理能力随之大打折扣。
当然也有思维上的不同,人类在游戏中会快速建立假设、检验假设、推翻错误假设并更新模型。这种"主动调试思维"在人类看来再自然不过,但对AI来说却极为困难,它们倾向于维持一个初始假设,而不善于在探索过程中高效修正。
简单来说,益智游戏之所以成为AI最难逾越的拦路虎,在于它完美地剥离了AI目前擅长的所有东西:没有语言,不能依靠词语理解;没有已知知识,不能靠记忆检索;没有明确目标,不能靠执行指令;没有大量样本,不能靠统计模式;必须实时交互,不能靠一次性推断。
而面对陌生,快速学习,高效适应。这恰恰是人类在进化中磨砺出的最强能力,也是AI至今仍然极度欠缺的能力。
其实综合ARC-AGI-3的测试结果和报告中的分析,也能看出当前大模型的能力边界,在知识密集型任务、需要深度垂直知识的专业推理、存在精确验证机制的可确认领域,大模型通过庞大的数据量,其实可以做到相当不错的表现。
但一旦是与知识无关的纯逻辑推理,从交互中自主建构世界模型,在无指令情况下推断目标,多轮探索中的高效假设修正,以及跨越完全陌生领域的快速泛化。
对此,ARC-AGI-3报告中的表述极为精准:
"AI的推理能力与领域知识深度绑定。停下来想想这有多奇怪:人类的推理能力并不受领域知识限制。这导致人们用'参差不齐的智能'来描述LLM,但本质上LLM仍然是任务特定训练的产物,只不过现在是在任务特定的推理链上,而不是直接在任务数据上。"
换言之:大模型拥有超人的"知识存储"和越来越强的"领域内推理",但缺乏跨越未知领域的真正流体智能。而后者,才是AGI的核心。
ARC-AGI-1花了五年时间实现了0到50%,3代目前尚不清楚需要花费各大企业多长时间
当然,指出AI的局限,并不意味着否定它的成就。
过去五年,AI的进步是真实且巨大的。ARC-AGI-1的历史表明,大模型在这一测试上从接近零分到突破50%,所花费的时间比任何人预期的都短。代码生成、科学研究辅助、药物发现等领域,AI已经带来了实质性的生产力革命。
但这些进步的本质,是在人类已经充分理解并可以大量生产训练数据的领域内,AI完成了效率的极大提升。这与"通用智能"之间,依然存在本质差异。
作为AI浪潮下最大的获益者,黄仁勋口中“AGI已至”的含金量有多少或许还是个谜,至少ARC-AGI-3给出的信号是:"AGI已至"的宣言,需要更严格的标准。
只有当AI能够像普通人一样,面对一个全新的、从未见过的任务,几分钟内自主摸索规律、推断目标、高效通关,才算真正触及了AGI的门槛。
结语:
ARC-AGI-3报告的最后,官方写道:
"据我们所知,截至2026年3月,ARC-AGI-3是唯一一个尚未被饱和的通用智能体基准测试。"
这句话里,既有对现状的清醒,也有对未来的开放。
一款普通人8分钟通关的益智游戏,正在守住人类智能与机器智能之间最后的一道防线。AI不是不够强大。但"强大"和"通用"之间,还有一段需要新范式、新突破才能跨越的距离。
超越人类的象棋水平,不代表具备人类的棋类学习能力;超越人类的代码生成速度,不代表具备人类的编程理解能力。
游戏还在继续。而规则,至少当下还是由人类制定的。
热门跟贴