“游戏打脸AGI”！顶尖AI大模型通关率不足1%，人类结果满分|agi|复杂度|大模型|推理|智能体|游戏|通关率

当下AI似乎成为了一切的答案吗，前不久英伟达创始人黄仁勋还在采访中振臂高呼，AGI（通用人工智能）已经触手可及；各大AI实验室的新闻稿言辞凿凿，描绘着机器超越人类的历史节点。

但近日一份来自ARC Prize基金会的技术报告悄然向AI界投入了一枚深水炸弹。

报告的核心结论只有一句话：在全新的ARC-AGI-3基准测试中，人类参与者的解题成功率为100%，而截至2026年3月，包括谷歌Gemini、OpenAI GPT-5、Anthropic Claude等在内的全球顶尖大模型，得分均低于1%。

而所谓的ARC-AGI-3测试的内容，是一系列专门为人类设计、普通人平均花费不到10分钟就能通关的互动益智小游戏。

AI究竟到了哪一步？这场测试，或许给出了迄今为止最诚实的答案。

AI基准测试：衡量机器智能的尺子

要理解ARC-AGI-3为何重要，先要理解AI基准测试这件事本身。

所谓基准测试（Benchmark）是评估AI系统能力的标准化测量工具。它通过一组预先定义好的题目或任务，为不同的AI系统提供统一的评分标准，使得研究者和公众可以横向比较、纵向追踪AI能力的进步。

目前AI基准测试按照评估维度，大致可以分为语言理解类（测试模型对自然语言的理解、推理和问答能力）、代码能力类（测试模型编写、调试代码的能力）、数学推理类（测试模型解决数学问题的能）、多模态理解类（测试模型结合图像和文字进行理解、问答的能力）、智能体（Agentic）评估类以及通用推理与智能类。

但是AI基准测试有一个根本性的悖论：一旦一个基准测试被广泛使用，它本身就会被"攻克"，但攻克它，并不意味着AI真的变聪明了。

这种现象叫做"基准饱和"（benchmark saturation）或"古德哈特定律"效应：当一个指标变成目标，它就不再是好指标。AI公司会针对性地用测试题数据训练模型，使其在特定基准上表现出色，但这种"表现"往往无法泛化到真实场景。

谷歌刷分刷到在博主自己制作的“内鬼”测试中也荣获了双满分的成绩

就比如谷歌的Gemini 3.1 Pro，就是名副其实的刷分大师，虽然在各项测试中分数都名列前茅，但上线后不久就曝露了真身。

正是在这一背景下，ARC-AGI系列基准测试应运而生，并以其独特的设计哲学，成为AI圈最难被"刷分"的测试之一。

从归类来看，ARC-AGI系列测试应该属与智能体（Agentic）评估类以及通用推理与智能类。简单来说，它们不测具体知识，而是测试模型面对全新问题时的泛化推理能力、测试AI在复杂、多步骤、交互式环境中自主完成任务的能力。

ARC-AGI系列：专为抵抗"作弊"而生

ARC-AGI系列的设计者是AI研究者François Chollet。2019年，他发表了一篇题为《论智能的度量》（On the Measure of Intelligence）的论文，提出了一个与主流AI评估截然不同的框架：

真正的智能，不是在你擅长的领域表现好，而是面对全新任务时，以尽可能少的资源和数据，快速习得解决该任务的能力。

创始人Mike Knoop & François Chollet 图片来源：ARC-AGI官网

这就是"技能习得效率"（skill-acquisition efficiency）的核心思想。换言之，智能的本质不是你知道多少，而是你在面对未知时学习得有多快、多高效。

这一定义，直接催生了ARC-AGI的设计逻辑：测试必须对所有人（无论是人类还是AI）都是全新的、未曾见过的；而且必须能区分"真正理解"和"记忆检索"这两种截然不同的能力。

而基于该逻辑，2019年推出的ARC-AGI-1的形式直观而优雅：给出若干对"输入→输出"的二维彩色网格示例，让测试者推断其中的变换规则，然后对一个新的输入网格应用该规则，输出正确答案。

整个测试严格遵守以下原则：

● 不依赖语言：没有文字，没有数字，只有颜色和图案。

● 只基于核心知识：仅使用人类天生具备的直觉——对物体、几何、基本物理和意图的感知。这些是婴儿期就已具备的认知，而非后天学习。

● 每道题都是独一无二的：杜绝通过背题或统计模式来作答。

在2019至2024年间，ARC-AGI-1对AI系统构成了极大的挑战。基于预训练数据扩大规模的基础大语言模型（base LLMs）在其上几乎得零分。

直到2024年，OpenAI的o1、o3系列模型凭借测试时推理（test-time reasoning）的突破，才开始在ARC-AGI-1上取得非零分数。这也是该测试第一次精准捕捉到大模型"流体智能"出现的历史信号。

而随着大模型在1代测试中取得成绩，2025年3月，ARC-AGI-2发布。它保持了相同的网格形式，但大幅提升了推理复杂度，引入了多步骤推理、顺序规则应用和符号解读等更高难度的任务。

与ARC-AGI-1相比，ARC-AGI-2的人类解题时间从平均30秒增加到300秒。

然而，ARC-AGI-2也面临一个新的威胁：随着AI能力的提升，前沿大模型已经展现出非零的流体智能，开始能够适应距离训练分布较远的任务。这意味着，只要公开训练集和私有测试集分布足够相似，模型便可以通过大规模生成合成题目、自动验证、循环训练的方式，变相"背下"整个题库，即使没有直接看过测试题本身。

ARC Prize基金会甚至发现，在对Gemini 3的验证过程中，模型的推理链里主动使用了ARC-AGI的整数-颜色映射（如"3对应绿色"），而测试提示词中从未提及这一信息。这强烈暗示：ARC-AGI的数据已经渗入了模型训练集。

静态测试的时代，正在终结。

ARC-AGI-3：当AI遭遇会动的世界

而ARC-AGI-3的核心转变，便是从静态推理转向交互式智能体推理（agentic intelligence）。

它的基本形式是：一系列完全原创的、基于回合制的益智小游戏。测试者需要在没有任何规则说明的情况下，独立探索游戏机制、推断胜利条件、制定策略、执行计划并最终通关。

这一转变意义深远。静态题目可以被大量合成数据"淹没"——只要题目空间是有限且可枚举的，AI就可以用暴力覆盖的方式绕过真正的推理。但一个动态交互环境中，每一次行动都会改变环境状态，信息必须通过主动探索才能获取，而目标本身也需要从无到有地被推断出来。

这是一种质的跃迁：从"我知道答案"到"我能在陌生世界中生存并取胜"。

根据官方温带和，ARC-AGI-3将智能体能力拆解为四个相互依存的核心维度：

1. 探索（Exploration）在真实环境中，信息不会主动呈现给你，必须通过与环境的交互主动获取。AI必须学会在不知道规则的情况下，有策略地"探路"——而不是茫然地随机点击。

2. 建模（Modeling）继承自前两代ARC-AGI，这是将原始观察转化为可泛化世界模型的能力。AI需要从若干次交互中，归纳出环境运行的内在逻辑，并能预测未来的状态。

3. 目标设定（Goal-Setting）这是ARC-AGI-3最具挑战性的一环：AI从未被告知游戏目标是什么。它必须从环境线索中自主推断"胜利"意味着什么，而不是等待外部指令。这是自主性的核心，知道"要做什么"，而不仅仅是"怎么做"。

4. 规划与执行（Planning and Execution）在明确目标后，AI需要规划从当前状态到目标状态的最优行动路径，并在执行过程中根据反馈实时修正。

简单来看，ARC-AGI-3的游戏设计遵循严格的约束，每一条都指向同一个目的，即让AI无法作弊：

● 仅使用核心知识（Core Knowledge）：物体感知、基础几何与拓扑、直觉物理（重力、碰撞）、意图感知。没有数字、字母、文字，没有任何文化符号（比如"绿色代表通行"）。

● 强制原创性：每个游戏必须与已有游戏有足够的差异，且不能与市面上现存的任何视频游戏相似。

● 难度通过组合而非复杂度实现：后期关卡的难度来自于对前期所学机制的综合运用，而非单纯增加规模或引入晦涩规则。

● 至少六关，首关作为教程：第一关用于建立基本交互认知，不计入主要评分；后续关卡逐步叠加机制复杂度。

● 人类可解：所有游戏必须经过真实人类验证，确保普通人能在约20分钟内通关。毕竟一个人类都无法解决的测试，对衡量AI与人类的差距毫无意义。

观察空间与行动空间的极简设计

从官方展示的内容来看，ARC-AGI-3的界面设计刻意保持简单：一个64×64的彩色网格，每个格子可以是16种颜色之一。每一帧就是游戏的当前状态快照。

行动空间极为有限：五个方向键、一个撤销键，加上通过坐标选择格子的点击操作。

游戏之一：操纵左边的方块，右边的黄色方块会以镜面的方向移动，将黄色方块移动到灰色的阴影处即可

这种极简设计的背后逻辑是：难度必须来自逻辑，而非操作。排除了手眼协调、反应速度等因素，ARC-AGI-3专注于测试纯粹的推理与适应能力。

而在游戏设计之上，ARC-AGI-3最独特的评分设计，是以行动效率而非"通关与否"来衡量智能。核心指标叫做RHAE（Relative Human Action Efficiency，相对人类行动效率），发音为"Ray"。

评分逻辑如下：

1. 对每一关，统计AI通关所用的行动步数；

2. 将AI的步数与人类基准（定义为10名真实测试者中成绩第二好的那位）进行比较；

3. 效率比值取平方，以更重地惩罚低效行为（例如，AI用了人类10倍的步数，得分仅为1%，而非10%）；

4. 每一关的得分按权重汇总为环境得分（后期关卡权重更高）；

5. 所有环境的平均分即为总分。

当且仅当AI的行动效率达到或超过人类水平时，才算"击败"ARC-AGI-3。

这一设计背后的理念深刻而有力：一个需要随机试错1000次才能通关的系统，和一个凭借理解3步搞定的人类，不应该得到相同的分数。效率本身就是智能的一种体现。

而为防止AI专门针对测试集进行训练，ARC-AGI-3对数据集进行了精心的分层设计。

其中25个公开演示集面向公众开放，用于展示格式和基本机制，难度相对较低。但公开集的机制刻意设计为与私有集不重叠，以防止过拟合。官方明确声明，公开集的成绩不会出现在正式排行榜上。

55个半私有集吗，用于通过API测试前沿模型，存在少量数据泄露风险。

另外55个完全私有集，仅供年度ARC Prize比赛使用，严格保密。

值得注意的是，与ARC-AGI-2维持约10:1的公私比例不同，ARC-AGI-3倒转了这一比例——私有集成为主要评估基础，公开集仅作为展示窗口。这是基准测试设计在"军备竞赛"压力下的主动进化。

人类几乎100%可解，大模型集体交白卷

而在内部测试中，最终统计数据：486名测试者参与，覆盖414个候选环境，共产生2893次尝试记录，累计游戏时长427.9小时。

成功通关的中位用时为8.1分钟；未通关的中位用时为5.9分钟，可见大多数人并非因为"没有努力"，而是真的理解了游戏并顺利通关。

至于当前沿大模型在ARC-AGI-3半私有集上接受测试，结果则触目惊心：

要知道，这些模型，每一个都在传统基准测试上创造了令人瞠目的成绩：MMLU超过90%，代码生成近乎完美，数学推理令研究生汗颜。然而，面对一个普通人10分钟内就能通关的益智游戏，它们的综合表现不足1%。

值得一提的是，为了尽可能避免大模型作弊刷分的情况出现，ARC-AGI-3对官方排行榜的规则制定极为严格，明确拒绝两种"成绩虚高"的情况：

● 任务特定过拟合：直接在公开环境上训练、或使用专门为特定环境设计的解题框架，得分不计入官方榜。

● 领域特定过拟合：针对ARC-AGI-3风格批量合成训练数据、或专为ARC-AGI-3设计解题策略，同样不计入官方榜。

在报告中，官方还点名批评，表示此前有研究者为特定公开环境构建了专门的"脚手架"（harness），使Claude Opus 4.6在该环境中的得分从0%跃升至97.1%，但同样的脚手架在另一个不同的环境中，得分依然是0%。

对此官方表示，专门工程化的外部辅助，不是通用智能，只是针对特定任务的特殊技巧。而AGI的定义，恰恰是不依赖这类任务专属辅助的系统。

ARC-AGI-3的测试结果，揭示了当前AI智能的一道根本性边界：静态知识的超级存储器，和能够在动态未知世界中自主导航的智能体之间，存在着巨大的鸿沟。

首当其冲就是，当前大模型的运作方式是"给我输入，我给输出"。但ARC-AGI-3要求AI主动与环境互动，通过行动来获取信息。这种"探索性学习"对于基于静态语料训练的模型来说，是范式层面的陌生领域。

目前AI已经可以玩《杀戮尖塔2》了，但还是要通过MCP等手段让AI理解、操作游戏

而相较于大模型，人类面对一个新游戏，会自然地观察哪些元素在变化、哪些行为会触发反馈，并从中推断出"赢"的条件。大模型缺乏这种从零开始推断目标本身的能力，它们擅长执行被告知的目标，而非自主发现目标。

更为重要的是，目前大模型的"推理"能力，在很大程度上仍然依附于训练数据中的领域知识。正如报告所指出的：AI的推理能力是绑定在知识上的，而人类的推理能力并不依赖领域知识。

面对ARC-AGI-3这种刻意清空了所有已知知识符号的"白板"环境，AI失去了知识拐杖，推理能力随之大打折扣。

当然也有思维上的不同，人类在游戏中会快速建立假设、检验假设、推翻错误假设并更新模型。这种"主动调试思维"在人类看来再自然不过，但对AI来说却极为困难，它们倾向于维持一个初始假设，而不善于在探索过程中高效修正。

简单来说，益智游戏之所以成为AI最难逾越的拦路虎，在于它完美地剥离了AI目前擅长的所有东西：没有语言，不能依靠词语理解；没有已知知识，不能靠记忆检索；没有明确目标，不能靠执行指令；没有大量样本，不能靠统计模式；必须实时交互，不能靠一次性推断。

而面对陌生，快速学习，高效适应。这恰恰是人类在进化中磨砺出的最强能力，也是AI至今仍然极度欠缺的能力。

其实综合ARC-AGI-3的测试结果和报告中的分析，也能看出当前大模型的能力边界，在知识密集型任务、需要深度垂直知识的专业推理、存在精确验证机制的可确认领域，大模型通过庞大的数据量，其实可以做到相当不错的表现。

但一旦是与知识无关的纯逻辑推理，从交互中自主建构世界模型，在无指令情况下推断目标，多轮探索中的高效假设修正，以及跨越完全陌生领域的快速泛化。

对此，ARC-AGI-3报告中的表述极为精准：

"AI的推理能力与领域知识深度绑定。停下来想想这有多奇怪：人类的推理能力并不受领域知识限制。这导致人们用'参差不齐的智能'来描述LLM，但本质上LLM仍然是任务特定训练的产物，只不过现在是在任务特定的推理链上，而不是直接在任务数据上。"

换言之：大模型拥有超人的"知识存储"和越来越强的"领域内推理"，但缺乏跨越未知领域的真正流体智能。而后者，才是AGI的核心。

ARC-AGI-1花了五年时间实现了0到50%，3代目前尚不清楚需要花费各大企业多长时间

当然，指出AI的局限，并不意味着否定它的成就。

过去五年，AI的进步是真实且巨大的。ARC-AGI-1的历史表明，大模型在这一测试上从接近零分到突破50%，所花费的时间比任何人预期的都短。代码生成、科学研究辅助、药物发现等领域，AI已经带来了实质性的生产力革命。

但这些进步的本质，是在人类已经充分理解并可以大量生产训练数据的领域内，AI完成了效率的极大提升。这与"通用智能"之间，依然存在本质差异。

作为AI浪潮下最大的获益者，黄仁勋口中“AGI已至”的含金量有多少或许还是个谜，至少ARC-AGI-3给出的信号是："AGI已至"的宣言，需要更严格的标准。

只有当AI能够像普通人一样，面对一个全新的、从未见过的任务，几分钟内自主摸索规律、推断目标、高效通关，才算真正触及了AGI的门槛。

结语：

ARC-AGI-3报告的最后，官方写道：

"据我们所知，截至2026年3月，ARC-AGI-3是唯一一个尚未被饱和的通用智能体基准测试。"

这句话里，既有对现状的清醒，也有对未来的开放。

一款普通人8分钟通关的益智游戏，正在守住人类智能与机器智能之间最后的一道防线。AI不是不够强大。但"强大"和"通用"之间，还有一段需要新范式、新突破才能跨越的距离。

超越人类的象棋水平，不代表具备人类的棋类学习能力；超越人类的代码生成速度，不代表具备人类的编程理解能力。

游戏还在继续。而规则，至少当下还是由人类制定的。

“游戏打脸AGI”！顶尖AI大模型通关率不足1%，人类结果满分

热搜

热门跟贴

热搜

热门跟贴

相关推荐

Nature重磅：AI写的论文，在顶会同行评审击败55%人类，单篇15美元

生产劣质作品本就是人类的顽疾，AI只是把它放大了10000倍

AI抢饭碗？别被忽悠了，先看看你的饭碗经不经得起掀

AI正在批量制造伪专家，这些关键信号要警惕

满级人类智商在线

现在这个AI太逼真了吧，狗子在打拳，毫无违和感啊，太吓人了

别人AI模仿人，我们人模仿AI，这个演一天200块钱！

30B参数超越GPT-5！REDSearcher让深度搜索Agent做到低成本可扩展

Karpathy紧急叫停！别再喂数据了，曝AGI方向全错

杨植麟、张鹏、罗福莉等同台谈“龙虾”，AI应用加速涌现！未来12个月大模型往哪儿去？

2027年或迎AGI 1.0:人形机器人成本拐点将至、“图灵测试”标准呼之欲出

马斯克：人工智能将在3年后超过所有人类智能

腾讯的AI慢战略，能跑通吗？

1.5B模型新SOTA，RL训练新解法打破「简单题过拟合、难题学不动」

90 后正在掌管中国 AI，凭实力活成了「爽文」主角

深度｜AGI是不是一个阴谋论？

山姆·奥特曼的炒作史

大模型的下半场，属于拥有云+AI全栈引擎的玩家

MiniMax来承包你的桌面了-4

Claude 90分钟挖穿20年漏洞！5w星“安全”系统跌下神坛