得分仅1%！所有AI模型都输了！但我们真要解决的问题是……|agi|ai模型|arc|人工智能|机器人

▲点击图片报名，抓住风口（iOS用户请用电脑端打开小程序）

本期要点：AI也要应试？但真正该做的是换条路！

你好，我是王煜全，这里是王煜全要闻评论。

面对这场AI浪潮，大家常常感到恐慌。特别是在马斯克的不断宣传下，很多人都担心AI很快会取代人类，甚至导致人类毁灭。

但是，就像昨天我们介绍杨立昆对人形arch-href="newsapp://nc/search?entry=articleKeyword&word=%E6%9C%BA%E5%99%A8%E4%BA%BA">机器人的看法时提到的，人类距离实现AGI（通用人工智能）还很遥远，所以大家大可不必被“AI末日说”搞得一惊一乍。

而且，最近我们又看到了一个有趣的新闻，证明了AI至少在短期内无法替代人类。

上周，“弧光奖基金会”（Arc Prize Foundation）发布了一项名为ARC-AGI-2的测试。根据他们的数据，这个测试已经难倒了几乎所有现有的AI模型。

如OpenAI的o1-pro和DeepSeek的R1等推理AI大模型，在ARC-AGI-2测试中的得分仅为1%~1.3%。而各类非推理模型，如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等，得分则更低。

更关键的是，研究人员邀请了400多个普通人参与ARC-AGI-2测试。结果显示，平均而言，大家答对了测试中60%的问题，远远超过了所有模型的得分。

也就是说，“弧光奖基金会”找到了一类人类比较擅长、但AI几乎无法完成的任务，而且鉴于AI得分如此之低，它们在短期内想要超过人类，难度很大。

我认为，当前大模型在ARC-AGI-2测试中的溃败，确实暴露了AI方法论上的问题，表明单纯堆砌算力和数据量并不能碾压一切。如果要进一步发展，必须转换思路。同时，这也触及了人工智能领域的一个核心问题：如何判断一个模型是否真正具备了通用智能。

首先，你也许会好奇，是什么事情把AI难住了？

其实在科技界，ARC-AGI测试已小有名气。这些问题类似于谜题，比如要求AI从一组颜色各异的方块中识别出视觉模式，并生成正确的“答案”网格。说白了，就是给AI一些从未见过的新问题，考验其发现规律、解决问题的能力。

简而言之，这就是为了测试AI的“小样本泛化”能力，也就是我们常说的“举一反三”、“触类旁通”—-从对少量案例的观察中发现规律、并运用到后续实践中的能力。通过不了ARC-AGI-2测试，至少说明当前的AI方法论存在上限，未来也很难实现AGI。

ARC-AGI-2测试题目

人类智能的独特性，正体现在能从有限的经验中抽象出通用规则。例如，我们能从数字变化中总结出乘法规则，然后还能用这些规则进行计算，既不会算错，也不会因为问题的表述形式（比如是应用题、而不是算术式）而不会解题。

但当前的AI大模型经常出现幻觉，在99%的情况下非常可靠，在1%的状况下却会发生荒诞失误。正如Meta首席AI科学家杨立昆（Yann LeCun）所指出的，当前AI大模型都是基于自回归预测机制，也就是“猜下一个词”，这还是概率，而不是真的理解了规律，自然永远无法超越人类智能。

因为现有的AI，不光不能“触类旁通”，还得“举一万才能返三”，所以，对那些没见过的事情，AI就是答不出来；对那些小概率事件，AI就是应对不好，这是刻在骨子里的缺陷。

但是，话说回来，我想强调的是，单纯追求小样本泛化的能力的测试结果，可能会陷入测试导向的发展误区。

如果未来有AI大模型通过了ARC-AGI-2测试，是否就意味着实现了AGI呢？这显然是站不住脚的，因为这样的测试并没有排除用别的方法找到结果的可能性，也就是说，做对了题的AI，也不保证用的就是“小样本泛化”能力。

实际上，在ARC-AGI的第一代测试中，就有模型通过暴力破解的方式获得了高分。

例如，OpenAI的o3，就是首个在ARC-AGI-1上取得了75.7%高分的模型。但很明显，这并不能真正证明o3有小样本泛化能力，更不能证明它达到了AGI的水平，大概率是模型为了刷分而专门进行了优化。

为了解决这一问题，ARC-AGI-2测试就要求模型在解答问题时，每项任务花费不能超过0.42美元。不仅要能获得高分，还要考虑效率和成本。由于o3模型每解答一个问题就需要消耗约200美元的计算成本，所以无法通过新的测试。

可是这并没有高枕无忧，只要是设计的测试题，就有可能存在漏洞。很难说以后不会有模型在训练中，找到新的暴力破解或者偶然撞对答案的方法，那样，测试题的效力就会大打折扣。

那么，究竟该怎么办呢？我认为，自然是要尝试新的具有真正理解能力的模型设计，而不是仍然试图通过现有模型概率预测的旧方法来取得高分。

杨立昆倡导“世界模型”，通过嵌入物理定律和因果推理模块来构建基础认知架构，以求从范式上超越现有AI大模型。他们的团队也开始了初步探索，未来可以关注其后续进展。

但我觉得，“世界模型”也是不够的。AI的竞争不仅靠技术革命，更要靠认知革命。

首先，我们或许应该要理解人类“举一反三”的能力从何而来。所谓泛化，其实是记忆、感知和抽象动态交互的结果。遇到新事物时，我们会以很低的功耗从现象中抽象出规则，并在可控范围内将其与已有的规则和经验进行比较。

就像古人第一次见到大象时，虽然叫不出其名字，但也会与既往的认知进行关联，将其放入大型野生动物的认知框架之中，知道不能切成一块块的来称重量。

其次，我们的认知其实是个贝叶斯式渐进优化的过程，体现为以目标为导向、且能持续进行自我修正。即便碰到没见过的问题，在大部分情况下，我们通过学习知识、原理分析和实践尝试，就能在有限次的循环中朝正确方向收敛。而AI只有实现了这一点，才能避免陷入重复试错的低效运转之中。

最后，我还想强调的是，社会化AI可能才是通往下一阶段的重要路径，因为人类的智慧不仅来自个体，更来自于群体。具体可以回看以往的思想荟文章，我有更详细的论述。

当然，对于广大的开发者和创业者而言，我们不用管AGI何时到来，专家型AI确实可以远超人类专家，专家级的、个性化的、连续的、普惠的智能服务已经可以实现，真正的黄金时代其实就已经到来了。如果你也想抓住时代红利，欢迎扫码加入特训营直播课，与我一起，先人一步，看清未来！

此外，前哨AI小课第四季已经进展到第五讲了，想用AI提升自己职业能力的朋友，千万不要错过！最后，您的宝贵意见是我们不断优化课程内容的关键，在此诚挚地邀请您抽出几分钟，扫码参与AI小课的问卷调查，一起帮助我们提升课程质量。非常感谢！

以上就是今天的内容，王煜全要闻评论，我们明天见。

【科技特训营】看懂科技产业，离不开长期观察。线上书院模式，与王老师深度链接！为未来五年做好准备，先人一步，领先一路！

↓长按图片扫码报名，先人一步，领先一路

↓¥399，掌握王煜全AI产业预测精华（iOS用户请在电脑端打开）

此外，我们还为您准备了一份清单

“全球AI独角兽公司TOP10”

得分仅1%！所有AI模型都输了！但我们真要解决的问题是……

热搜

热门跟贴

热搜

热门跟贴

相关推荐

索尼研发乒乓球机器人打败日本顶尖选手

新颖鳍足机器人，水陆两栖行动自如，适应各种地形

美国人民打响了，一场与“无人送餐机器人”的战争!

亦庄机器人马拉松现场名场面合集

智元机器人

持续领跑世界模型驱动物理AGI，极佳视界再获10亿元B2轮融资

首个通用触觉基础模型FTP-1来了！

100多万人围观！没头没腿，神似充电宝的机器人全网走红？

Agent输出到底该用谁？ 卡帕西转发：试试让AI输出HTML

搬货、烤面包、摆桌牌……每一个动作，都是从零开始的“第一课”

魔法原子：具身大战里做钉子派

功率半导体领导者，布局AI基础设施！来看看英飞凌的物理AI版图

机器人做家务又进化了

机器人别等失败了才补救2

Figure 三个机器人全网直播 连干 81 小时不停 分拣 10 万包裹零失败

LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

人形机器人马拉松比赛碾压人类，短短一年时间的进化

千人挤爆旧金山！OpenClaw首聚现场，AI龙虾开始接管现实世界

万帧照片级仿真2

世界引擎：Post-Training开启Physical AGI新纪元

Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

Figure 三个机器人全网直播连干 81 小时不停分拣 10 万包裹零失败