▲点击图片报名,抓住风口(iOS用户请用电脑端打开小程序)
本期要点:AI也要应试?但真正该做的是换条路!
你好,我是王煜全,这里是王煜全要闻评论。
面对这场AI浪潮,大家常常感到恐慌。特别是在马斯克的不断宣传下,很多人都担心AI很快会取代人类,甚至导致人类毁灭。
但是,就像昨天我们介绍杨立昆对人形arch-href="newsapp://nc/search?entry=articleKeyword&word=%E6%9C%BA%E5%99%A8%E4%BA%BA">机器人的看法时提到的,人类距离实现AGI(通用人工智能)还很遥远,所以大家大可不必被“AI末日说”搞得一惊一乍。
而且,最近我们又看到了一个有趣的新闻,证明了AI至少在短期内无法替代人类。
上周,“弧光奖基金会”(Arc Prize Foundation)发布了一项名为ARC-AGI-2的测试。根据他们的数据,这个测试已经难倒了几乎所有现有的AI模型。
如OpenAI的o1-pro和DeepSeek的R1等推理AI大模型,在ARC-AGI-2测试中的得分仅为1%~1.3%。而各类非推理模型,如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等,得分则更低。
更关键的是,研究人员邀请了400多个普通人参与ARC-AGI-2测试。结果显示,平均而言,大家答对了测试中60%的问题,远远超过了所有模型的得分。
也就是说,“弧光奖基金会”找到了一类人类比较擅长、但AI几乎无法完成的任务,而且鉴于AI得分如此之低,它们在短期内想要超过人类,难度很大。
我认为,当前大模型在ARC-AGI-2测试中的溃败,确实暴露了AI方法论上的问题,表明单纯堆砌算力和数据量并不能碾压一切。如果要进一步发展,必须转换思路。同时,这也触及了人工智能领域的一个核心问题:如何判断一个模型是否真正具备了通用智能。
首先,你也许会好奇,是什么事情把AI难住了?
其实在科技界,ARC-AGI测试已小有名气。这些问题类似于谜题,比如要求AI从一组颜色各异的方块中识别出视觉模式,并生成正确的“答案”网格。说白了,就是给AI一些从未见过的新问题,考验其发现规律、解决问题的能力。
简而言之,这就是为了测试AI的“小样本泛化”能力,也就是我们常说的“举一反三”、“触类旁通”—-从对少量案例的观察中发现规律、并运用到后续实践中的能力。通过不了ARC-AGI-2测试,至少说明当前的AI方法论存在上限,未来也很难实现AGI。
ARC-AGI-2测试题目
人类智能的独特性,正体现在能从有限的经验中抽象出通用规则。例如,我们能从数字变化中总结出乘法规则,然后还能用这些规则进行计算,既不会算错,也不会因为问题的表述形式(比如是应用题、而不是算术式)而不会解题。
但当前的AI大模型经常出现幻觉,在99%的情况下非常可靠,在1%的状况下却会发生荒诞失误。正如Meta首席AI科学家杨立昆(Yann LeCun)所指出的,当前AI大模型都是基于自回归预测机制,也就是“猜下一个词”,这还是概率,而不是真的理解了规律,自然永远无法超越人类智能。
因为现有的AI,不光不能“触类旁通”,还得“举一万才能返三”,所以,对那些没见过的事情,AI就是答不出来;对那些小概率事件,AI就是应对不好,这是刻在骨子里的缺陷。
但是,话说回来,我想强调的是,单纯追求小样本泛化的能力的测试结果,可能会陷入测试导向的发展误区。
如果未来有AI大模型通过了ARC-AGI-2测试,是否就意味着实现了AGI呢?这显然是站不住脚的,因为这样的测试并没有排除用别的方法找到结果的可能性,也就是说,做对了题的AI,也不保证用的就是“小样本泛化”能力。
实际上,在ARC-AGI的第一代测试中,就有模型通过暴力破解的方式获得了高分。
例如,OpenAI的o3,就是首个在ARC-AGI-1上取得了75.7%高分的模型。但很明显,这并不能真正证明o3有小样本泛化能力,更不能证明它达到了AGI的水平,大概率是模型为了刷分而专门进行了优化。
为了解决这一问题,ARC-AGI-2测试就要求模型在解答问题时,每项任务花费不能超过0.42美元。不仅要能获得高分,还要考虑效率和成本。由于o3模型每解答一个问题就需要消耗约200美元的计算成本,所以无法通过新的测试。
可是这并没有高枕无忧,只要是设计的测试题,就有可能存在漏洞。很难说以后不会有模型在训练中,找到新的暴力破解或者偶然撞对答案的方法,那样,测试题的效力就会大打折扣。
那么,究竟该怎么办呢?我认为,自然是要尝试新的具有真正理解能力的模型设计,而不是仍然试图通过现有模型概率预测的旧方法来取得高分。
杨立昆倡导“世界模型”,通过嵌入物理定律和因果推理模块来构建基础认知架构,以求从范式上超越现有AI大模型。他们的团队也开始了初步探索,未来可以关注其后续进展。
但我觉得,“世界模型”也是不够的。AI的竞争不仅靠技术革命,更要靠认知革命。
首先,我们或许应该要理解人类“举一反三”的能力从何而来。所谓泛化,其实是记忆、感知和抽象动态交互的结果。遇到新事物时,我们会以很低的功耗从现象中抽象出规则,并在可控范围内将其与已有的规则和经验进行比较。
就像古人第一次见到大象时,虽然叫不出其名字,但也会与既往的认知进行关联,将其放入大型野生动物的认知框架之中,知道不能切成一块块的来称重量。
其次,我们的认知其实是个贝叶斯式渐进优化的过程,体现为以目标为导向、且能持续进行自我修正。即便碰到没见过的问题,在大部分情况下,我们通过学习知识、原理分析和实践尝试,就能在有限次的循环中朝正确方向收敛。而AI只有实现了这一点,才能避免陷入重复试错的低效运转之中。
最后,我还想强调的是,社会化AI可能才是通往下一阶段的重要路径,因为人类的智慧不仅来自个体,更来自于群体。具体可以回看以往的思想荟文章,我有更详细的论述。
当然,对于广大的开发者和创业者而言,我们不用管AGI何时到来,专家型AI确实可以远超人类专家,专家级的、个性化的、连续的、普惠的智能服务已经可以实现,真正的黄金时代其实就已经到来了。如果你也想抓住时代红利,欢迎扫码加入特训营直播课,与我一起,先人一步,看清未来!
此外,前哨AI小课第四季已经进展到第五讲了,想用AI提升自己职业能力的朋友,千万不要错过!最后,您的宝贵意见是我们不断优化课程内容的关键,在此诚挚地邀请您抽出几分钟,扫码参与AI小课的问卷调查,一起帮助我们提升课程质量。非常感谢!
以上就是今天的内容,王煜全要闻评论,我们明天见。
【科技特训营】看懂科技产业,离不开长期观察。线上书院模式,与王老师深度链接!为未来五年做好准备,先人一步,领先一路!
↓长按图片扫码报名, 先人一步,领先一路
↓¥399,掌握王煜全AI产业预测精华(iOS用户请在电脑端打开)
此外,我们还为您准备了一份清单
“全球AI独角兽公司TOP10”
热门跟贴