打开网易新闻 查看精彩图片

在大多数主流AI基准测试上,中国模型已经能和美国顶尖实验室正面较量,但有一张考卷,目前仍在清晰地划出两者之间的差距。

ARC-AGI-2的最新半私营排行榜数据显示,中国主要AI模型的得分全部低于12%,不仅远落后于当前榜首谷歌DeepMind的Gemini 3.1 Pro(约85%),甚至低于美国前沿实验室在2025年7月已经达到的水平。

打开网易新闻 查看精彩图片

数字背后的真实差距

具体数字并不好看。Moonshot AI的Kimi K2.5以12%排在中国模型最前列,每次任务成本约0.28美元。MiniMax的M2.5和智谱AI的GLM-5均只拿到5%,DeepSeek V3.2得分更低,仅为4%,不过其每任务成本只需0.12美元,是几款中国模型里最便宜的。

相比之下,Anthropic的Claude Opus 4.6拿到约70%,OpenAI的GPT-5.2(高配)约为45%,谷歌DeepMind的Gemini 3.1 Pro则以约85%居于榜首。这些高分模型的代价是显著更高的运行成本,每次任务通常在1到10美元之间。

值得注意的是,阿里巴巴的Qwen 3 Max Thinking目前甚至未能出现在这张榜单上。ARC奖组织方规定,参与半私营测试的供应商必须签署可信的数据保留协议,Qwen 3 Max Thinking暂未满足这一要求,因此被排除在外。

ARC-AGI测的到底是什么

打开网易新闻 查看精彩图片

理解这组数字的意义,需要先弄清楚ARC-AGI在测什么。

ARC-AGI全称“抽象与推理语料库”,由AI安全研究员弗朗索瓦·肖莱设计,核心思路是让模型面对它从未见过的视觉推理题,考察其能否从少量样例中抽象出规律并举一反三。

这和MMLU、GSM8K那类基准测试有根本区别。后者考的是知识储备和特定问题的解题能力,可以通过大量训练数据“刷分”。ARC-AGI考的是涌现推理,也就是模型在没有“背过答案”的情况下,能否真正理解并解决陌生问题。这正是研究者认为与通用人工智能最相关的能力维度。

正因如此,ARC-AGI的得分很难通过简单扩大训练规模或针对性优化来提升,它更像是一面照出模型底层推理架构的镜子。

两种不同的优先级

这组数据让一个长期存在的争议变得更加具体:中美AI公司在技术路线上究竟有多大的本质差异?

Anthropic首席执行官达里奥·阿莫代曾公开表示,很多中国AI模型是专门针对特定基准测试优化的,而非面向真实应用场景。这种策略在某些标准化评估中能产生亮眼成绩,但遇到ARC-AGI这类考察开放性推理的题目,优势就难以为继。

这个判断当然带有竞争方的立场,不能全盘接受,但数据本身确实提供了一定支撑。中国模型在成本效率上表现突出,DeepSeek V3.2每任务0.12美元的价格,是同等性能区间里极具竞争力的存在。快速迭代、压低成本、在主流评测中保持竞争力,这套打法在商业落地层面相当有效。

但ARC-AGI考的不是这个。它问的是:当你遇到一个完全陌生的问题时,你能不能想清楚?

一个还没有定论的问题

当然,ARC-AGI也不是衡量AI能力的唯一标尺,这一点需要说清楚。

批评者指出,ARC-AGI的题目设计本身带有特定的文化和认知预设,且高分并不直接等同于在实际工作中更有用。一个在ARC-AGI上得85分的模型,不一定比得12分的模型更擅长写代码、做分析或回答复杂的专业问题。

此外,中国模型在推理链长度、多步骤逻辑和数学竞赛类题目上的进步速度,在过去一年内已经相当惊人。从这个角度看,ARC-AGI上的差距是否代表一种根本性的能力天花板,还是只是尚未被专门攻克的一个特定方向,目前仍然是开放问题。

但无论如何,这张榜单呈现的差距是真实存在的。在通往通用智能的路上,抽象推理这道关卡,中国AI还需要找到自己的答案。

信息来源:https://officechai.com/ai/chinese-models-including-kimi-minimax-and-deepseek-score-lower-than-12-on-arc-agi-2-lesser-than-us-frontier-labs-scores-from-july-2025/

作品声明:仅在头条发布,观点不代表平台立场