在涌现推理ARC-AGI测试上，中国主流大模型还远落后与美国大模型|arc-agi测试|中国|基准|涌现推理

在大多数主流AI基准测试上，中国模型已经能和美国顶尖实验室正面较量，但有一张考卷，目前仍在清晰地划出两者之间的差距。

ARC-AGI-2的最新半私营排行榜数据显示，中国主要AI模型的得分全部低于12%，不仅远落后于当前榜首谷歌DeepMind的Gemini 3.1 Pro（约85%），甚至低于美国前沿实验室在2025年7月已经达到的水平。

数字背后的真实差距

具体数字并不好看。Moonshot AI的Kimi K2.5以12%排在中国模型最前列，每次任务成本约0.28美元。MiniMax的M2.5和智谱AI的GLM-5均只拿到5%，DeepSeek V3.2得分更低，仅为4%，不过其每任务成本只需0.12美元，是几款中国模型里最便宜的。

相比之下，Anthropic的Claude Opus 4.6拿到约70%，OpenAI的GPT-5.2（高配）约为45%，谷歌DeepMind的Gemini 3.1 Pro则以约85%居于榜首。这些高分模型的代价是显著更高的运行成本，每次任务通常在1到10美元之间。

值得注意的是，阿里巴巴的Qwen 3 Max Thinking目前甚至未能出现在这张榜单上。ARC奖组织方规定，参与半私营测试的供应商必须签署可信的数据保留协议，Qwen 3 Max Thinking暂未满足这一要求，因此被排除在外。

ARC-AGI测的到底是什么

理解这组数字的意义，需要先弄清楚ARC-AGI在测什么。

ARC-AGI全称“抽象与推理语料库”，由AI安全研究员弗朗索瓦·肖莱设计，核心思路是让模型面对它从未见过的视觉推理题，考察其能否从少量样例中抽象出规律并举一反三。

这和MMLU、GSM8K那类基准测试有根本区别。后者考的是知识储备和特定问题的解题能力，可以通过大量训练数据“刷分”。ARC-AGI考的是涌现推理，也就是模型在没有“背过答案”的情况下，能否真正理解并解决陌生问题。这正是研究者认为与通用人工智能最相关的能力维度。

正因如此，ARC-AGI的得分很难通过简单扩大训练规模或针对性优化来提升，它更像是一面照出模型底层推理架构的镜子。

两种不同的优先级

这组数据让一个长期存在的争议变得更加具体：中美AI公司在技术路线上究竟有多大的本质差异？

Anthropic首席执行官达里奥·阿莫代曾公开表示，很多中国AI模型是专门针对特定基准测试优化的，而非面向真实应用场景。这种策略在某些标准化评估中能产生亮眼成绩，但遇到ARC-AGI这类考察开放性推理的题目，优势就难以为继。

这个判断当然带有竞争方的立场，不能全盘接受，但数据本身确实提供了一定支撑。中国模型在成本效率上表现突出，DeepSeek V3.2每任务0.12美元的价格，是同等性能区间里极具竞争力的存在。快速迭代、压低成本、在主流评测中保持竞争力，这套打法在商业落地层面相当有效。

但ARC-AGI考的不是这个。它问的是：当你遇到一个完全陌生的问题时，你能不能想清楚？

一个还没有定论的问题

当然，ARC-AGI也不是衡量AI能力的唯一标尺，这一点需要说清楚。

批评者指出，ARC-AGI的题目设计本身带有特定的文化和认知预设，且高分并不直接等同于在实际工作中更有用。一个在ARC-AGI上得85分的模型，不一定比得12分的模型更擅长写代码、做分析或回答复杂的专业问题。

此外，中国模型在推理链长度、多步骤逻辑和数学竞赛类题目上的进步速度，在过去一年内已经相当惊人。从这个角度看，ARC-AGI上的差距是否代表一种根本性的能力天花板，还是只是尚未被专门攻克的一个特定方向，目前仍然是开放问题。

但无论如何，这张榜单呈现的差距是真实存在的。在通往通用智能的路上，抽象推理这道关卡，中国AI还需要找到自己的答案。

信息来源：https://officechai.com/ai/chinese-models-including-kimi-minimax-and-deepseek-score-lower-than-12-on-arc-agi-2-lesser-than-us-frontier-labs-scores-from-july-2025/

作品声明：仅在头条发布，观点不代表平台立场

在涌现推理ARC-AGI测试上，中国主流大模型还远落后与美国大模型

热搜

热门跟贴

热搜

热门跟贴

相关推荐

不要盲目相信什么几千年的智慧，中美博弈，中国需要的是实事求是

现实的差距，不是那么容易就能赶上的

体型暴露了实力差距

高手之间的对决，主要输在硬件上

这差距大的可不是一星点，螳臂当车，自不量力！

中国网友：你们完成不了的东西不代表中国完成不了

牛不是靠吹出来的，中国的技术就是强悍，复杂的事情简单化

牛不是靠吹出来的，美国制度就是开放，这一点中国模仿不来

实力悬殊过于大

还在发展，做不了那么多

眼光太浅了！美媒：由于先天缺陷，福建舰远不足以对抗美国航母？

中美局势可能发生大反转，最先超过美国的不是经济，而是这个方面

天涯神贴，我们虽有短板，但我们奋起直追，不断发展

不是所有尺寸，都能完美匹配

深度｜AGI是不是一个阴谋论？

山姆·奥特曼的炒作史

OpenAI产品线拉出来吓我一跳，奥特曼不愧是YC出身

全国政协委员、天娱数科董事长贺晗：场景牵引、央国企带头，拉动人形机器人规模化上岗

OpenAI发布最强专业模型GPT-5.4，自动操作电脑，插件支持AI玩转Excel和金融分析

OpenClaw火了 先赚钱的是上门安装500元一次

OpenClaw火了先赚钱的是上门安装500元一次