全球AI智商排名今日出炉：Gemini 2.5 Pro登顶，爱因斯坦160分纪录仍未被超越

中科智媒

2025-08-19 23:28 ·上海

今日，由独立项目Trackingai.org 发布的全球首份大型语言模型智商测试报告引发广泛关注。该测试摒弃传统技术跑分，首次参照人类智商评估体系，对主流AI模型进行标准化智力测评。结果显示，谷歌Gemini 2.5 Pro以137分位列榜首，OpenAI的GPT-5 Pro与xAI的Grok 4分别获121分和125分，但无一超越爱因斯坦估算值160分的水平。

一、测试方法：双维度量化AI“脑力”

项目采用两种测评体系：

门萨标准测试：沿用人类智商评估标杆，130分以上视为“极超常智力”（即前2%顶尖人群）；

AI专用数据集测试：覆盖大规模逻辑推理与模式识别任务，难度更高。

这种设计首次将AI能力转化为公众可理解的“智商数值”，打破了MMLU、HellaSwag等专业术语的认知壁垒。

二、头部模型表现：逻辑能力接近人类天才

（1）门萨测试结果：

Gemini 2.5 Pro（137分） ：达到人类“极超常智力”标准，处理复杂逻辑推理与模式识别的能力媲美顶尖科学家群体。其解题路径展现高效的系统化思维，如在九宫格推理题中精准识别旋转对称规律。

Grok 4（125分） ：虽分数低于Gemini，但解题过程凸显探索性思维，通过多维度分析（线条主题、数量变化）最终推导正确答案。

GPT-5 Pro（121分） ：展现强大抽象能力，但在门萨测试中意外低于前代模型o3（分数未公开），开发者推测因技术路线取舍所致。

爱因斯坦参照系：后世估算其智商约160分，当前AI最高分仅达其85.6%，显示人类顶级智慧仍具优势。

（2）数据集测试排名：

GPT-5 Pro反超至第一，Gemini 2.5 Pro次之，Grok 4第四。这表明AI在专项逻辑任务中的表现更依赖训练数据规模与架构优化。

三、黑马与反思：AI智商的深层启示

DeepSeek R1成最大惊喜：该模型使用5月底旧版数据，仍获102分，超越Meta新一代Llama 4 Maverick。证明算法优化可弥补数据时效性缺陷，为开源社区提供“性价比”路径。

Meta的困境：曾引领开源浪潮的Llama系列此次未进头部，反映闭源模型在资源投入上的压倒性优势。Meta正以高薪争夺谷歌、OpenAI人才试图破局。

四、专家解读：智商测试的边界与意义

Trackingai.org 强调测评本质是“趣味实验”，因当前AI智商仅反映聚合性思维（规则下的逻辑演绎），而人类独有的发散性思维（创造力、社会情感认知）仍难被模仿。

技术意义：137分证明AI已成最强逻辑分析引擎，将重构人机协作范式。例如Gemini可辅助科研突破，Grok或更适配创新探索场景。

公众价值：用“智商”概念降低理解门槛，推动社会理性讨论AI能力边界。

结语

本次排名虽揭示AI在特定认知领域逼近人类顶尖水平，但爱因斯坦的智慧丰碑仍未被撼动。当Gemini们以137分的“超常智力”成为人类得力助手时，我们更需思考：如何培育AI无法替代的创造力与人文精神？这或许才是技术狂潮中坚守人类价值的核心命题。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴