29所顶尖研究机构首次建立量化评估通用人工智能的完整框架|agi|人工智能|推理|通用

【论文编号：arXiv:2510.18212】

2025年10月21日，斯坦福大学、MIT、加州大学伯克利分校等全球29所顶尖研究机构的学者，首次建立量化评估通用人工智能（AGI）的完整框架，为判断AI是否达到人类认知水平提供了客观标准，打破了此前AGI定义模糊的困境。

一、AGI 评估框架的构建：以人类智能为参照

1. AGI的核心定义

AGI即通用人工智能，指AI能像受过良好教育的成年人一样，应对各类认知任务，而非仅擅长单一领域（如下棋、写文章），类似“全科医生”，可应对多数场景的认知需求。此前，“聪明”的标准因人而异，有人认为会下围棋是聪明，有人觉得会写诗才算，这种模糊性让AGI研究难以衡量进展，而新框架彻底改变了这一现状。

2. 框架设计的理论基础

研究团队借鉴心理学权威的CHC理论（Cattell-Horn-Carroll 理论）—— 该理论经百年实验与数据分析验证，拆解人类智能为可测量部分，是当前主流智力测试的核心框架。基于此，团队将AGI拆解为10个认知领域，每个领域占10分，总分 100 分代表完全达到人类认知水平，这套评分系统被命名为 “AGI分数”。

二、AI“体检报告”：惊人的“锯齿状”能力分布

当用该框架测试GPT-4与GPT-5时，结果超出预期：GPT-4总分仅27分，GPT-5 为58分，且分数分布极不均衡，呈现 “锯齿状”—— 部分领域接近满分，部分领域却得零分，如同严重偏科的学生。

1. 突出的“强项”

GPT-5在知识储备（测常识、科学、社会、历史知识，如 “月球为何始终同一面朝向地球”）、读写能力（读懂复杂文本、写逻辑严密文章，如解析产品说明书、撰写 “远程工作利弊”文）、数学能力（覆盖算术到微积分，如计算公司三个月工资支出）上表现优异，均接近或达到10分（满分），堪称“学霸”级别。

2. 致命的“弱项”

长期记忆存储是最大短板，GPT-4与GPT-5均得0分：就像人聊完天后转身就忘，次日见面需重新介绍，无法积累经验；记忆检索虽在速度上得4分，但“幻觉”问题严重（如编造 “拿破仑南非战役战略”），避免幻觉得零分；GPT-4的视觉、听觉处理能力为零，GPT-5虽有突破（视觉4分、听觉6分），但仍远未完善；即时推理、工作记忆、多模态处理速度等领域，两者得分也普遍偏低。

3. 弱项的“补偿策略”：能力扭曲

当前AI靠“能力扭曲”弥补缺陷，比如用超大“工作记忆”（类似随身带笔记本）替代长期记忆，或依赖外部搜索工具解决“幻觉”问题。但这种策略低效且脆弱——笔记本丢了、搜索受限，系统就会崩溃，无法应对需要持续学习的场景。

三、十项认知领域测试：全方位扫描AI“大脑”

研究团队如同打造 “AI体检中心”，对10个认知领域逐一检测，全面暴露AI能力短板：

知识储备：GPT-4得8分，GPT-5得9分，“知识面广”；
读写能力：GPT-4得6分，GPT-5得10分，“理解与生成文字达人类水平”；
数学能力：GPT-4得4分，GPT-5得10分，“新一代AI实现质的飞跃”；
即时推理：GPT-4得0分，GPT-5得7分，“需临场分析，仍不完美”；
工作记忆：GPT-4得2分，GPT-5得4分，“临时存储信息能力弱”；
长期记忆存储：均得0分，“无法长久保存新信息”；
长期记忆检索：速度得4分，避免幻觉得0分，“常编造错误信息”；
视觉处理：GPT-4得0分，GPT-5得4分，“有基础能力但不完善”；
听觉处理：GPT-4得0分，GPT-5得6分，“优于视觉但仍需提升”；
速度：读写、简单计算得3分，多模态处理速度差，“GPT-5因‘思考’慢拖后腿”。

四、透过结果看本质：AI“智能”的特殊性

当前AI的“聪明”是“碎片化”的，而非“通用”的：擅长处理已有海量数据（因此知识、读写、数学强），但弱于学习新事物、灵活应用（长期记忆、推理等弱）。比如教 AI 新工作流程，人类示范几次就能记住并举一反三，而AI要么记不住，要么需反复输入流程，还无法判断应用场景。

研究团队用 “发动机” 类比揭示关键：AI像有超强涡轮增压器（知识储备）、高效变速箱（语言处理）的发动机，但冷却系统（长期记忆）、润滑系统（记忆检索）几乎失效。且智能各部分高度依赖 —— 数学再强，推理弱也解不了复杂应用题；理解电影需视觉、听觉、记忆、推理协同，缺一环就会卡顿。因此，GPT-5的58分虽看似 “及格”，却因关键部件缺失，远非真正的 “通用智能”。