【论文编号:arXiv:2510.18212】
2025年10月21日,斯坦福大学、MIT、加州大学伯克利分校等全球29所顶尖研究机构的学者,首次建立量化评估通用人工智能(AGI)的完整框架,为判断AI是否达到人类认知水平提供了客观标准,打破了此前AGI定义模糊的困境。
一、AGI 评估框架的构建:以人类智能为参照
1. AGI的核心定义
AGI即通用人工智能,指AI能像受过良好教育的成年人一样,应对各类认知任务,而非仅擅长单一领域(如下棋、写文章),类似“全科医生”,可应对多数场景的认知需求。此前,“聪明”的标准因人而异,有人认为会下围棋是聪明,有人觉得会写诗才算,这种模糊性让AGI研究难以衡量进展,而新框架彻底改变了这一现状。
2. 框架设计的理论基础
研究团队借鉴心理学权威的CHC理论(Cattell-Horn-Carroll 理论)—— 该理论经百年实验与数据分析验证,拆解人类智能为可测量部分,是当前主流智力测试的核心框架。基于此,团队将AGI拆解为10个认知领域,每个领域占10分,总分 100 分代表完全达到人类认知水平,这套评分系统被命名为 “AGI分数”。
二、AI“体检报告”:惊人的“锯齿状”能力分布
当用该框架测试GPT-4与GPT-5时,结果超出预期:GPT-4总分仅27分,GPT-5 为58分,且分数分布极不均衡,呈现 “锯齿状”—— 部分领域接近满分,部分领域却得零分,如同严重偏科的学生。
1. 突出的“强项”
GPT-5在知识储备(测常识、科学、社会、历史知识,如 “月球为何始终同一面朝向地球”)、读写能力(读懂复杂文本、写逻辑严密文章,如解析产品说明书、撰写 “远程工作利弊”文)、数学能力(覆盖算术到微积分,如计算公司三个月工资支出)上表现优异,均接近或达到10分(满分),堪称“学霸”级别。
2. 致命的“弱项”
长期记忆存储是最大短板,GPT-4与GPT-5均得0分:就像人聊完天后转身就忘,次日见面需重新介绍,无法积累经验;记忆检索虽在速度上得4分,但“幻觉”问题严重(如编造 “拿破仑南非战役战略”),避免幻觉得零分;GPT-4的视觉、听觉处理能力为零,GPT-5虽有突破(视觉4分、听觉6分),但仍远未完善;即时推理、工作记忆、多模态处理速度等领域,两者得分也普遍偏低。
3. 弱项的“补偿策略”:能力扭曲
当前AI靠“能力扭曲”弥补缺陷,比如用超大“工作记忆”(类似随身带笔记本)替代长期记忆,或依赖外部搜索工具解决“幻觉”问题。但这种策略低效且脆弱——笔记本丢了、搜索受限,系统就会崩溃,无法应对需要持续学习的场景。
三、十项认知领域测试:全方位扫描AI“大脑”
研究团队如同打造 “AI体检中心”,对10个认知领域逐一检测,全面暴露AI能力短板:
- 知识储备:GPT-4得8分,GPT-5得9分,“知识面广”;
- 读写能力:GPT-4得6分,GPT-5得10分,“理解与生成文字达人类水平”;
- 数学能力:GPT-4得4分,GPT-5得10分,“新一代AI实现质的飞跃”;
- 即时推理:GPT-4得0分,GPT-5得7分,“需临场分析,仍不完美”;
- 工作记忆:GPT-4得2分,GPT-5得4分,“临时存储信息能力弱”;
- 长期记忆存储:均得0分,“无法长久保存新信息”;
- 长期记忆检索:速度得4分,避免幻觉得0分,“常编造错误信息”;
- 视觉处理:GPT-4得0分,GPT-5得4分,“有基础能力但不完善”;
- 听觉处理:GPT-4得0分,GPT-5得6分,“优于视觉但仍需提升”;
- 速度:读写、简单计算得3分,多模态处理速度差,“GPT-5因‘思考’慢拖后腿”。
四、透过结果看本质:AI“智能”的特殊性
当前AI的“聪明”是“碎片化”的,而非“通用”的:擅长处理已有海量数据(因此知识、读写、数学强),但弱于学习新事物、灵活应用(长期记忆、推理等弱)。比如教 AI 新工作流程,人类示范几次就能记住并举一反三,而AI要么记不住,要么需反复输入流程,还无法判断应用场景。
研究团队用 “发动机” 类比揭示关键:AI像有超强涡轮增压器(知识储备)、高效变速箱(语言处理)的发动机,但冷却系统(长期记忆)、润滑系统(记忆检索)几乎失效。且智能各部分高度依赖 —— 数学再强,推理弱也解不了复杂应用题;理解电影需视觉、听觉、记忆、推理协同,缺一环就会卡顿。因此,GPT-5的58分虽看似 “及格”,却因关键部件缺失,远非真正的 “通用智能”。
五、研究的实际意义:为AGI发展指路
这项研究不仅是“AI能力测评”,更给普通人、研究者、开发者带来重要启示:
- 建立理性预期:AI离AGI仍有长路,虽部分领域惊艳,但基础能力缺陷大,无需恐慌也别盲目乐观;
- 指明研究方向:单纯扩大模型规模、增加数据量不够,需突破长期记忆等架构问题(如动态调整模型参数,让AI“成长”),如同建摩天大楼需先固地基;
- 指导 AI 应用:设计产品时要规避AI短板——不能指望AI助手次日主动推进项目,需每次补充背景信息,优化人机协作流程;
- 警惕 “幻觉” 风险:AI输出信息时,需独立验证,尤其做重要决策时,不能完全依赖;
- 理解智能多样性:智能含多维度,不能简单用 “聪明 / 笨” 评判,无论人类还是 AI,都需全面发展。
这项研究的最大贡献,是给了AI领域一把“客观尺子”——让人们跳出炒作与恐慌,清晰认知 “AI当前在哪”,进而规划 “未来去哪、怎么去”,为AGI的稳健发展奠定了基础。
热门跟贴