人类用了上百年争论智商测试到底能不能衡量聪明。现在,有人把这个争议框架套在了AI身上。
过去一周,一个叫AI IQ的网站在科技圈炸开了锅。它给50多个主流大模型打了智商分,还画成 bell curve 分布图。企业技术人欢呼"终于看懂了",研究人员却骂"纯属误导"。
打开网易新闻 查看精彩图片
这个项目的创始人Ryan Shea来头不小——区块链平台Stacks的联合创始人,投过OpenSea、Lattice、Anchorage等独角兽。他搞了个看似简单的公式:把12个基准测试塞进四个维度(抽象推理、数学、编程、学术),然后取平均。
具体拆开来:抽象推理靠ARC-AGI-1和ARC-AGI-2,数学用了FrontierMath、AIME、ProofBench,编程是Terminal-Bench 2.0、SWE-Bench Verified、SciCode,学术维度则是Humanity's Last Exam、CritPt、GPQA Diamond。每个测试的原始分数通过"手工校准的难度曲线"映射成智商值,容易的测试被压缩上限,防止刷分。
支持者觉得直观。技术评论员Thibaut Mélen在X上说:"比那些巨型排行榜表格好懂多了。"商业策略师Brian Vellmure也附和:"有用,跟我实际体验对得上。"
反对声同样尖锐。AI评论账号AI Deeply直接开炮:"胡扯。AI能力太参差不齐了,地图不是领土。"核心质疑在于:把语言模型庞杂且不均衡的能力压成单个数字,会制造一种危险的精确幻觉。
争议背后是个老问题——我们到底想从"智能"这个标签里得到什么?企业买家要的是采购决策依据,研究者警惕的是简化带来的误判。AI IQ的 bell curve 或许让市场变得"可读",但可读性和准确性之间的张力,显然还没解决。
热门跟贴