给AI测智商：一个数字引发的科技圈分裂

算力游侠

2026-05-14 08:11 ·北京

人类用了上百年争论智商测试到底能不能衡量聪明。现在，有人把这个争议框架套在了AI身上。

过去一周，一个叫AI IQ的网站在科技圈炸开了锅。它给50多个主流大模型打了智商分，还画成 bell curve 分布图。企业技术人欢呼"终于看懂了"，研究人员却骂"纯属误导"。

这个项目的创始人Ryan Shea来头不小——区块链平台Stacks的联合创始人，投过OpenSea、Lattice、Anchorage等独角兽。他搞了个看似简单的公式：把12个基准测试塞进四个维度（抽象推理、数学、编程、学术），然后取平均。

具体拆开来：抽象推理靠ARC-AGI-1和ARC-AGI-2，数学用了FrontierMath、AIME、ProofBench，编程是Terminal-Bench 2.0、SWE-Bench Verified、SciCode，学术维度则是Humanity's Last Exam、CritPt、GPQA Diamond。每个测试的原始分数通过"手工校准的难度曲线"映射成智商值，容易的测试被压缩上限，防止刷分。

支持者觉得直观。技术评论员Thibaut Mélen在X上说："比那些巨型排行榜表格好懂多了。"商业策略师Brian Vellmure也附和："有用，跟我实际体验对得上。"

反对声同样尖锐。AI评论账号AI Deeply直接开炮："胡扯。AI能力太参差不齐了，地图不是领土。"核心质疑在于：把语言模型庞杂且不均衡的能力压成单个数字，会制造一种危险的精确幻觉。

争议背后是个老问题——我们到底想从"智能"这个标签里得到什么？企业买家要的是采购决策依据，研究者警惕的是简化带来的误判。AI IQ的 bell curve 或许让市场变得"可读"，但可读性和准确性之间的张力，显然还没解决。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴