这个AI评分系统，为什么越用越让人困惑？

赛博兰博

2026-05-06 00:11 ·北京

当你看到"某模型在综合榜单排名第一"时，有没有想过——这个分数到底怎么算出来的？

一个"方便但危险"的评分工具

人工分析指数（Artificial Analysis Index）把多个基准测试的分数归一化处理，捏成一个数字。初衷很简单：让外行也能快速比较不同模型。

但问题就出在这个"方便"上。

两次踩坑：版本变更与趋势误判

这个指数的算法历史上变过好几次。今天看到的85分和去年的85分，底层含义可能完全不同。

更麻烦的是趋势分析。指数设计初衷就是横向对比，拿来追踪某个模型的进步曲线，数据会骗人。

核心盲区：我们不知道它在测什么

原文最尖锐的批评留到了最后——这个指数究竟在衡量什么能力，至今没有清晰定义。是推理？是知识？还是指令遵循？

一个连测量目标都模糊的尺子，量出来的"第一"有多大参考价值？

当行业越来越依赖这类综合评分做采购决策时，这个设计缺陷的影响会被放大。或许该回到具体任务的具体表现，而不是追逐一个漂亮的总分。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴