当你看到"某模型在综合榜单排名第一"时,有没有想过——这个分数到底怎么算出来的?

一个"方便但危险"的评分工具

打开网易新闻 查看精彩图片

人工分析指数(Artificial Analysis Index)把多个基准测试的分数归一化处理,捏成一个数字。初衷很简单:让外行也能快速比较不同模型。

但问题就出在这个"方便"上。

两次踩坑:版本变更与趋势误判

这个指数的算法历史上变过好几次。今天看到的85分和去年的85分,底层含义可能完全不同。

更麻烦的是趋势分析。指数设计初衷就是横向对比,拿来追踪某个模型的进步曲线,数据会骗人。

核心盲区:我们不知道它在测什么

原文最尖锐的批评留到了最后——这个指数究竟在衡量什么能力,至今没有清晰定义。是推理?是知识?还是指令遵循?

一个连测量目标都模糊的尺子,量出来的"第一"有多大参考价值?

当行业越来越依赖这类综合评分做采购决策时,这个设计缺陷的影响会被放大。或许该回到具体任务的具体表现,而不是追逐一个漂亮的总分