当你看到"某模型在综合榜单排名第一"时,有没有想过——这个分数到底怎么算出来的?
一个"方便但危险"的评分工具
打开网易新闻 查看精彩图片
人工分析指数(Artificial Analysis Index)把多个基准测试的分数归一化处理,捏成一个数字。初衷很简单:让外行也能快速比较不同模型。
但问题就出在这个"方便"上。
两次踩坑:版本变更与趋势误判
这个指数的算法历史上变过好几次。今天看到的85分和去年的85分,底层含义可能完全不同。
更麻烦的是趋势分析。指数设计初衷就是横向对比,拿来追踪某个模型的进步曲线,数据会骗人。
核心盲区:我们不知道它在测什么
原文最尖锐的批评留到了最后——这个指数究竟在衡量什么能力,至今没有清晰定义。是推理?是知识?还是指令遵循?
一个连测量目标都模糊的尺子,量出来的"第一"有多大参考价值?
当行业越来越依赖这类综合评分做采购决策时,这个设计缺陷的影响会被放大。或许该回到具体任务的具体表现,而不是追逐一个漂亮的总分。
热门跟贴