2023年,MMLU考到70%算优秀。2025年,顶尖模型普遍93%以上。当第一和第二名的差距不到2%,你测的到底是推理能力,还是系统噪声?

这不是个别现象。ICLR 2025的LiveBench论文直截了当:现有基准测试正遭遇"天花板效应"——模型分数逼近满分,同时训练数据与测试集高度重叠。换句话说,你的模型可能根本没在思考,只是在背诵答案。

打开网易新闻 查看精彩图片

数据污染的问题比想象中更严重。2025年2月一项针对数据污染的调研(arXiv:2502.14425)发现,模型频繁记忆评测数据,分数虚高,真实泛化能力被掩盖。如果训练语料里已经塞进了MMLU的原题,高分毫无意义。

另一个盲区是多语言。MMLU-ProX将测试扩展到29种语言,结果令人清醒:即便是GPT-4o这样的顶尖模型,非英语场景的准确率也会下跌15%到25%。你看着英文榜单上的"state-of-the-art",部署到全球客服场景时可能直接崩溃。

学界正在尝试破局。"Beyond Accuracy"研究(arXiv:2505.02706)提出四维评估框架:事实准确性、公平性、鲁棒性、透明度——从单一分数转向行为画像。生产环境真正需要的,不是排行榜上的数字,而是可预期的失败模式和边界。

跑分游戏的终点,是工程现实的起点。