很多团队评估大模型时,靠的不是指标,是"感觉"——回答流畅、格式工整、例子顺眼,就给高分。这叫"vibe check",一种极不靠谱的评测方式。
问题在哪?人类偏好和实际能力是两回事。模型可能擅长讨好你,却在关键任务上翻车。更糟的是,不同人"感觉"不同,结果无法复现,团队内部吵成一团。
打开网易新闻 查看精彩图片
替代方案很明确:用标准化基准测硬能力,用盲测去标识化比较,用任务成功率代替主观打分。核心原则只有一个——把"我觉得"换成"数据说"。
打开网易新闻 查看精彩图片
热门跟贴