每当一个新的人工智能模型发布时,通常会被宣传为在一系列基准测试中表现出色。例如,OpenAI 的 GPT-4o 在 5 月推出时,展示了一系列结果,表明其性能在多项测试中超过了其他人工智能公司的最新模型。
然而,根据最新研究,这些基准测试存在设计不佳、结果难以复现以及往往随意使用指标的问题。这一点非常重要,因为人工智能模型在这些基准测试中的得分会直接影响它们受到的审查和监管程度。
“目前的情况就像是一个‘蛮荒之地’,因为我们并没有好的评估标准,”论文作者之一Anka Reuel 说道。她是斯坦福大学计算机科学专业的博士生,同时也是该校人工智能安全中心的成员。
基准测试本质上是一种人工智能需要通过的测试。它可以是多项选择题格式,比如最流行的“多任务语言理解基准”(Massive Multitask Language Understanding benchmark,简称 MMLU),也可以是对人工智能执行特定任务能力或回答一系列问题生成文本质量的评估。
人工智能公司经常将基准测试的结果作为新模型成功的证明。“这些模型的开发者倾向于专门针对某些基准测试进行优化,”乔治亚理工学院心理学教授、语言、智能与思维实验室(LIT)负责人 Anna Ivanova 指出。她并未参与斯坦福的这项研究。
基准测试已经成为一些政府制定人工智能监管计划的组成部分。例如,将于 2025 年 8 月生效的欧盟人工智能法案(EU AI Act)将基准测试作为衡量模型是否具有“系统性风险”的工具。如果模型被判定为有系统性风险,就会受到更高水平的审查和监管。英国人工智能安全研究所(UK AI Safety Institute)在其评估大型语言模型安全性的框架“Inspect”中也引用了基准测试。
但目前,这些基准测试可能并不适合作为这样的工具。“如果基准测试设计不完善,尤其是针对高风险应用场景,可能会制造一种虚假的安全感,”Reuel 表示。“看起来模型似乎是安全的,但实际上并非如此。”
鉴于基准测试日益重要,Reuel 和她的同事们希望审视最受欢迎的基准测试,找出构建良好测试的关键,并评估当前使用的测试是否足够可靠。研究人员首先试图验证开发者发布的基准测试结果,但他们常常无法重现这些结果。测试一个基准测试通常需要一些说明或代码来运行,但许多基准测试的创建者并未公开其测试代码。在其他情况下,代码已经过时。
基准测试的创建者通常不会公开其数据集中的问题和答案。如果他们公开,公司可能会直接用基准测试来训练其模型,这就像让学生在考试前看到试题和答案。然而,这种做法也导致基准测试难以评估。
另一个问题是基准测试经常会出现“饱和”的现象,这意味着所有的问题基本上都已经被解决了。举个例子,如果一个测试包含简单的数学问题,第一代人工智能模型得了 20 分,失败了;第二代模型得了 90 分;第三代模型得了 93 分。外界可能会从这些结果中得出人工智能进步速度变慢的结论,但另一种解释是,这个基准测试已经被攻克,不再适合作为衡量进步的有效工具。它未能体现第二代和第三代模型之间能力的差异。
这项研究的目标之一是制定出衡量优秀基准测试的标准。“讨论基准测试的质量、我们期望从中得到什么和需要什么,确实是一个重要的问题,”Ivanova 说,“问题在于,目前没有一个好的统一标准来定义基准测试。这篇论文尝试提供一套评估标准,这非常有用。”
这篇论文还推出了一个名为“BetterBench”的网站,用来排名最流行的人工智能基准测试。评分因素包括是否有专家参与设计、测试的能力是否定义明确,以及其他基础条件,例如基准测试是否有反馈渠道,是否经过同行评审。
在排名中,MMLU 基准测试得分最低。“我不同意这些排名。事实上,我是一些高分论文的作者,但我认为排名较低的基准测试比它们更好,”CAIS(人工智能安全中心)主任 Dan Hendrycks 说。他也是 MMLU 基准测试的创建者之一。不过,Hendrycks 仍然认为推动该领域进步的最佳方式是建立更好的基准测试。
一些人认为这些标准可能忽略了更大的问题。“这篇论文确实增加了一些有价值的东西,比如实施标准和文档标准,这些都很重要,能使基准测试更好,”Apollo Research(专注于人工智能评估的研究机构)CEO Marius Hobbhahn 表示。“但对我来说,最重要的问题是,你测试的是否是正确的东西?即使满足所有这些标准,一个基准测试如果没有衡量正确的内容,仍然可能是失败的。”
换句话说,即使一个基准测试设计完美,但如果它测试的是模型对莎士比亚十四行诗的分析能力,而实际关心的是人工智能的黑客能力,那么这个基准测试也毫无用处。
“你会看到一些基准测试声称衡量道德推理能力,但这一点往往没有得到很好定义。是否有该领域的专家参与了过程?通常并没有,”论文的另一位作者、斯坦福大学人工智能研究员 Amelia Hardy 说。
一些组织正在积极改善这种情况。例如,研究机构 Epoch AI 设计了一个新的基准测试,该测试由 60 位数学家参与设计,并经过两位菲尔兹奖得主验证,确保其具有挑战性。菲尔兹奖是数学领域的最高奖项。这些专家的参与满足了 BetterBench 评估中的一项标准。目前,最先进的模型只能回答不到 2% 的问题,这意味着在基准测试饱和之前还有很长的路要走。
“我们确实尝试全面展现现代数学研究的广度和深度,”Epoch AI 副主任 Tamay Besiroglu 表示。尽管测试难度很高,Besiroglu 推测,人工智能模型可能只需大约四年时间就能攻克该基准测试,得分超过 80%。
同时,Hendrycks 领导的 CAIS 正与 Scale AI 合作创建一个新的基准测试,旨在让人工智能模型在“人类知识前沿”上接受考验,这个基准测试被称为“人类的最后考试”(Humanity’s Last Exam,HLE)。“HLE 由全球学者和领域专家团队开发,”Hendrycks 说。“HLE 包含明确的、不可搜索的问题,需要博士水平的理解能力才能解决。”如果你想贡献一个问题,可以在这里提交。
尽管关于应该衡量什么仍然存在很多分歧,但许多研究人员一致认为,需要更健全的基准测试,尤其是在基准测试为公司设定方向并成为政府重要工具的情况下。
“基准测试必须非常优秀,”Hardy 说。“我们需要理解‘优秀’的真正含义,而这点目前我们还没有做到。”
https://www.technologyreview.com/2024/11/26/1107346/the-way-we-measure-progress-in-ai-is-terrible/
热门跟贴