2025年4月17日,OpenAI发布了其最新多模态推理大模型o3与o4-mini,宣称这是其迄今为止最强、最智能的模型。然而,这一发布并未如预期般获得广泛赞誉,反而因自测成绩与第三方测试结果的显著差异,引发了对其透明度和测试方法的质疑。
去年12月,OpenAI在预发布o3时,曾高调宣称该模型在解决FrontierMath(一组极具挑战性的数学问题)上的能力大幅提升,能够正确回答超过25%的问题。这一成绩远超竞争对手,排名第二的模型仅能正确回答约2%的问题。然而,第三方测试机构Epoch AI于4月18日公布的独立基准测试结果显示,o3的实际得分仅为约10%,远低于OpenAI声称的最高得分25%。
这一差异引发了外界对OpenAI测试实践的质疑。Epoch AI在报告中指出,测试设置的差异、评估使用的FrontierMath版本更新,以及计算资源和框架的不同,都可能是导致结果差异的原因。例如,Epoch AI在评估时依据的是2024年11月26日版本的180个问题,而OpenAI则可能使用了2025年2月28日的私有版本的290个问题。此外,OpenAI在内部测试中可能使用了更强大的计算资源和框架,这也在一定程度上解释了其自测成绩的显著提升。
尽管OpenAI并未刻意误导,但其在12月公布的测试结果中确实包含了一个与Epoch测试结果相符的较低分数。ARCPrize Foundation也在其社交平台上表示,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这进一步证实了Epoch AI的报告。
随着AI模型供应商竞相利用新模型抢占头条和市场份额,基准测试“争议”在人工智能行业中已成为一种常见现象。例如,埃隆·马斯克的xAI被指控其最新人工智能模型Grok 3的基准测试图表具有误导性,而Meta的新一代开源大模型Llama 4也遭遇了作弊质疑。这些事件凸显了标准化测试的重要性,也提醒业界需谨慎对待来自商业公司的基准测试结果。
OpenAI o3模型的自测成绩与第三方测试结果的显著差异,不仅引发了对其透明度和测试方法的质疑,也反映了人工智能行业中基准测试的复杂性和挑战。在竞争日益激烈的背景下,如何确保测试结果的公正性和透明度,将成为行业未来发展的重要议题。
本文源自:金融界
作者:观察君
热门跟贴