OpenAI o3模型自测成绩与第三方测试结果差异显著，透明度与测试方法遭质疑|openai|人工智能|埃隆_马斯克|基准|测试方法|透明度

OpenAI o3模型自测成绩与第三方测试结果差异显著，透明度与测试方法遭质疑

金融界

2025-04-21 10:17 ·北京 ·金融界网站官方账号优质财经领域创作者

2025年4月17日，OpenAI发布了其最新多模态推理大模型o3与o4-mini，宣称这是其迄今为止最强、最智能的模型。然而，这一发布并未如预期般获得广泛赞誉，反而因自测成绩与第三方测试结果的显著差异，引发了对其透明度和测试方法的质疑。

去年12月，OpenAI在预发布o3时，曾高调宣称该模型在解决FrontierMath（一组极具挑战性的数学问题）上的能力大幅提升，能够正确回答超过25%的问题。这一成绩远超竞争对手，排名第二的模型仅能正确回答约2%的问题。然而，第三方测试机构Epoch AI于4月18日公布的独立基准测试结果显示，o3的实际得分仅为约10%，远低于OpenAI声称的最高得分25%。

这一差异引发了外界对OpenAI测试实践的质疑。Epoch AI在报告中指出，测试设置的差异、评估使用的FrontierMath版本更新，以及计算资源和框架的不同，都可能是导致结果差异的原因。例如，Epoch AI在评估时依据的是2024年11月26日版本的180个问题，而OpenAI则可能使用了2025年2月28日的私有版本的290个问题。此外，OpenAI在内部测试中可能使用了更强大的计算资源和框架，这也在一定程度上解释了其自测成绩的显著提升。

尽管OpenAI并未刻意误导，但其在12月公布的测试结果中确实包含了一个与Epoch测试结果相符的较低分数。ARCPrize Foundation也在其社交平台上表示，公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”，这进一步证实了Epoch AI的报告。

随着AI模型供应商竞相利用新模型抢占头条和市场份额，基准测试“争议”在人工智能行业中已成为一种常见现象。例如，埃隆·马斯克的xAI被指控其最新人工智能模型Grok 3的基准测试图表具有误导性，而Meta的新一代开源大模型Llama 4也遭遇了作弊质疑。这些事件凸显了标准化测试的重要性，也提醒业界需谨慎对待来自商业公司的基准测试结果。

OpenAI o3模型的自测成绩与第三方测试结果的显著差异，不仅引发了对其透明度和测试方法的质疑，也反映了人工智能行业中基准测试的复杂性和挑战。在竞争日益激烈的背景下，如何确保测试结果的公正性和透明度，将成为行业未来发展的重要议题。

本文源自：金融界

作者：观察君