编辑丨coisini
推理能力是科学工作的核心。科学家不仅需要记忆事实,更要提出假设、验证修正,并在跨领域间融合思想。随着人工智能(AI)模型的能力不断增强,核心问题在于它们如何通过深度推理推动科学研究。
OpenAI 认为:随着模型推理与知识能力的持续扩展,我们需要更强大的基准来量化和预测模型加速科研的潜力。现有科学基准多聚焦选择题、已达性能饱和或未以科学能力为核心评估维度。
为填补这一空白,OpenAI 推出 FrontierScience:一个专为评估专家级科学能力构建的新基准。该基准由物理学、化学和生物学领域的专家编写验证,包含数百道兼具难度、原创性与实质意义的题目。
研究论文:https://cdn.openai.com/pdf/2fcd284c-b468-4c21-8ee0-7a783933efcc/frontierscience-paper.pdf
FrontierScience 设有两个赛道:衡量奥林匹克式科学推理能力的奥赛赛道(FrontierScience-Olympiad),以及评估真实世界科研能力的研究赛道(FrontierScience-Research)。在初步评估中,GPT-5.2 在 FrontierScience - 奥赛赛道(得分 77%)和研究赛道(得分 25%)均领先于其他前沿模型。
FrontierScience 的评估维度与构建方法
完整的 FrontierScience 评估包含 700 余道文本问题(其中 160 道构成黄金标准集),涵盖物理、化学和生物学。
FrontierScience - 奥赛赛道包含 100 道由国际奥赛奖牌得主设计的题目,通过约束性简答形式评估科学推理能力,其理论问题难度不低于国际奥赛竞赛题。
FrontierScience - 奥赛赛道化学题目示例
FrontierScience - 奥赛赛道物理题目示例
FrontierScience - 奥赛赛道生物题目示例
FrontierScience - 研究赛道包含 60 项由博士科学家设计的原创研究子任务,采用 10 分制评分标准。研究赛道旨在构建具有独立性、多步骤的研究子任务,其难度相当于博士科学家在科研中可能遇到的挑战。
FrontierScience - 研究赛道化学题目示例
FrontierScience - 研究赛道物理题目示例
FrontierScience - 研究赛道生物题目示例
奥赛题集采用简答评分模式:答案以数字、表达式或模糊字符串匹配形式呈现,便于验证准确性。但这种验证方式往往限制了问题的表达张力与开放程度。针对研究题集,FrontierScience 引入基于量规的评估架构以应对开放性任务。每道题目均配备包含多个独立且可客观评估条目的评分量规,总分 10 分。该量规不仅考察最终答案的准确性,更关注推理步骤的正确性,从而支持对模型表现与失误的细致分析。若模型获得至少 7/10 的量规分值,即判定其解答「正确」。
模型表现
OpenAI 在 FrontierScience 上对多款前沿模型进行了评估:GPT‑5.2、Claude Opus 4.5、Gemini 3 Pro、GPT‑4o、OpenAI o4-mini 以及 OpenAI o3。
除 GPT‑5.2 采用「极高」推理强度外,其余推理模型均以「高」推理强度运行。初步评估显示,GPT‑5.2 在两个测试集中表现最优:奥赛题集得分 77%,研究题集得分 25%,均领先于其他前沿模型。
值得注意的是,Gemini 3 Pro 在奥赛题集上与 GPT‑5.2 表现相当(得分 76%)。
评估表明:当前模型在解答专家级问题 —— 尤其是开放式研究型任务 —— 方面已取得显著进展,但仍有提升空间。通过对错误案例的分析,OpenAI 发现前沿模型存在以下问题:推理逻辑与计算错误、对专业科学概念理解不足,以及事实性表述不准确。
局限性与未来方向
尽管 FrontierScience 在科学基准测试难度上迈进了一步,但仍存在诸多局限。例如,该测试集由问题陈述受限的题目构成。
FrontierScience 虽能对模型在专家级难题上的推理能力提供更精细的评估,但尚不能完整反映实际科研工作的全貌,尤其是未能覆盖科学研究的关键环节,例如,模型如何生成真正新颖的假设、如何处理现实实验系统等多模态信息交互。
展望未来,OpenAI 预期科学推理能力的进步将来源于两方面:更强大的通用推理系统,以及对科学专项能力的针对性提升。FrontierScience 等基准测试有助于我们洞察当前 AI 系统的薄弱环节,从而引导开发者着力打造能在科学探索中成为可靠伙伴的模型。
参考内容:https://openai.com/index/frontierscience/
热门跟贴