打开网易新闻 查看精彩图片

哈喽,大家好,小圆最近刷到OpenAI刚发布的一个科研基准测试,瞬间觉得对AI的认知更清醒了,这两年AI在国际数学、信息学奥赛里拿金牌跟开了挂似的,可新出炉的FrontierScience基准一测才发现,这位顶级做题家在真实科研场景里,连及格线都没摸到。

这波测试算是把AI的遮羞布扯得明明白白:奥赛金牌的光环再亮,也不等于能成为一流科学家,今天咱们就好好聊聊这个戳破行业幻想的基准,看看AI到底差在哪儿。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

其实是旧的尺子不够用了,2023年有个叫GPQA的科学题库很火,全是博士级别的难题,强调谷歌搜不到答案,当时GPT-4只考了39分,远低于专家的74分基线,可才过两年,GPT-5.2在这个题库里直接考到92分,旧题库被彻底刷穿。

打开网易新闻 查看精彩图片

更关键的是,OpenAI早就想清楚了:科学研究根本不是“做题”那套逻辑,科研是持续试错的过程,要自己提假设、设计实验验证、被推翻了再重来,还得把不同领域的线索串成完整逻辑链,之前的测试只考知识点和解题技巧,根本没触及科研的核心。

打开网易新闻 查看精彩图片

FrontierScience的设计思路很明确:不搞虚的,直接把AI丢进两种最真实的科学难关里,一套是竞赛风格的题目,考的是在明确约束下把推理做扎实;另一套是科研现场风格的题目,没有标准答案,只看思路能不能走通、逻辑够不够自洽。

打开网易新闻 查看精彩图片

最有意思的是OpenAI的私心,为了避免自家模型靠训练数据作弊,他们在出题时特意把内部模型已经能答对的题全筛掉了,等于给自己的模型加了难度buff,同时还开源了黄金组题目,剩下的题目留着追踪数据污染,这套操作算是把公平做到了极致。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

OpenAI公布的初测成绩,把“奥赛金牌≠科学家”的反差拉得明明白白,参与测试的GPT-5.2、Claude Opus 4.5、Gemini 3 Pro等顶尖模型,在竞赛题上表现都不差:GPT-5.2拿了77%的得分,Gemini 3 Pro以76%紧随其后,算是保住了“奥赛金牌”的颜面。

可一到研究题,全体翻车,GPT-5.2作为领头羊,得分也才25%,连及格线都没摸到,其他模型更不用提了,更值得琢磨的是AI的翻车原因,OpenAI总结了几点:要么是推理过程中逻辑断链、计算出错;要么是碰到冷门专业概念就卡壳。

打开网易新闻 查看精彩图片

还有些时候会犯低级的事实性错误,最朴素的一个发现更扎心:模型花的思考时间越久,准确率才越高,这跟人类科学家灵光一现的创新思维完全不是一回事,其实这也不难理解,小圆打个比方,奥赛题就像精心设计的迷宫,再难也有固定出口。

AI靠强大的推理和刷题积累,总能找到路径;可真实科研是在一片荒野里开路,没有地图、没有标准答案,得自己判断方向、甚至创造新工具,AI现在的本事,还停留在走迷宫的阶段,离开荒野差得远。

打开网易新闻 查看精彩图片

OpenAI说接下来要迭代题库、扩展领域,还要做真实世界评估,看AI到底能帮科学家多做成事,这才是关键,AI不用非要成为科学家,能成为“科学家的最佳搭档”,就已经能给科研带来巨大突破了。

打开网易新闻 查看精彩图片