Epoch AI 发布了全新基准测试 SciCode,专门评估大语言模型在真实科研场景中的编程能力。与当前主流的算法题或软件工程基准不同,SciCode 的题目直接取自物理学、化学、生物学领域正式发表的论文,要求模型完成模拟代码实现、实验数据分析、复现关键图表等任务。首批结果揭晓后,一项刺眼的数据引发广泛讨论:即便 GPT-5.5、Gemini 3.5 Pro 这类顶尖模型,在 SciCode 上的得分也跌至 30% 以下,而它们此前在 SWE-Bench、HumanEval 等标准编码评测中轻松超过 80%。 这一反差直指行业长期忽视的问题——现有测评可能严重高估了模型参与科学发现的能力。SciCode 的设计刻意将编程熟练度与物理、化学、生物等领域的专业知识深度捆绑,并按照推理步骤数量对题目难度进行动态分级,逼真复制了研究科学家的日常工作流。其中一道典型题目需要根据论文方法实现蒙特卡洛模拟,模型不仅要写出正确代码,更需理解背后的统计物理语境,单一维度的编码能力彻底失灵。 Epoch AI 指出,SciCode 的目标并非宣告 LLM 无法用于科研,而是明确当今能力边界。不到 30% 的现实如同一面镜子,照出当前“AI 科学家”叙事与实际推理间隙之间的落差。在模型能力逐年膨胀的氛围下,这一基准或将推动更多机构重新校准评测尺度,从追求排行榜高分转向验证真正的科学发现潜质。
打开网易新闻 查看精彩图片
热门跟贴