顶尖大模型在真实科研代码基准SciCode得分不到30%，挑战“AI科学家”神话

灰度测试中

2026-06-29 00:16 ·北京

Epoch AI 发布了全新基准测试 SciCode，专门评估大语言模型在真实科研场景中的编程能力。与当前主流的算法题或软件工程基准不同，SciCode 的题目直接取自物理学、化学、生物学领域正式发表的论文，要求模型完成模拟代码实现、实验数据分析、复现关键图表等任务。首批结果揭晓后，一项刺眼的数据引发广泛讨论：即便 GPT-5.5、Gemini 3.5 Pro 这类顶尖模型，在 SciCode 上的得分也跌至 30% 以下，而它们此前在 SWE-Bench、HumanEval 等标准编码评测中轻松超过 80%。这一反差直指行业长期忽视的问题——现有测评可能严重高估了模型参与科学发现的能力。SciCode 的设计刻意将编程熟练度与物理、化学、生物等领域的专业知识深度捆绑，并按照推理步骤数量对题目难度进行动态分级，逼真复制了研究科学家的日常工作流。其中一道典型题目需要根据论文方法实现蒙特卡洛模拟，模型不仅要写出正确代码，更需理解背后的统计物理语境，单一维度的编码能力彻底失灵。 Epoch AI 指出，SciCode 的目标并非宣告 LLM 无法用于科研，而是明确当今能力边界。不到 30% 的现实如同一面镜子，照出当前“AI 科学家”叙事与实际推理间隙之间的落差。在模型能力逐年膨胀的氛围下，这一基准或将推动更多机构重新校准评测尺度，从追求排行榜高分转向验证真正的科学发现潜质。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴