顶尖 AI 正确率仅三成，OpenAI 推出计算生物学新基准

生物学霸

2026-07-05 17:12 ·浙江 ·网易号健康内容作者

当地时间 6 月 30 日，OpenAI 发布全新基准测试 GeneBench-Pro，用于评估 AI 智能体在计算生物学研究中的高阶分析能力。与侧重知识问答或固定流程执行的传统基准不同，GeneBench-Pro 旨在测试模型能否在真实科研场景中处理模糊数据、选择分析路径、修正假设，并判断结果是否足以支持后续决策。

来源：OpenAI

该基准包含 129 个问题，覆盖统计遗传学、群体遗传学、定量遗传学、调控组学、功能基因组学、蛋白质组学、临床遗传学、癌症基因组学等 10 个领域。每道题都包含模拟生成的数据集、实验背景和目标估计量，模型需在隔离工作区中完成探索性分析并给出答案。OpenAI 称，问题采用合成数据构建，以便掌握完整因果结构，并通过 82 道题的外部专家审查降低信息泄漏和评分偏差。

在测试中，OpenAI 的最新模型 GPT-5.6 Sol 在最高推理级别下通过率为 28.7%，开启 Pro 模式后为 31.5%。OpenAI 认为，这类基准可帮助识别 AI 在科学研究判断中的能力边界。

来源：OpenAI，finance.biggo.com

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴