当地时间 6 月 30 日,OpenAI 发布全新基准测试 GeneBench-Pro,用于评估 AI 智能体在计算生物学研究中的高阶分析能力。与侧重知识问答或固定流程执行的传统基准不同,GeneBench-Pro 旨在测试模型能否在真实科研场景中处理模糊数据、选择分析路径、修正假设,并判断结果是否足以支持后续决策。
打开网易新闻 查看精彩图片
来源:OpenAI
该基准包含 129 个问题,覆盖统计遗传学、群体遗传学、定量遗传学、调控组学、功能基因组学、蛋白质组学、临床遗传学、癌症基因组学等 10 个领域。每道题都包含模拟生成的数据集、实验背景和目标估计量,模型需在隔离工作区中完成探索性分析并给出答案。OpenAI 称,问题采用合成数据构建,以便掌握完整因果结构,并通过 82 道题的外部专家审查降低信息泄漏和评分偏差。
在测试中,OpenAI 的最新模型 GPT-5.6 Sol 在最高推理级别下通过率为 28.7%,开启 Pro 模式后为 31.5%。OpenAI 认为,这类基准可帮助识别 AI 在科学研究判断中的能力边界。
来源:OpenAI,finance.biggo.com
热门跟贴