作者 | 刘宇阳

编辑 | ScienceAI

✨如果说大语言模型正在改变人类与知识的交互方式,那么它是否也能改变科学实验的执行流程?

在生命科学研究中,实验协议(biological protocol)是最基本也是最关键的部分——每一条步骤、每一项参数都可能决定实验的成败。

然而,大多数大型语言模型(LLMs)虽能「生成文本」,却难以真正理解实验流程。从「生成合理的步骤」到「识别协议中的潜在错误」,它们常常陷入「看似懂了,其实没懂」的尴尬境地。

为此,北京大学的研究团队推出了BioProBench:首个面向生物实验协议的大规模、多任务基准评测平台,旨在系统评估并推动大模型在实验协议理解、推理与生成方面的能力。

背后的挑战:为什么需要BioProBench?

生物实验协议看起来只是文字说明,实则蕴含丰富的隐性知识:

  • 术语专业:跨越细胞学、分子生物、化学等多个领域
  • 结构复杂:不仅是线性步骤,还包含条件分支、时间依赖
  • 容错率低:任何理解偏差都可能导致实验失败甚至损坏设备

而目前主流大模型大多缺乏在真实实验协议上的训练与评估,没有标准数据集,无法衡量能力上限,更难发现关键瓶颈。

BioProBench正是为了解决这些问题而生,它构建了一个覆盖真实协议、设计科学任务、配套专业评测的完整平台。

数据集规模:BioProBench有多大?

  • 27,000+真实实验协议
  • 来自Bio‑protocol、JOVE、Protocols.io、Nature Protocols等权威来源
  • 556,000+结构化任务样本
  • 包括问答、排序、错误修正、协议生成与推理等多样任务
  • ✅覆盖主流生物实验类型:PCR、蛋白表达、细胞染色、转染、电泳……

我们基于这些协议构建了五大核心任务:

模型测得如何?现实远比想象更严峻!

为了系统验证BioProBench的评测价值,我们对多个主流大语言模型进行了全面测试,涵盖12个开源模型闭源API和生物领域模型

  • 在协议排序和错误纠正上,主流模型普遍准确率低于50%
  • 模型常常「遗漏关键步骤」,或「生成冗余流程」
  • 在专业术语处理、药剂浓度与时间控制方面出错率明显偏高

对于实验协议生成任务(GEN)上,更多考验的是LLMs对于生物领域性知识的理解和推理能力,以及指令遵循的文本生成能力。该任务的挑战性较高,如表格所示,通用的N-gram指标普遍较低:BLEU最高得分为10.23(Qwen2.5-72b-instruct),METEOR最高得分为24.78(Claude-3-7-sonnet),而ROUGE-L仅为20.70(GPT-4-turbo)。为此,我们提出了域特定的度量指标:基于关键词的内容度量基于嵌入的结构化度量。其中基于嵌入的结构化度量包含:

1)步骤召回率(SR):该指标旨在确保完整性。它使用相似度阈值delta = 0.7来量化生成协议中语义上捕获的必要参考步骤的比例。

2)步骤准确度(SP):该指标与SR互补,旨在衡量简洁性和相关性。它使用相似度阈值delta = 0.7来量化生成步骤中与参考步骤在语义上对应的比例。SP越高,质量越好(生成过程中虚假或不相关的步骤越少)。

SR仍然低于0.43,这意味着超过一半的必要步骤被省略或错误呈现。SP得分介于0.20和0.32之间,表明生成步骤中经常包含不相关或无关的步骤,凸显了生成步骤的低精度。

值得注意的是,在GEN任务中,使用CoT会导致大多数模型和指标的性能持续下降。Claude-3-7-sonnet的SR从0.4280下降到0.3918,其METEOR略有下降,而大多数模型在CoT下N-gram和关键词得分下降幅度更大。这表明,未调优的推理框架可能会干扰连贯、结构化的协议文本的生成。为了解决这个问题,BioProBench提供了结构化的CoT样本,这些样本可作为微调模型的基础,从而生成更流畅、逻辑更一致的程序。

这些结果表明:当前LLMs并不具备稳定可靠的实验协议处理能力,在真正用于实验室自动化前,还有很长的路要走。

团队还提供了什么?

BioProBench不仅仅是一个数据集,它是一个完整的评测工具包和研究框架:

  • 统一数据接口:支持直接用于Hugging Face datasets
  • ⚙️模型评估框架:开放可测评自定义代码
  • 丰富基线对比:提供多个主流模型的结果参考,方便横向比较
  • 文档齐全:包括任务定义、评分指标、样例分析等

应用前景广阔:不止科研,还有更多可能

BioProBench的推出,希望推动AI与科研实验场景的深度融合。

未来,它可广泛应用于:

  • 实验自动化平台:在机器人执行前进行协议语义检查
  • 智能实验助理:帮助新手快速理解复杂实验流程
  • AI+生物课程教学:训练学生理解实验逻辑、设计流程

欢迎访问与参与!

BioProBench已全面开源,欢迎每一位对「AI+实验」感兴趣的研究者、工程师、同学加入我们!

项目链接:

Arxiv:https://arxiv.org/pdf/2505.07889

GitHub:https://github.com/YuyangSunshine/bioprotocolbench

Hugging Face:https://huggingface.co/datasets/BioProBench/BioProBench