让大模型「懂」实验，从理解协议开始！北大团队发布 BioProBench

ScienceAI

2025-05-29 14:41 ·天津 ·优质互联网领域创作者

作者 | 刘宇阳

编辑 | ScienceAI

✨如果说大语言模型正在改变人类与知识的交互方式，那么它是否也能改变科学实验的执行流程？

在生命科学研究中，实验协议（biological protocol）是最基本也是最关键的部分——每一条步骤、每一项参数都可能决定实验的成败。

然而，大多数大型语言模型（LLMs）虽能「生成文本」，却难以真正理解实验流程。从「生成合理的步骤」到「识别协议中的潜在错误」，它们常常陷入「看似懂了，其实没懂」的尴尬境地。

为此，北京大学的研究团队推出了BioProBench：首个面向生物实验协议的大规模、多任务基准评测平台，旨在系统评估并推动大模型在实验协议理解、推理与生成方面的能力。

背后的挑战：为什么需要BioProBench？

生物实验协议看起来只是文字说明，实则蕴含丰富的隐性知识：

术语专业：跨越细胞学、分子生物、化学等多个领域
结构复杂：不仅是线性步骤，还包含条件分支、时间依赖
容错率低：任何理解偏差都可能导致实验失败甚至损坏设备

而目前主流大模型大多缺乏在真实实验协议上的训练与评估，没有标准数据集，无法衡量能力上限，更难发现关键瓶颈。

BioProBench正是为了解决这些问题而生，它构建了一个覆盖真实协议、设计科学任务、配套专业评测的完整平台。

数据集规模：BioProBench有多大？

27,000+真实实验协议
来自Bio‑protocol、JOVE、Protocols.io、Nature Protocols等权威来源
556,000+结构化任务样本
包括问答、排序、错误修正、协议生成与推理等多样任务
✅覆盖主流生物实验类型：PCR、蛋白表达、细胞染色、转染、电泳……

我们基于这些协议构建了五大核心任务：

模型测得如何？现实远比想象更严峻！

为了系统验证BioProBench的评测价值，我们对多个主流大语言模型进行了全面测试，涵盖12个开源模型，闭源API和生物领域模型：

在协议排序和错误纠正上，主流模型普遍准确率低于50%
模型常常「遗漏关键步骤」，或「生成冗余流程」
在专业术语处理、药剂浓度与时间控制方面出错率明显偏高

对于实验协议生成任务（GEN）上，更多考验的是LLMs对于生物领域性知识的理解和推理能力，以及指令遵循的文本生成能力。该任务的挑战性较高，如表格所示，通用的N-gram指标普遍较低：BLEU最高得分为10.23（Qwen2.5-72b-instruct），METEOR最高得分为24.78（Claude-3-7-sonnet），而ROUGE-L仅为20.70（GPT-4-turbo）。为此，我们提出了域特定的度量指标：基于关键词的内容度量和基于嵌入的结构化度量。其中基于嵌入的结构化度量包含：

1）步骤召回率（SR）：该指标旨在确保完整性。它使用相似度阈值delta = 0.7来量化生成协议中语义上捕获的必要参考步骤的比例。

2）步骤准确度（SP）：该指标与SR互补，旨在衡量简洁性和相关性。它使用相似度阈值delta = 0.7来量化生成步骤中与参考步骤在语义上对应的比例。SP越高，质量越好（生成过程中虚假或不相关的步骤越少）。

SR仍然低于0.43，这意味着超过一半的必要步骤被省略或错误呈现。SP得分介于0.20和0.32之间，表明生成步骤中经常包含不相关或无关的步骤，凸显了生成步骤的低精度。

值得注意的是，在GEN任务中，使用CoT会导致大多数模型和指标的性能持续下降。Claude-3-7-sonnet的SR从0.4280下降到0.3918，其METEOR略有下降，而大多数模型在CoT下N-gram和关键词得分下降幅度更大。这表明，未调优的推理框架可能会干扰连贯、结构化的协议文本的生成。为了解决这个问题，BioProBench提供了结构化的CoT样本，这些样本可作为微调模型的基础，从而生成更流畅、逻辑更一致的程序。

这些结果表明：当前LLMs并不具备稳定可靠的实验协议处理能力，在真正用于实验室自动化前，还有很长的路要走。

团队还提供了什么？

BioProBench不仅仅是一个数据集，它是一个完整的评测工具包和研究框架：

统一数据接口：支持直接用于Hugging Face datasets
⚙️模型评估框架：开放可测评自定义代码
丰富基线对比：提供多个主流模型的结果参考，方便横向比较
文档齐全：包括任务定义、评分指标、样例分析等

应用前景广阔：不止科研，还有更多可能

BioProBench的推出，希望推动AI与科研实验场景的深度融合。

未来，它可广泛应用于：

实验自动化平台：在机器人执行前进行协议语义检查
智能实验助理：帮助新手快速理解复杂实验流程
AI+生物课程教学：训练学生理解实验逻辑、设计流程

欢迎访问与参与！

BioProBench已全面开源，欢迎每一位对「AI+实验」感兴趣的研究者、工程师、同学加入我们！

项目链接：

Arxiv:https://arxiv.org/pdf/2505.07889

GitHub：https://github.com/YuyangSunshine/bioprotocolbench

Hugging Face：https://huggingface.co/datasets/BioProBench/BioProBench

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴