加州大学圣地亚哥分校打造的"生物专家助手"|加州大学圣地亚哥分校|生物学|调用

这项由加州大学圣地亚哥分校（UC San Diego）与阿布扎比人工智能大学（MBZUAI）联合完成的研究，于2026年5月以预印本形式发布在arXiv平台，编号为arXiv:2605.05758v1，研究方向归属于计算机科学中的计算与语言领域。感兴趣的读者可以通过该编号查阅完整论文。

**一个真实存在的尴尬场景**

假设你是一位生物学研究生，导师让你查一个基因片段的功能，你灵机一动，打开了目前最先进的AI聊天助手，把那一串字母和数字糊进去问它："这段序列可能来自哪种生物？"

AI煞有介事地回答了一大段，还点名说"极可能来自大肠杆菌一类的γ-变形菌纲细菌"。你信心满满地把这个答案写进了实验记录——结果后来查数据库发现，最接近的匹配物种其实是一种叫做*Spirillospora sp.*的放线菌，跟AI说的八竿子打不着。

这不是虚构的故事。这正是研究团队在论文里举的第一个真实失败案例，也是整个研究想要解决的核心问题：当下最强大的通用AI，在生物医学这个高度专业的领域里，往往是个自信满满的"门外汉"。

**生物医学AI的根本困境**

通用AI之所以在生物医学领域频频出错，根本原因可以用一个比喻来理解：这些AI就像一个博览群书的文科生，他能滔滔不绝地聊"基因是遗传信息的载体"，却无法真正查阅那本存放在国家生物信息中心深处的"物种档案"。面对具体的序列、具体的编号、具体的分子功能，他只能靠印象和推理瞎猜，而生物学研究偏偏最不允许瞎猜。

真正的生物学家在日常工作中，面对一段陌生的核苷酸序列，不会靠"想当然"下判断，而是马上打开BLAST（一个专门用来比对序列相似度的工具）搜一遍数据库。面对一个蛋白质的功能，他会去UniProt查注释条目。想知道某个基因变异会不会导致疾病，他会用Ensembl里的VEP工具跑一遍预测。这些专业工具，才是生物医学研究真正的"手"，而AI目前更像一张只会说话的"嘴"。

研究团队注意到，已有一些早期尝试让AI学会调用这些工具，比如GeneGPT项目就尝试让AI通过"上下文学习"——也就是在对话里给AI一两个示例，让它模仿——来调用NCBI的接口。但这条路有个天然瓶颈：AI的记忆窗口有限，几行示例根本装不下几十个复杂工具的全部使用规范，更别说那些需要精确对应的生物标识符和特殊参数格式了。

**BIOTOOL：一本专为AI设计的"生物工具使用手册"**

这项研究的核心贡献，是构建了一个名为BIOTOOL的数据集，专门用来训练AI学会正确调用生物医学数据库的API（可以理解为"与数据库对话的标准接口"）。

为了理解这个数据集的价值，可以换个角度来看待它。与其说它是一本"数据集"，不如说它是一本经过7040道精心核校的"真实工作记录"——每一条记录都包含了：一个生物学家会真实提出的问题、这个问题应该用哪个数据库的哪个工具来查、应该传入什么参数、实际查询会返回什么结果。AI通过反复阅读这7040条记录，逐渐学会了"当有人问这类问题时，我应该这样构造一次数据库查询"。

这7040条数据来自三个被全球生物医学研究公认为"权威仓库"的平台：美国国家生物技术信息中心（NCBI）、蛋白质知识库UniProt，以及基因组数据库Ensembl。这三个平台覆盖了生命科学研究的核心链条——从最原始的DNA序列到基因组注释，再到蛋白质功能和疾病关联，可以说涵盖了从"遗传密码"到"生命活动"的全过程。研究团队从三个平台共挑选出34个常用工具，涵盖124个具体的API接口，涉及变异分析、基因组学、蛋白质组学、进化生物学和普通生物学五大方向，三个数据库的样本比例相当均衡，各自约占总量的三分之一。

**数据是怎么"生产"出来的**

构建这份数据集的过程，可以理解为一条严格的"流水线质检"。

一切从工具挑选开始。研究团队亲自逐一审查NCBI、UniProt和Ensembl网站上的所有可用接口，剔除那些仅返回版本号或服务状态等无实质内容的工具，也排除了已废弃或运行不稳定的接口，最终保留34个经过确认仍在活跃使用、对回答生物医学问题真正有价值的工具。

接下来是合成API调用的环节。研究人员为每个工具手工挑选了具有生物学意义的关键参数——比如物种分类ID、基因符号、UniProt登录号——确保合成的查询在生物学上是真实可信的，而不是随机拼凑的废话。然后按照已有的研究范式，随机组合生成大量候选API调用，再依次执行这些调用：凡是出现客户端错误、超时无响应或返回空结果的，直接淘汰。此外还设计了一套启发式过滤规则，专门去除那些内容过于重复或者查询结果缺乏生物学意义的条目。经过这一关的过滤，最终保留了6391条有效API调用。

有了真实的查询和返回结果之后，下一步是生成自然语言问题。研究团队使用了OpenAI的o3推理模型来完成这项任务。具体做法是：先让模型把API返回的那些充满技术细节的数据，"翻译"成一段通俗的自然语言描述；再以这段描述为线索，反推出一个生物学家可能会问的真实问题。这样生成的问题有一个重要特点——它的答案必须依赖API查询的结果，而不是AI靠自身知识就能编出来的。这一步的设计，本质上是在确保每一条训练数据都是"有使用工具的必要"的真实场景。

生成问题之后，还有一道自动化质检。研究团队用Claude Haiku 4.5作为"评审员"，按照一套结构化评分标准，检查每一对"问题+API返回结果"是否真的具有信息价值：如果返回内容与问题毫无关联，或者模糊到连一个具体事实都无法支撑，就被丢弃。

最后一道关卡是人工审核。具有生物信息学本科及以上背景的评审员逐条检查，删除语义不清或质量低劣的条目，并对措辞生硬或术语不准确的问题进行润色和校正。经历这整条流水线之后，最终留下的7040条数据，是经过层层筛选的高质量训练素材。

**训练出来的小模型，打败了几百倍体量的大模型**

有了这份数据集，研究团队做了一件颇具"以小胜大"意味的实验。

他们用BIOTOOL的训练集（约占总量的80%，即大约5600条数据）对几个参数量只有40亿到80亿的开源小模型进行微调（可以理解为"专项培训"），然后让这些经过培训的小模型与市面上最顶尖的商业大模型——包括GPT-5.1、GPT-5.1-Codex、Gemini 3 Pro和Claude 4.5 Sonnet——同台竞技，比拼谁更擅长调用这些生物医学工具。

竞技规则叫做"BioTool分数"，核心逻辑是：让模型根据问题自己去构造API调用，实际执行调用获取返回数据，然后与标准答案的返回数据做语义相似度比对。用于计算相似度的是MedCPT——一个专门为生物医学文献检索训练的语义嵌入模型。这套评分方式相当合理：它不要求模型的API调用和标准答案一字不差，而是看最终拿回来的生物学数据是否与应该拿到的内容在语义上高度吻合。

结果出乎一般人的预料。经过BIOTOOL微调的4B（即40亿参数）版Qwen3模型，整体BioTool分数达到93.6，比当时表现最好的商业模型Claude 4.5 Sonnet的81.4高出整整15个百分点，更是把GPT-5.1的55.4甩出了将近70%的差距。这意味着一个经过专项训练的"小专家"，在特定领域里完全可以碾压一个庞大但泛化的"大通才"。

更细化地看三个数据库的子得分，差异更加悬殊。在NCBI这个子集上，GPT-5.1只拿到15.5分，GPT-5.1-Codex是14.8分，而微调后的4B Qwen3模型高达93.7。这个差距背后的原因，研究团队在论文里做了解释：NCBI的API格式极为严格，对标识符格式和嵌套参数的要求很精确，商业大模型靠通用预训练根本无法掌握这些"暗规则"，而BIOTOOL提供的大量真实样本，正好弥补了这个盲区。

除了主要的BioTool分数，研究还统计了两个辅助指标。一个叫"API调用成功率"（AS），衡量模型生成的调用有没有能够成功执行并返回有效数据；另一个叫"精确匹配率"（EM），衡量模型的调用结果与标准答案完全一致的比例。商业模型在成功率上表现还算可以，比如Claude 4.5 Sonnet的整体成功率达到89.4%，但精确匹配率只有可怜的6.5%——说明它能让查询跑起来，但跑出来的结果往往不是应该拿到的那个东西。微调后的4B Qwen3模型精确匹配率高达42.4%，是表现最好的商业模型的六倍多，真正做到了"不仅能查，还能查对"。

**失败案例的解剖：错在哪里**

为了更深入理解模型的失败模式，研究团队对所有测试集上的API调用失败案例进行了系统分类，归纳出三类典型错误。

第一类叫"参数遗漏"：模型构造调用时漏掉了标准答案中应该有的参数，导致查询范围发生偏移。比如调用Ensembl的比较基因组功能时，忘记指定物种参数，结果数据库返回了错误物种的同源基因数据。第二类叫"参数多余"：模型加入了标准答案里不该有的参数，反而限制了查询范围。比如在VEP注释调用里额外加了一个"只返回典型转录本"的标志，这样一来那些在临床或研究中同样重要的非典型亚型就全被屏蔽了。第三类叫"参数值错误"：参数名称对了，但填入的值在语义上是错的。最典型的例子是BLAST调用中把程序类型写成"blastp"（蛋白质比对蛋白质）而不是正确的"tblastn"（蛋白质比对核苷酸翻译序列），两者的比对逻辑完全不同，结果自然是风马牛不相及。

在这三类错误上，商业模型和未经微调的开源模型都有相当高的发生率。以GPT-5.1为例，"参数多余"类错误占测试集总量的34.9%，"参数值错误"占28.9%。而经过BIOTOOL微调的4B Qwen3模型，这三类错误的发生率分别只有0.6%、0.6%和1.6%，几乎可以忽略不计。这组数字印证了一个道理：正确调用生物医学API，需要的不只是"懂生物学常识"，更需要对每个工具的专属语法有精确的掌握，而这种掌握只能通过大量真实样本的学习来获得。

**一个具体案例：山羊的名字叫什么**

论文里有一个非常生动的案例对比，很能说明问题。

某个测试问题大意是：在羊的某段基因组区域内（精确到染色体坐标），找出在"NextGen"山羊种群中呈现强连锁不平衡（一种遗传变异之间的相关性指标）的变异对。

Claude 4.5 Sonnet直接把"goat"（山羊的英文）填进了物种参数，把"NextGen"原封不动地填进了种群名称参数。结果数据库返回错误：系统里根本没有叫"goat"的物种——正确的物种标识符应该是拉丁学名的简写"capra_hircus"，而正确的种群名称应该是"NextGen:All"。

经过BIOTOOL训练的4B Qwen3模型，则准确地将"山羊"映射到了"capra_hircus"，将"NextGen山羊种群"映射到了"NextGen:All"，成功返回了具体的变异对列表，连它们之间的连锁不平衡系数都精确呈现出来了。

这个案例清晰地展示了BIOTOOL训练效果的本质：它教会了AI一种"翻译能力"，把人类用日常语言表达的生物学意图，准确地转换成数据库能够理解的专业语法——而这种翻译，对于没有经过专项训练的模型来说，几乎无法靠猜测完成。

**真正重要的问题：查到的信息有没有帮上忙**

API调用准不准确，只是技术层面的事。研究者最终关心的，是这套系统能不能真正帮助科研人员得到更好的答案。为此，研究团队专门组织了人工评估。

评估的设计方式是：用同一批测试问题，让GPT-5.1在三种不同条件下回答。第一种，完全不使用任何工具，靠自身知识直接作答。第二种，提供数据集中已有的"黄金标准"API查询结果，让GPT-5.1以此为依据回答。第三种，用经过BIOTOOL微调的4B Qwen3模型来生成API调用，再把查询结果喂给GPT-5.1生成答案。

两位具有生物信息学背景的研究员，对这三组答案进行了盲审式的两两对比，评判标准是答案的信息量和对问题的覆盖程度，同时要求排除那些语焉不详或存在科学错误的回答。两位评审员的判断一致性很高，Cohen's κ系数在0.72到0.80之间，达到了"高度一致"的统计标准。

结果非常有说服力。当使用数据集中的黄金标准查询结果时，工具增强版的GPT-5.1以94.2%的比率胜过了纯靠自身知识的GPT-5.1。当使用BIOTOOL微调小模型生成的查询结果时，胜率是84.5%。换一种更直观的表达方式：在一百次对比中，有84到94次，有工具辅助的答案明显优于没有工具的答案，更准确，更有实质内容，更少出现"编造细节"的情况。

这组数字有两层含义。94.2%的黄金标准胜率说明BIOTOOL数据集本身的质量极高，那些经过人工核校的API调用确实能够从数据库中取回真正有用的信息。84.5%的微调模型胜率说明，即使不用黄金标准，只是用一个参数量仅为GPT-5.1百分之一不到的小模型来充当"工具调用员"，也足以显著提升整个系统的输出质量。

**数据规模与泛化能力的测试**

研究团队还额外做了两组补充实验，进一步检验BIOTOOL的性质。

第一组实验检验"数据量多少才够用"。他们用10%到100%的训练数据分别训练4B Qwen3模型，观察性能随数据量的变化趋势。结果发现，即使只用10%的训练数据（约560条），模型在精确匹配率上就已经比未经训练的基准模型高出18.6个百分点，在整体BioTool分数上高出23.2个百分点。随着训练数据增加，性能持续攀升，但增幅逐渐放缓。这说明BIOTOOL的训练信号密度很高，少量数据就能产生显著效果，而更多数据能进一步精炼参数级别的细节准确性。

第二组实验检验"见过的API和没见过的API，模型有没有区别对待"。研究团队重新划分了一个测试集，确保测试集里的所有API接口在训练时完全没有出现过，也就是说模型需要在从未直接学过的工具上展现泛化能力。结果是：微调后的4B Qwen3模型整体BioTool分数为84.1，仍然高于GPT-5.1的76.5和GPT-5.1-Codex的83.5。这意味着BIOTOOL的训练不只是帮模型记住了哪些具体工具的具体用法，还帮它建立了一种更通用的"生物医学API语法直觉"，能够在一定程度上迁移到新工具上。当然，与在已知API上的表现相比，泛化性能有所下降，表明真正掌握一个新工具仍然需要直接的学习样本。

**研究的局限与未来方向**

论文在最后坦诚地指出了若干局限，这些局限也勾勒出了未来研究的方向。

目前BIOTOOL的框架只处理"一问一查"的单跳场景：提一个问题，发一次API调用，得到一个结果。但现实中许多生物学问题需要多步查询：先用一个工具找到基因ID，再用另一个工具查该基因的疾病关联，再用第三个工具看相关的蛋白质结构。这种多跳、迭代式的工具使用，超出了现有框架的覆盖范围。

另一个限制来自生物医学数据本身的体量。原始的API返回数据通常非常庞大，有时包含数十万字符的序列或注释信息，直接塞入模型的上下文窗口会严重超出内存限制。研究团队目前依靠后处理和摘要来压缩这些数据，但这不可避免地会损失一些细节信息。如何让AI系统高效处理极长的生物学观测数据，是未来值得深入探索的技术方向。

此外，研究团队还没有尝试训练一个完全独立的"生物医学专用AI助手"——目前的架构是用一个小模型负责工具调用，再把结果交给GPT-5.1这类通用大模型来生成最终答案，两者是分工合作的关系。未来如果能训练出一个既懂工具调用、又能自主推理和整合多步查询结果的生物医学专用智能体，将会是更完整的解决方案。

说到底，这项研究做的是一件听起来简单、实则极其精细的事情：教会AI说"生物数据库的语言"。当一个模型能够准确把"山羊"翻译成"capra_hircus"、把"强连锁"翻译成"d_prime=0.8"、把"下一代测序项目的所有样本"翻译成"NextGen:All"，它才真正具备了辅助生物医学研究的资格——不是那种自信满满、漏洞百出的"门外汉助理"，而是能在你面前打开数据库、指着真实数据告诉你答案的"专业伙伴"。而BIOTOOL这份数据集，正是实现这种转变的钥匙。有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.05758查阅完整论文。

Q&A

Q1：BIOTOOL数据集包含哪些数据库的工具？

A：BIOTOOL数据集涵盖了三个主要生物医学数据库的工具，分别是美国国家生物技术信息中心（NCBI）、蛋白质知识库UniProt和基因组数据库Ensembl。三个数据库的样本比例基本均衡，各约占总量的三分之一，共涉及34个常用工具和124个具体API接口，涵盖变异分析、基因组学、蛋白质组学、进化生物学和普通生物学五大方向。

Q2：经过BIOTOOL微调的小模型为什么能打败GPT-5.1这样的大模型？

A：核心原因在于生物医学API调用是一项高度专业化的技能，需要精确掌握每个数据库接口的特殊语法、参数格式和生物学标识符规范。GPT-5.1等通用大模型的预训练数据中，这类专业API使用样本极少，无法靠通用知识应对。BIOTOOL提供了7040条真实经过人工核校的高质量训练样本，相当于给小模型进行了高强度的专项培训，让它建立起精确的"生物数据库语法直觉"，弥补了大模型的专业盲区。

Q3：BIOTOOL训练出来的模型只会用训练过的工具，还是也能处理新工具？

A：两者都有一定能力，但程度不同。研究团队专门设计了一个"未见过的API"测试集，让所有测试接口在训练时完全没有出现过。结果显示，微调后的4B Qwen3模型在这个严格测试上仍优于GPT-5.1，说明训练帮它建立了一定的泛化能力，可以迁移到新工具上。不过与在已知接口上的表现相比，泛化性能有所下降，真正精通一个新工具仍然需要直接的训练样本。