Anthropic用99道题测出Claude的生物信息学水平

赛博兰博

2026-04-30 20:38 ·北京

「Claude在可解问题上已与人类专家持平。」Anthropic这份新基准测试的结论是，但数据背后藏着更复杂的真相——30%的超高难度成功率，与五轮测试中要么全对要么全错的极端波动，指向同一个问题：AI的"专家级"表现，和人类理解的"专家级"，可能根本不是一回事。

为什么生物信息学成了AI评测的硬骨头

测AI懂不懂生物，比想象中难得多。

Anthropic在论文里吐槽了一圈现有基准的盲区。知识类测试比如MMLU-Pro或GPQA，考的是死记硬背，不是实战技能。用真实数据集跑的BixBench，让模型跟个别科学家的结论比——但科学家的结论本身就带主观性，方法选得不一样，答案可能完全不同。至于SciGym那种模拟实验室环境，答案倒是明确，却过滤掉了真实生物数据里那股"混乱劲儿"。

真实研究是什么画风？数据 noisy（嘈杂）、信号微弱、工具链复杂，还得在NCBI、Ensembl这些数据库里翻来翻去。现有基准要么太干净，要么太主观，要么太理论。

这是Anthropic做BioMysteryBench的出发点。

99道题的设计心机：让答案" objectively verifiable "

这套题库的核心设计很巧妙——答案不来自科学解释，而来自数据本身的可控属性，或独立验证过的元数据。

每道题的作者必须提交一个验证笔记本，证明信号确实存在于数据中。这种做法绕开了"科学家怎么说"的主观陷阱，也让出题范围扩展到人类可能解不了的领域。

具体任务长什么样？比如给你一份单细胞RNA测序数据，问这是哪个器官的组织；或者给你实验样本，让你推断哪个基因被敲除了。Claude拿到的是一个容器环境，内置生物信息学工具，能访问NCBI、Ensembl等数据库，分析方法完全自主。只判最终答案，不管过程。

99道题横跨多个生物信息学子领域，由领域专家撰写，基于真实且嘈杂的数据集。

时间线：从76道"人类可解"到23道"全员阵亡"

Anthropic把题目分成两批测试。

第一批76道，定义为"人类可解"——至少有一位专家（最多五位参与）找到了正确答案。第二批23道，五位专家全军覆没。还有4道题因为表述缺陷被剔除。

对于那23道难题，Anthropic自己也不确定：是本质上无解，还是只是极难？换一批专家，或者更多专家，能不能解出来？这仍是开放问题。

结果层面，Claude在可解问题上与人类专家持平——这是Anthropic的 headline 结论。但在那23道难题上，Claude Mythos Preview 达到了30%的成功率。

表面看，AI超越了人类专家。但一致性分析泼了冷水。

五轮测试暴露的"运气成分"

Anthropic让Claude Mythos Preview每道题跑五遍。结果呈现两极分化：

可解问题上，Claude几乎要么五轮全对，要么五轮全错。难题上，成功通常只出现在一两轮里。

这说明什么？模型不是靠可复现的策略解题，而是偶尔"撞"到一条幸运路径。30%的成功率背后，不是稳定的专家级能力，是概率性的摸索。

Anthropic分析了Claude区别于人类测试者的两个策略：一是调用广博的知识库，二是将信息与正在进行的分析直接结合。但当环境复杂度超过某个阈值，这种"边查边做"的模式就变成了抽奖。

这对AI产品化意味着什么

从产品经理视角看，BioMysteryBench的设计本身比结果更值得琢磨。

它解决了一个长期痛点：如何验证AI在开放域、工具依赖型任务上的真实能力。不是考知识，不是比速度，是给你脏数据、真工具、模糊目标，看你能不能端到端地交付。

这种评测思路对科研自动化、临床决策支持、药物研发等场景有直接参考价值。如果AI要在这些领域从"辅助工具"升级为"独立代理"，BioMysteryBench式的压力测试是必经之路。

但五轮测试的波动数据也敲了警钟。产品化时，"30%成功率"和"五轮中偶尔成功一次"是截然不同的用户体验。前者可能支撑一个"专家级第二意见"产品，后者只能做"探索性灵感生成器"。

Anthropic没有回避这个 nuance，反而在论文里主动披露。这种透明对行业是好事——它划清了"演示级能力"和"生产级可靠性"的边界。

下一步该关注什么

23道难题的"本质无解还是极难解"之问，短期内不会有答案。但几个方向已经清晰：

第一，一致性。如果五轮测试的方差能压下来，30%可以变成可预期的30%，产品形态会完全不同。

第二，工具链。Claude目前被允许自由调用生物信息学工具和数据库，但工具本身的可靠性、API稳定性、数据版本漂移，都是真实部署时的隐藏成本。

第三，人机协作界面。既然AI和人类在难题上各有盲区，如何设计工作流让两者互补，比追求"全面超越人类"更务实。

Anthropic把验证笔记本作为题目准入门槛的做法，也值得其他垂直领域借鉴。它建立了一种可审计的、社区可复现的质量控制机制，比"我们相信专家"更经得起推敲。

Claude在生物信息学上的这步棋，表面是秀肌肉，实际是投石问路。99道题测出的不只是模型能力，更是一套评测方法论的可行性。对于盯着科研自动化赛道的创业者和产品经理，这份基准的含金量在于：它证明了端到端、真实数据、客观验证的评测是可以落地的，也暴露了当前技术栈在可靠性上的真实水位。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴