「Claude在可解问题上已与人类专家持平。」Anthropic这份新基准测试的结论是,但数据背后藏着更复杂的真相——30%的超高难度成功率,与五轮测试中要么全对要么全错的极端波动,指向同一个问题:AI的"专家级"表现,和人类理解的"专家级",可能根本不是一回事。

为什么生物信息学成了AI评测的硬骨头

打开网易新闻 查看精彩图片

测AI懂不懂生物,比想象中难得多。

Anthropic在论文里吐槽了一圈现有基准的盲区。知识类测试比如MMLU-Pro或GPQA,考的是死记硬背,不是实战技能。用真实数据集跑的BixBench,让模型跟个别科学家的结论比——但科学家的结论本身就带主观性,方法选得不一样,答案可能完全不同。至于SciGym那种模拟实验室环境,答案倒是明确,却过滤掉了真实生物数据里那股"混乱劲儿"。

真实研究是什么画风?数据 noisy(嘈杂)、信号微弱、工具链复杂,还得在NCBI、Ensembl这些数据库里翻来翻去。现有基准要么太干净,要么太主观,要么太理论。

这是Anthropic做BioMysteryBench的出发点。

99道题的设计心机:让答案" objectively verifiable "

这套题库的核心设计很巧妙——答案不来自科学解释,而来自数据本身的可控属性,或独立验证过的元数据。

每道题的作者必须提交一个验证笔记本,证明信号确实存在于数据中。这种做法绕开了"科学家怎么说"的主观陷阱,也让出题范围扩展到人类可能解不了的领域。

具体任务长什么样?比如给你一份单细胞RNA测序数据,问这是哪个器官的组织;或者给你实验样本,让你推断哪个基因被敲除了。Claude拿到的是一个容器环境,内置生物信息学工具,能访问NCBI、Ensembl等数据库,分析方法完全自主。只判最终答案,不管过程。

99道题横跨多个生物信息学子领域,由领域专家撰写,基于真实且嘈杂的数据集。

时间线:从76道"人类可解"到23道"全员阵亡"

Anthropic把题目分成两批测试。

第一批76道,定义为"人类可解"——至少有一位专家(最多五位参与)找到了正确答案。第二批23道,五位专家全军覆没。还有4道题因为表述缺陷被剔除。

对于那23道难题,Anthropic自己也不确定:是本质上无解,还是只是极难?换一批专家,或者更多专家,能不能解出来?这仍是开放问题。

结果层面,Claude在可解问题上与人类专家持平——这是Anthropic的 headline 结论。但在那23道难题上,Claude Mythos Preview 达到了30%的成功率。

表面看,AI超越了人类专家。但一致性分析泼了冷水。

五轮测试暴露的"运气成分"

Anthropic让Claude Mythos Preview每道题跑五遍。结果呈现两极分化:

可解问题上,Claude几乎要么五轮全对,要么五轮全错。难题上,成功通常只出现在一两轮里。

这说明什么?模型不是靠可复现的策略解题,而是偶尔"撞"到一条幸运路径。30%的成功率背后,不是稳定的专家级能力,是概率性的摸索。

Anthropic分析了Claude区别于人类测试者的两个策略:一是调用广博的知识库,二是将信息与正在进行的分析直接结合。但当环境复杂度超过某个阈值,这种"边查边做"的模式就变成了抽奖。

这对AI产品化意味着什么

从产品经理视角看,BioMysteryBench的设计本身比结果更值得琢磨。

它解决了一个长期痛点:如何验证AI在开放域、工具依赖型任务上的真实能力。不是考知识,不是比速度,是给你脏数据、真工具、模糊目标,看你能不能端到端地交付。

这种评测思路对科研自动化、临床决策支持、药物研发等场景有直接参考价值。如果AI要在这些领域从"辅助工具"升级为"独立代理",BioMysteryBench式的压力测试是必经之路。

但五轮测试的波动数据也敲了警钟。产品化时,"30%成功率"和"五轮中偶尔成功一次"是截然不同的用户体验。前者可能支撑一个"专家级第二意见"产品,后者只能做"探索性灵感生成器"。

Anthropic没有回避这个 nuance,反而在论文里主动披露。这种透明对行业是好事——它划清了"演示级能力"和"生产级可靠性"的边界。

下一步该关注什么

23道难题的"本质无解还是极难解"之问,短期内不会有答案。但几个方向已经清晰:

第一,一致性。如果五轮测试的方差能压下来,30%可以变成可预期的30%,产品形态会完全不同。

第二,工具链。Claude目前被允许自由调用生物信息学工具和数据库,但工具本身的可靠性、API稳定性、数据版本漂移,都是真实部署时的隐藏成本。

第三,人机协作界面。既然AI和人类在难题上各有盲区,如何设计工作流让两者互补,比追求"全面超越人类"更务实。

Anthropic把验证笔记本作为题目准入门槛的做法,也值得其他垂直领域借鉴。它建立了一种可审计的、社区可复现的质量控制机制,比"我们相信专家"更经得起推敲。

Claude在生物信息学上的这步棋,表面是秀肌肉,实际是投石问路。99道题测出的不只是模型能力,更是一套评测方法论的可行性。对于盯着科研自动化赛道的创业者和产品经理,这份基准的含金量在于:它证明了端到端、真实数据、客观验证的评测是可以落地的,也暴露了当前技术栈在可靠性上的真实水位。