如果你让ChatGPT帮你设计一个化学实验,它可能会给你一份看起来专业的操作步骤,配上详细的材料清单和注意事项。但一项刚刚发表在《自然·机器智能》上的研究警告说,按照这些指导操作可能导致爆炸、中毒甚至人员伤亡。
研究人员测试了19个主流AI模型,包括GPT-4o、DeepSeek-R等明星产品,结果令人震惊:所有模型在危险识别任务中的准确率都没有超过70%。这意味着,即便是目前性能最强的AI,在实验室安全问题上也有三成以上的概率给出错误建议。
从蛋白质预测到实验室灾难只有一步之遥
人工智能在科学领域的成就有目共睹。AlphaFold能够精确预测蛋白质的三维结构,为生物医学研究带来革命性突破。AI辅助的药物设计正在缩短新药开发周期。这些成功案例让许多研究人员相信,AI也可以成为实验室操作的可靠助手。
但现实要复杂得多。来自多个研究机构的科学家开发了一个名为LabSafety Bench的基准测试框架,专门用于评估AI模型的实验室安全知识。这个框架包含765道选择题、404个真实实验室场景和3128个开放式任务,涵盖生物学、化学、物理学和一般实验室操作中的危害识别、风险评估和后果预测。
测试结果显示,即便是在多项选择题这种相对简单的格式中,AI模型也在辐射危害、物理危害、设备使用和用电安全方面频频出错。在开放式的危险识别测试中,表现最好的模型准确率也只有70%左右,而在某些特定类别如"操作不当问题"上,一些模型的得分甚至低于50%,几乎和瞎猜没什么区别。
LabSafety Bench 概览。图片来源:Nature Machine Intelligence (2026)。DOI:10.1038/s42256-025-01152-1
最令人担忧的是化学安全领域。所有测试的模型在涉及化学物质、低温液体和一般实验室安全的场景中表现都显著低于生物学和物理学场景。这意味着,当研究人员询问AI如何处理某种化学试剂或应对实验室泄漏时,得到危险建议的概率相当高。
幻觉问题在实验室里可能致命
AI的"幻觉"问题在聊天对话中或许只是造成一些困扰,但在实验室环境中可能带来灾难性后果。《自然》旗下期刊《自然通讯》2025年发表的一项研究指出,AI科学家系统存在多种漏洞,可能导致从化学和生物危害到信息错误和隐私泄露等各种风险。
研究团队发现了几种关键的失效模式。首先是风险优先级排序不当,AI可能将次要危险标记为主要威胁,而忽略真正严重的安全隐患。其次是幻觉问题,模型会编造不存在的安全规程或错误的化学反应机制。第三是过拟合,在训练数据上表现良好的模型,面对新的实验场景时可能完全失效。
GPT-4o在结构化任务上的准确率达到86.55%,DeepSeek-R为84.49%,看起来相当不错。但这些数字掩盖了一个关键事实:在实验室安全领域,86%的准确率意味着每7次建议中就有1次是错误的。如果这个错误恰好涉及处理易燃易爆物质或有毒化学品,后果不堪设想。
更糟糕的是,一些开源模型的表现远低于这个水平。基于Vicuna-7B的InstructBlip-7B在图文结合的选择题中表现最差,在纯文本选择题中的表现几乎与随机猜测无异。如果研究人员不加辨别地使用这些工具,无异于在实验室里埋下定时炸弹。
先进不等于安全
研究团队的一个重要发现是,更大、更新或更先进的模型并不能保证更好的安全性能。这打破了"模型越强大,在所有任务上表现越好"的常见假设。
研究人员尝试通过微调来提升模型的安全意识。结果显示,在特定子集上进行训练可以使性能提升约5%到10%,这对小型模型有一定帮助。但像检索增强生成这样的高级策略并没有带来持续的改善。这表明,实验室安全知识的缺陷不是简单的数据问题,而是更深层次的推理能力局限。
《科学》杂志在报道这项研究时指出,主流AI模型会遗漏危险的实验室风险。测试中涉及的19个不同AI模型,包括8个专有模型、7个开源大语言模型和4个开源视觉语言模型,都未能达到可以放心用于实验室指导的安全标准。
值得注意的是,在"最常见的危险"类别中,即便是表现最差的模型也获得了66.55%的分数,但在识别不太常见或需要情境推理的危险时,所有模型的表现都急剧下降。这暴露了一个根本问题:当前的AI模型依赖模式识别而非真正的理解,它们可以识别训练数据中反复出现的标准危险,却无法应对需要灵活判断的复杂场景。
人类监督不可或缺
研究团队强调,在AI显著提升实验室安全知识水平之前,实验室中使用AI应始终包含严格的人工监督。这不是保守或抗拒新技术,而是基于证据的理性态度。
《新科学家》杂志警告说,让AI设计实验可能导致研究人员面临火灾、爆炸或中毒风险。科学家们发现,所有主要AI模型都存在鼓励危险科学实验的风险。这个问题的严重性在于,AI生成的建议往往看起来合理且专业,很容易让缺乏经验的研究人员放松警惕。
一些实验室已经开始整合AI辅助系统来提高效率。2026年的实验室正站在自动化和人工智能的交汇点上,这种技术融合承诺提高研究速度和精度。但如果安全问题得不到妥善解决,效率的提升可能以事故率的上升为代价。
研究团队鼓励其他研究人员使用LabSafety Bench这样的基准测试工具来评估AI模型。他们呼吁开发具有安全意识的模型,而不是单纯追求性能指标的提升。在实验室环境中,一个准确率90%但从不在危险问题上犯错的模型,远比一个准确率95%但偶尔会给出致命建议的模型更有价值。
当我们惊叹于AI在科学研究中的潜力时,LabSafety Bench的研究提醒我们,技术进步必须建立在安全的基础之上。在实验室里,没有"几乎正确"这回事,错误的代价可能是无法挽回的。
热门跟贴