医生做诊断时,脑子里要过多少道推理关?最近《Science》发表的一项研究,专门测试了大语言模型在这类任务上的表现。

研究团队设计了一套模拟临床推理的评估体系,让AI像医生一样分析症状、推导病因。结果显示,部分模型在基础逻辑环节已能接近人类水平,但在需要整合模糊信息、权衡多种可能性的复杂判断中,差距依然明显。

这并不意味着AI即将取代医生,而是说明"辅助诊断"这个定位仍有明确边界——它能加速信息整理,但关键决策仍需要人类把关。技术进步的兴奋感,恰恰来自看清它能做什么、还不能做什么。