打开网易新闻 查看精彩图片

题图 | Pixabay

撰文 | 王聪

2026年1月,OpenAI发布的报告显示,在全球范围内,有超过5%的与ChatGPT的对话与医疗保健相关,每天有超过4000万人向ChatGPT咨询医疗保健方面的问题。

同月,OpenAI推出了其首款AI医疗产品:ChatGPT Health,这是一款面向消费者用户的健康服务产品,旨在帮助用户理解医疗信息,并为与人类临床医生的会面做好准备。

那么,ChatGPT Health的实际表现如何呢?

2026年2月23日,西奈山伊坎医学院的研究人员在"Nature Medicine"期刊上发表了一篇题为" ChatGPT Health performance in a structured test of triage recommendations "的研究论文。

这项研究评测了ChatGPT Health在分诊建议方面的表现,结果显示,其存在漏判高危急症以及危机干预触发不一致的问题,这引发了对其安全性的担忧。例如,对于“糖尿病酮症酸中毒”和“即将发生的呼吸衰竭”这类危及生命的状况,其建议患者在“24-48小时后再评估”,而不是立即前往急诊科。

打开网易新闻 查看精彩图片

图:论文截图

在这项研究中,研究团队使用临床医生撰写的涵盖21个临床领域的60个病例情景,在16种不同条件下,对ChatGPT Health的分诊建议进行了结构化压力测试。

结果显示,ChatGPT Health的测试总体表现呈“倒U型”分布,其在处理中等紧急程度的病例时表现尚可,最危险的失误集中在两个临床极端——非紧急临床表现(失误率35%)和紧急状况(失误率48%)。

在明确需要急诊的“金标准”病例中,ChatGPT Health错误地将52%的病例判断为不需要立即急诊。例如:对于“糖尿病酮症酸中毒”和“即将发生的呼吸衰竭”这类危及生命的状况,其建议患者在“24-48小时后再评估”,而不是立即前往急诊科。

研究还显示,ChatGPT Health易受他人意见影响,也就是存在锚定偏见,当病例描述中提到家人或朋友低估了症状,其给出的分诊建议会显著地向“降低紧急程度”偏移。这种影响在边缘案例中尤为明显。

对于有Suicide倾向的患者,ChatGPT Health的危机干预的触发情况难以预测,在患者未描述具体Suicide方法时,危机干预触发频率反而高于描述具体方法时。

总的来说,这项研究结果揭示了人工智能分诊系统存在漏判高危急症以及危机干预触发不一致的问题,这引发了对其安全性的担忧。

参考文献:

https://doi.org/10.1038/s41591-026-04297-7

助力医学研究高质量发展,推动医疗科技创新转化!

研究设计|课题申报|数据挖掘|统计分析

生信分析|选题指导|写作指导|评审指导

选刊投稿指导|研究项目指导|定制化培训

定制化研究设计|真实世界研究(RWS)实施

致力于生命科学和医学领域最前沿、最有趣的科研进展。

医诺维,一站式科研平台,助力医学科研成功转化

转载、进群、宣传成果、课题组招聘、合作推广等,请添加小编,注明来意。

(请注明来意)