撰文丨王聪

编辑丨王多鱼

排版丨水成文

肺癌是全球最具侵袭性和普遍性的癌症之一,2020 年预估新增病例达 220 万例,死亡病例达 180 万例。多数肺癌病例在进展至晚期前无明显症状,而晚期治疗选择往往有限,导致五年生存率低于 10%。

大语言模型(LLM)在临床应用中的探索日益增多,但其生成肺癌筛查管理建议的能力仍不确定。

2025 年 11 月 21 日,复旦大学中山医院谭黎杰教授团队等在 Cell 子刊Cell Reports Medicine上发表了题为:Multi-center benchmarking of large language models for clinical decision support in lung cancer screening 的研究论文。

该研究进行了多中心基准测试,评估了六款大语言模型(LLM)在肺癌筛查临床决策支持中的应用,结果显示,Claude 3 Opus生成的建议可读性最高,而GPT-4的临床准确性最高。此外,GPT-4oDeepSeek-R1,表现与 GPT-4 相当,均优于 GPT-3.5。这些发现表明,大语言模型有可能在不同医疗环境中增强肺癌筛查的临床决策支持。

打开网易新闻 查看精彩图片

自美国国家肺癌筛查试验证明年度低剂量计算机断层扫描(LDCT)筛查可显著降低肺癌死亡率后,LDCT 已成为改善预后和生存率的关键策略,尤其对肺癌高危人群而言。LDCT 扫描过程中有时会偶然发现被称为肺结节的小团块(<3厘米)。发现结节后需立即决策:是采取正电子发射断层扫描-CT、活检甚至手术等即时干预措施,还是仅需制定不同间隔期的常规随访方案。此类决策通常由门诊医生完成,因此可能受益于专业的临床决策支持系统。

大语言模型(LLM)是基于数十亿来自文章、书籍和其他互联网内容的单词训练而成的人工智能系统。在过去两年中,越来越多的研究探索了 LLM 在支持诊断和治疗决策方面的巨大潜力。在肺癌领域,LLM 已被用于回答非专业人士的肺癌相关问题、对自由文本 CT 报告进行数据挖掘以及评估肺结节患者的纵向 CT 图像。最近有两项研究评估了开源大语言模型DeepSeek-R1在临床决策中的表现,结果表明,其与 OpenAI 的GPT-4o等领先的专有大语言模型不相上下。然而,这些研究仅限于从医学教科书和学术期刊中获取的病例报告,因此在实际临床应用方面存在不足。

在这项最新研究中,研究团队开展了一项多中心的横断面研究,旨在评估大语言模型(LLM)是否适合作为决策支持工具,为首次低剂量计算机断层扫描(LDCT)中偶然发现肺结节的患者提供常规癌症筛查的管理建议,而这是肺癌筛查临床管理中的一个紧迫挑战。

为了尽可能真实地模拟癌症筛查场景,研究团队从三家不同的医疗机构收集了 LDCT 报告。将这些报告翻译成英文并去除所有患者可识别信息后,准备了 148 份匿名的 LDCT 报告以供大语言模型(LLM)使。在评估阶段,研究团队系统地评估了四种广泛使用的 LLM——GPT-3.5GPT-4Claude 3 SonnetClaude 3 Opus——在这些医院中的可读性、准确性以及一致性。为了与该领域的最新进展保持一致,研究团队还使用一家医院的 LDCT 报告对两种最先进(SOAT)模型——专有的GPT-4o及开源的DeepSeek-R1进行了探索性分析。

评估结果显示,Claude 3 Opus生成的建议可读性最高,而GPT-4达到了最高的临床准确性。重要的是,这些大语言模型对来自不同医院的报告之间的性能差异并不显著,这突显了这些大语言模型对报告模板变化的稳健性以及在不同医疗环境中的实用性。在探索性分析中,两款最先进(SOAT)模型——专有的GPT-4o及开源的DeepSeek-R1,表现与 GPT-4 相当,均优于 GPT-3.5。

该研究的亮点:

  • 多中心横断面研究对六种大语言模型(LLM)在肺癌筛查中的表现进行基准测试;

  • 真实世界的低剂量计算机断层扫描(LDCT)报告评估了 LLM 在管理建议方面的表现;

  • GPT-4 准确度最高,而 Claude 3 Opus 的可读性最佳;

  • GPT-4o 和 DeepSeek-R1 的表现与 GPT-4 相当,并且优于 GPT-3.5。

打开网易新闻 查看精彩图片

总的来说,这些发现表明,大语言模型(LLM)有可能在不同医疗环境中增强肺癌筛查的临床决策支持。

论文链接

https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00538-5

打开网易新闻 查看精彩图片