Nat Med｜龙尔平/陈庆宇团队合作研发“小世界增强”落地级医学大模型SSPEC并推向临床试验|sspec|临床试验|医学大模型|小世界|循证|科学|陈庆宇|龙尔平

*仅供医学专业人士阅读参考

以大模型为代表的生成式人工智能，拥有强大的知识编码、文本理解、推理能力，迅速成为数字化和智能化的新型技术基座，有望推动新一轮的医学人工智能革命，对科学和社会产生深远的影响。

现有医学大模型处于快速变革和更新迭代的关键时期，面对场景特异知识缺乏、生成内容安全性不足等挑战。医学大模型的前瞻性临床试验和真正落地，更是被誉为“皇冠上的明珠”，是领域内亟待攻克的关键挑战。因此，如何研发关键性技术破解落地难题，推动医学大模型领域的发展与应用，具有重要科学与社会意义。

2024年7月15日，中国医学科学院基础医学研究所龙尔平团队与耶鲁大学陈庆宇合作，在Nature Medicine上发表了题为Outpatient reception via collaboration between nurses and a large language model: a randomized controlled trial的研究论文。

不同于主流的通用大模型，本研究将整体医疗场景拆分为特定的“小世界”，建立了全景数据采集-知识精炼-算法增强的“小世界增强”SSPEC技术框架，成功研发了兼具高专业度和共情支持的导诊大模型；通过预警低质量的生成内容和必要修正，解决了大模型的幻觉难题，成功推向临床试验，获得最高级别的循证医学支持证据。

图1. SSPEC数据采集、设计、评估及验证的总流程

成立真实医学对话医疗联盟，建立战略级医学大模型数据资源池

为了采集原始的医患对话记录，本研究成立了“真实医学对话语料联盟”，建立语音采集-自动文字转化-人工校对的标准化流程；SSPEC大模型的构建，以2个中心10个场景全方位采集的35418例真实导诊对话为基础，以提取对话信息形成的知识库作为训练数据，在基座模型上进行微调和提示调优，使导诊大模型能够解决场景中出现的各种特定问题。

截止2024年6月，团队已在5个中心24个不同医学场景，收集整理了超过120万例真实医患对话。“真实医学对话语料联盟”展示了医患沟通中难预测、低效率等特点，也为应用级的大模型研发搭建了战略级的数据资源壁垒。

研发知识对齐预警系统，直面解决大模型幻觉难题

大模型往往会一本正经地胡说八道，这类现象被称为“幻觉”，普遍存在且难以察觉/纠正。为确保模型的安全性、解决幻觉难题，研究团队以场景知识为基准，研发了知识对齐的多通道安全预警系统，运用增强检索、风险词库等多项技术，对生成内容进行评估和必要修正。

图2. 知识对齐的多通道安全预警系统

前瞻性随机对照试验，获得最高级别的循证医学支持证据

医学大模型的前瞻性临床试验和真正落地，被誉为“皇冠上的明珠”，是领域内亟待攻克的战略级问题。本研究发现，SSPEC在内部测试中能够在更少的对话回合内解决患者的疑问，性能上全面优于现有主流大模型，同时在共情支持得分上显著优于人类导诊（4.12±0.86 vs 3.39±1.21, P < 0.001）。

基于此，团队率先将SSPEC推向临床，在2164人的前瞻性随机对照试验中，相对于人类专家，SSPEC在事实性、安全性、共情能力均展现出明显优势，在真实应用场景中，降低了11.2%的重复沟通和5.4%的医患冲突比例。

图3. 内部测试中SSPEC与人类导诊的回复质量对比

作为医疗健康的新质生产力方案，应用前景广阔

提高全要素生产率，实现医疗健康行业的增速换挡，是现阶段社会发展的核心诉求之一。SSPEC技术不依赖特定的基座大模型，通过特定场景的垂直领域增强，取得了最高级别的循证医学支持性证据，将作为医学大模型的示范性落地应用，为推进卫生健康现代化提供新质生产力方案。研究团队表示，SSPEC技术不仅能够应用于导诊工作，未来能够拓展于患者健康教育、操作前谈话等更多的复杂临床场景。

龙尔平研究员（中国医学科学院）和陈庆宇助理教授（耶鲁大学）为本研究通讯作者。美国国立卫生研究院、武汉大学人民医院、南方科技大学盐田医院的合作者参与本研究，作出重要贡献。

参考文献：

[1]Wan, P., Huang, Z., Tang, W. et al. Outpatient reception via collaboration between nurses and a large language model: a randomized controlled trial. Nat Med (2024). https://doi.org/10.1038/s41591-024-03148-7