*仅供医学专业人士阅读参考

打开网易新闻 查看精彩图片

以大模型为代表的生成式人工智能,拥有强大的知识编码、文本理解、推理能力,迅速成为数字化和智能化的新型技术基座,有望推动新一轮的医学人工智能革命,对科学和社会产生深远的影响。

现有医学大模型处于快速变革和更新迭代的关键时期,面对场景特异知识缺乏、生成内容安全性不足等挑战。医学大模型的前瞻性临床试验和真正落地,更是被誉为“皇冠上的明珠”,是领域内亟待攻克的关键挑战。因此,如何研发关键性技术破解落地难题,推动医学大模型领域的发展与应用,具有重要科学与社会意义。

打开网易新闻 查看精彩图片

2024年7月15日,中国医学科学院基础医学研究所龙尔平团队与耶鲁大学陈庆宇合作,在Nature Medicine上发表了题为Outpatient reception via collaboration between nurses and a large language model: a randomized controlled trial的研究论文

不同于主流的通用大模型,本研究将整体医疗场景拆分为特定的“小世界”,建立了全景数据采集-知识精炼-算法增强的“小世界增强”SSPEC技术框架,成功研发了兼具高专业度和共情支持的导诊大模型;通过预警低质量的生成内容和必要修正,解决了大模型的幻觉难题,成功推向临床试验,获得最高级别的循证医学支持证据

打开网易新闻 查看精彩图片

图1. SSPEC数据采集、设计、评估及验证的总流程

成立真实医学对话医疗联盟,建立战略级医学大模型数据资源池

为了采集原始的医患对话记录,本研究成立了“真实医学对话语料联盟”,建立语音采集-自动文字转化-人工校对的标准化流程;SSPEC大模型的构建,以2个中心10个场景全方位采集的35418例真实导诊对话为基础,以提取对话信息形成的知识库作为训练数据,在基座模型上进行微调和提示调优,使导诊大模型能够解决场景中出现的各种特定问题。

截止2024年6月,团队已在5个中心24个不同医学场景,收集整理了超过120万例真实医患对话。“真实医学对话语料联盟”展示了医患沟通中难预测、低效率等特点,也为应用级的大模型研发搭建了战略级的数据资源壁垒

研发知识对齐预警系统,直面解决大模型幻觉难题

大模型往往会一本正经地胡说八道,这类现象被称为“幻觉”,普遍存在且难以察觉/纠正。为确保模型的安全性、解决幻觉难题,研究团队以场景知识为基准,研发了知识对齐的多通道安全预警系统,运用增强检索、风险词库等多项技术,对生成内容进行评估和必要修正

打开网易新闻 查看精彩图片

图2. 知识对齐的多通道安全预警系统

前瞻性随机对照试验,获得最高级别的循证医学支持证据

医学大模型的前瞻性临床试验和真正落地,被誉为“皇冠上的明珠”,是领域内亟待攻克的战略级问题。本研究发现,SSPEC在内部测试中能够在更少的对话回合内解决患者的疑问,性能上全面优于现有主流大模型,同时在共情支持得分上显著优于人类导诊(4.12±0.86 vs 3.39±1.21, P < 0.001)。

基于此,团队率先将SSPEC推向临床,在2164人的前瞻性随机对照试验中,相对于人类专家,SSPEC在事实性、安全性、共情能力均展现出明显优势,在真实应用场景中,降低了11.2%的重复沟通和5.4%的医患冲突比例

打开网易新闻 查看精彩图片

图3. 内部测试中SSPEC与人类导诊的回复质量对比

作为医疗健康的新质生产力方案,应用前景广阔

提高全要素生产率,实现医疗健康行业的增速换挡,是现阶段社会发展的核心诉求之一。SSPEC技术不依赖特定的基座大模型,通过特定场景的垂直领域增强,取得了最高级别的循证医学支持性证据,将作为医学大模型的示范性落地应用,为推进卫生健康现代化提供新质生产力方案。研究团队表示,SSPEC技术不仅能够应用于导诊工作,未来能够拓展于患者健康教育、操作前谈话等更多的复杂临床场景。

龙尔平研究员(中国医学科学院)和陈庆宇助理教授(耶鲁大学)为本研究通讯作者。美国国立卫生研究院、武汉大学人民医院、南方科技大学盐田医院的合作者参与本研究,作出重要贡献。

参考文献:

[1]Wan, P., Huang, Z., Tang, W. et al. Outpatient reception via collaboration between nurses and a large language model: a randomized controlled trial. Nat Med (2024). https://doi.org/10.1038/s41591-024-03148-7

打开网易新闻 查看精彩图片