2025年1月8日,由北京邮电大学王光宇教授、北京大学第三医院宋纯理教授、宜昌市中心人民医院杨简教授组成的信息医学交叉团队在Nature Medicine发表了题为A generalist medical language model for disease diagnosis assistance(医学通才语言模型,助力疾病辅助诊断) 的研究文章,在领域内大语言模型的发展取得重要进展。
王光宇教授团队提出了具备目前最大规模的生物医学大语言模型 MedFound(176B) ,通过大模型后训练技术如思维链微调和直接偏好优化,突破了多学科知识整合能力和临床诊断思维能力,并实现通用诊断能力,显著提升了模型的推理能力与临床适用性。研究显示,团队提出的MedFound在多个维度上超越了现有模型,包括所有常见科室疾病、开放环境下的长尾分布疾病 (罕见疾病) 及推理能力等。并开展了一系列的Ablation study,评审专家认为提供了“provide valuable insights into the development of clinical LLMs”。主要创新如下:
一、构建最大规模的通用开源医学大型语言模型
团队开发了MedFound,是一个具有1760亿个参数的通用开源医学大型语言模型,能够全面理解全学科医学知识,旨在为医疗领域提供全方位的知识支持和智能化诊疗能力。该模型在海量医学数据上进行预训练。这些数据包含了医学文献、书籍和真实电子病历记录,涵盖了医疗诊断所需要的各学科知识,确保了模型获得全面的通用医学知识,适用于多个学科的诊断。王光宇教授团队已将MedFound开源,可为全球科研人员、临床医生、以及医疗机构提供技术支持,助力医学研究的深入发展,预计将为未来的医疗智能化、个性化医疗和临床决策提供有力的支持。
二、结合大模型后训练技术,开发多学科通才诊断模型
目前诊断是医疗保健中适当、及时治疗的基础,对患者健康和疗效至关重要。尽管传统的机器学习辅助诊疗方法在提升诊断精度方面取得了一定成果,但由于它依赖结构化数据并且只能在特定领域内进行训练,在应用上还是存在明显的局限性。而如今,随着大语言模型 (LLM) 技术的发展,尤其凭借强大的知识整合、文本理解和推理能力,正在成为数字化与智能化领域的核心技术,为医学人工智能的变革提供了重要契机。然而,疾病诊断除了需要大模型具有全面的多学科医学知识,还需要具有复杂推理能力。对此,团队基于MedFound,通过两阶段后训练进一步打造了医学通才诊断大语言模型MedFound-DX。
(1)思维链微调,让模型具备诊断逻辑
为了解决大语言模型在诊断任务上缺乏推理能力的问题,王光宇教授团队通过引入思维链 (Chain of Thought, CoT) 微调让MedFound学会临床医生的诊断思维。CoT提示是一种提升模型推理能力的提示工程方法。在推理阶段,它通过给大语言模型鼓励分步推理的提示,例如“让我们多思考几步”,引导模型先生成一系列的中间推理步骤,再生成最终答案。许多研究发现,这样的提示方法有助于提升大语言模型在推理任务上的表现,包括增强数学和代码生成任务。然而,医疗诊断推理是复杂的,没有经过临床诊断思维训练的模型难以通过CoT提示来显著提升性能。
而通过CoT微调,可以利用大量包含推理过程的数据来训练模型,使模型学习生成推理步骤。为了进一步解决CoT微调数据标注成本高、难以大规模获取的问题,团队借鉴STaR【1】研究的思路:利用 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程 (Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理。
具体地,团队通过少量医生标注的推理数据来迭代生成新的数据,从而实现改进CoT微调效果。流程有以下几个步骤。(1)初始化和扩展:医生在少量病历数据上标注诊断推理过程,构建种子数据集。模型微调后,在更多病历数据上生成诊断推理过程,得到候选数据。(2)过滤:对生成结果进行筛选,保留正确诊断的推理过程,或在修正诊断后重新生成推理过程,形成新的微调数据集。(3)微调:在扩展后的数据集上进一步微调模型,提升模型的诊断推理能力。
(2)统一的偏好对齐(Preference Alignment)框架,对齐真实世界临床需求
为了进一步优化 MedFound 模型的诊断能力,团队还引入了统一的偏好对齐(Preference Alignment)框架,通过将LLM与专业领域的层次化诊断知识和医生诊断偏好对齐,以进一步优化模型的细粒度诊断能力,确保模型不仅能做出合理的诊断决策,还能与实际临床实践中的专家决策逻辑相一致。
该框架采用直接偏好优化算法 (Direct Preference Optimization,DPO) 来优化模型对齐偏好。DPO是一种最小化分类损失来对齐模型与偏好的优化方法,和传统强化学习相比,它更加稳定、高效,且无需拟合奖励函数。在该框架中,团队设计了两种偏好的统一学习框架:诊断层次偏好和有用性偏好。其中,诊断层次偏好利用ICD编码的疾病分类层次结构来对齐模型的诊断结果,能够引导模型提升细粒度诊断准确性;有用性偏好利用专家注释的有帮助性数据,训练一个评分模型来引导模型偏好对齐,提高模型生成推理过程的信息量、有效性和可信性,同时降低伤害或误导信息的风险。
三、多学科交叉合作,建立“真实世界”的LLM评估框架
为评估LLM在医学诊断中的能力,团队开展了全面的评估及验证,包括(1)基准评估,包括在多学科的所有常见病及罕见病上的评估;(2)临床“真实世界”评估,包括:模型与医生的PK;专家对模型诊断推理的评估框架。
首先在基准评估上,研究发现基于MedFound的通才诊断模型在各个专业,包括常见所有疾病和罕见疾病上都表现出了卓越的性能,超过了Llama 3-70B、MEDITRON-70B,、Clinical Camel-70B等开源LLM和GPT-4o闭源LLM,达到了当前最优模型效果 (SOTA) 。同时相比较于既有的判别式模型,该模型具有更细粒度的疾病诊断能力,尤其是少样本及零样本的能力突破,展现出其在多学科上进行准确推理的潜力,为解决医疗诊断的“最后一公里”困境带来了新的解决思路。
为评估模型在医学诊断中的能力,联合北京大学第三医院宋纯理教授团队建立了人类评估框架——CLEVER (临床有效推理评估) ,利用八个指标评估当前LLM在现实医学场景中的可行性和局限性。该框架包括病历的理解能力、是否具有医学指南和共识知识、临床推理能力、鉴别诊断能力、诊断的可接受性、内容不实性、偏见、有害性。研究发现在统一的专家偏好对齐后的模型表现出更高的评分,说明了模型在临床中的高度可用性,并且可以通过与人类专家的价值进一步优化。结果表明该医学诊断大语言模型,具备多学科知识,是“诊断通才”,可以为跨专业的疾病提供诊断依据和诊断来辅助支持多学科诊断。同时具备在临床工作流程中帮助医生的潜力。
北京邮电大学王光宇教授、北京大学第三医院宋纯理教授以及宜昌市中心人民医院杨简教授为该论文的共同通讯作者。北京邮电大学刘晓鸿博士、杨国兴博士、蒋泽宇博士,北医三院刘昊博士为本文的共同第一作者。香港中文大学 (深圳) 崔曙光院士提供了算力平台支持。参与研究的人员有北医三院内分泌科洪天配、杨进、刘爱华、王琛、付伟、路然、杨琨、郎杉、刘珺玲、张瀶曦,北医三院呼吸科孙永昌、宋祝、程秦、刘贝贝、李鑫、乔一娴、任佳琦、曹思愚、孙翠宏、吴萌等医师支持参与。
https://www.nature.com/articles/s41591-024-03416-6
制版人:十一
参考文献
1. STaR: Bootstrapping Reasoning With Reasoning https://arxiv.org/abs/2203.14465
BioART战略合作伙伴
(*排名不分先后)
BioART友情合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
会议资讯
近期直播推荐
热门跟贴