在医疗领域,大型语言模型(LLM)具有广阔的应用潜力。然而,目前类似ChatGPT这样的语言模型在回答患者描述症状时,仍然缺乏精确的专业解读,与医生差距较大。其中很大一部分原因在于训练大模型的数据仍有局限性。

针对这一痛点,香港中文大学(深圳)和深圳市大数据研究院王本友教授团队利用指令微调和强化学习的方法,在ChatGPT和医生的回复中找到结合点,训练并开源了一个新的医疗大模型 华佗GPT(HuatuoGPT)。通过从ChatGPT中提取的“蒸馏数据”,并结合真实世界医生回复的数据,从而试图训练出具备像医生一样诊断能力的大型语言模型。

打开网易新闻 查看精彩图片

只提取大模型中的特定数据,这在专业上被称为“数据蒸馏”。“这种方法既保留真实医疗数据的专业性和准确性,又借助ChatGPT的多样性和内容丰富性的特点,结合两者的混合反馈进行优化,可以与用户保持流畅的交互。”研究团队表示。

另据介绍,在多轮问诊场景中,团队成员收集了涵盖20个科室的100个多轮对话进行评估。结果显示,华佗GPT在处理更加复杂的多轮问诊场景中的表现优异,在某些性能方面甚至超过GPT3.5。

第一财经记者尝试使用华佗GPT,在问诊中输入:糖尿病的症状有哪些?华佗GPT的回答比较全面;记者又反过来输入糖尿病的某些症状,问是什么疾病?但华佗GPT的回答较为宽泛,答:可能是由多种原因造成的。

“这至少能说明,这个大模型已经拥有了部分疾病谱的语料,例如糖尿病。”一位专注于医疗大模型开发的研究人员对第一财经记者分析称。

他同时指出,医疗领域的数据相对来说较为稀缺,主要由医院掌握,技术公司要获得医疗数据“门槛很高”。“如果把大模型看作是人,语料就是面包,数据就是面粉。”他说道,“语料越丰富,模型也就越强大。”

针对医疗语料缺乏的问题,业内已经开始寻求解决方案。近日,在天桥脑科学研究院(TCCI)主办的一场“面向AI模型的数据生成方法及其对医疗领域的启示”论坛上,研究人员探讨了被称为“自对话”和“自蒸馏”的训练,可以快速构建专属的大模型。

美国加州大学圣迭戈分校博士生许灿文和中山大学团队的合作者提出一种能自动生成高质量多轮聊天语料库的流程,他们利用ChatGPT与其自身进行对话,生成对话数据,再基于产生的对话数据调优,增强开源的大型语言模型LLaMA,获得了高质量的医疗专属模型“白泽”。

许灿文向第一财经记者介绍道,“白泽”在这个过程中并没有学会新的知识,只提取了大模型中的特定数据,并且保留了ChatGPT分点作答的语言能力。通过自动化的“数据蒸馏”,在特定领域能够达到ChatGPT的能力,但成本却远远低于ChatGPT,兼具经济意义和实用意义。尤其是在医疗领域,本地化或私有化建构的模型有助于消除隐私顾虑,辅助患者诊疗。

美国莱斯大学博士生唐瑞祥与合作者提出另一种新策略,即利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练。实验结果显示,相较于直接利用大型模型执行下游任务,这一新策略能够取得更出色的效果。同时由于模型数据在本地,这也大幅降低了潜在的隐私风险。

展望未来,业内普遍认为,医疗大模型一方面是要具备广泛的适应性和泛化能力;另一方面是需要从特定任务出发,进一步精细化地处理。

上海交大博士生曹瑞升在TCCI论坛上表示:“在医疗领域,大模型应该能够做到可以针对特定类型的疾病,例如抑郁症进行专业化的任务处理,并提供更加精准和个性化的解决方案。而最终,数据生成和模型训练的过程将从分离走向融合。”