智能体上线8个月,覆盖了98%的常见泌尿系统疾病,服务30万患者,相当于再造一个仁济泌尿科……4月22日,上海交通大学医学院附属仁济医院(以下简称“仁济医院”)公布了和蚂蚁集团合作AI医疗的最新进展。
作为全国首个专科智能体,仁济医院泌尿外科智能体(以下简称“RJUA智能体”)于去年9月正式在支付宝AI健康管家平台上线,为用户提供诊前咨询、多轮问诊、多报告解读、肿瘤分期诊断及预约挂号等服务。
通俗来理解,现在市面上流行的通用大模型,就像是社区里的全科医生,它的知识面很广,能够应对一些常见病的诊断和治疗。而RJUA智能体就相当于三级医院里的泌尿外科医生,当患者明确有泌尿系统相关问题时,它能够给出最专业的诊疗意见。
一个有意思的数据是,在RJUA智能体所服务的30万患者中,仅有3000人转到了医疗挂号服务,这意味着,有将近99%的用户需求在RJUA智能体这一层得到了满足。
和通用大模型的“导流”属性截然相反,垂直医疗大模型似乎是真的在靠AI技术独立解决一部分精确导诊问题。
诊断准确率70%
远超DeepSeek,堪比专科医生
姚悦(化名)是RJUA智能体的真实受益者之一。
去年底,他的父亲在上海市某三甲医院做例行体检,体检结果提示有两项明显异常,分别是冠状动脉狭窄和前列腺特异性抗原过高。相比于前列腺的相关指标,有心梗风险的冠状动脉狭窄显然更容易引起姚悦的警惕。在医院的进一步检查后,他的父亲被确诊为冠心病,需要接受支架植入手术。
为了这个手术,全家忙前忙后,前列腺异常的事被他抛诸脑后。一直到今年春节后,父亲尿频得厉害,姚悦才开始在网上查找相关信息。
一圈搜索下来,他在支付宝AI健康管家的页面下找到了仁济医院“泌尿外科”智能体,并上传了父亲的体检报告。经过多轮的对话交流后,RJUA智能体给出了高危提示,“它给我的回复是,有两个抗原指标非常高,有前列腺癌的可能,让我们尽快去医院就诊。”通过智能体的跳转链接,姚悦还顺利挂到了仁济医院泌尿外科的专家号。一系列检查后,他的父亲被确诊为早期前列腺癌。
“它不能确诊,不能做手术,但这个提醒,相当于救了我父亲的命。”姚悦复盘道。
大模型虽然不是新鲜事物,但它在医疗上的应用尚处于早期阶段。目前向C端免费开放的医疗大模型应用,多数还停留在初级问答、搜集信息的健康咨询阶段。而RJUA智能体的不同之处在于,它是国内首个用疾病结构化数据训练,并在真实医疗场景运行的专科智能体,其在泌尿外科相关疾病上的独立诊断能力已在真实世界中获得验证。
仁济医院泌尿外科主治医生、RJUA智能体项目的主要参与者迟辰斐告诉《健闻咨询》,为了验证RJUA智能体在真实环境下的诊断能力,他们曾在内部设计了一项研究——50位仁济医院的实习医生(平均年龄21岁)、50位上海各个社区卫生服务中心的全科医生(平均年龄49岁)和50位来仁济进修的区县级三级医院的泌尿外科专科医生(平均年龄39岁)对1000名真实患者进行问诊,并和RJUA的诊断结果进行比对。
“最后的结果显示,RJUA诊断准确率为69.81%,略低于专科医生的73.65%,而实习医生和社区医生的诊断准确率都不到50%。”迟辰斐说,后来他们也拿市面上的其它医疗大模型来跑了一遍,包括DeepSeek,准确率都在40-50%之间,只相当于全科医生的水平。
70%和50%的数据差异,对于医生来说,体现的是教育背景、知识结构和行医经验的不同,但对于大模型这项通用的底层技术而言,最核心的区别在于语料和训练的质量。大多数医疗大模型的“养料”来自临床指南、科研文献及少量的真实诊疗数据,而RJUA的知识库则完全由仁济医院医生团队共同操刀。
最有说服力的证据就是RJUA-QA,这是仁济医院和蚂蚁集团共同发布的国内首个临床专科推理数据集,总共包含2132个问答对,对应25000多条诊疗依据和临床数据,涉及67个泌尿系统常见疾病,病种覆盖人群超过泌尿科就医人群的97.6%。
“在医生深度参与以后,专科大模型能够更加真实地模拟诊疗路径。”仁济医院泌尿科主任潘家骅表示,举个例子,一个通用的医疗大模型会告诉你前列腺癌有多少种治疗方法,可以吃什么药。但是一个泌尿专科的大模型,它能从病人描述的症状,比如尿频尿急、骨疼来判断,你有多大概率是得了前列腺癌,“这种方式更接近医生为患者提供医疗服务的真实场景。”
会做题到会看病
要给大模型找最好的老师
2023年3月,蚂蚁大模型技术团队第一次来到仁济医院泌尿科会议厅,商讨大模型在医疗场景中的落地可能。
蚂蚁集团仁济合作项目核心技术成员申月回忆说,双方讨论很久,最后把焦点投向了如何将仁济泌尿外科专家的诊疗水平封装进大模型里,交付给基层的医疗机构使用。
仁济医院泌尿科和蚂蚁集团迅速立项,医院成立了7个人的项目组,蚂蚁则有了一只10人的小组。
“医院拥抱AI的决心很大,也知道这会是一个挑战极大的事情。”申月告诉《健闻咨询》,技术人的本能反应是大模型学好医学指南、权威期刊研究论文等,再用真实病例数据训练,但交流发现,顶尖医生看病靠的不止是这些,也会基于临床经验形成决策判断,每位医生还都有差异。
如果想要让大模型像专家一样看病,就必须把这些经验和能力提炼出来,让模型去学习,而不是仅仅依赖于规模化“投喂”资料。
为了实现这一目标,蚂蚁集团的工程师们确立了两条路径,第一步是从近5年泌尿专科的相关文献入手,搭建一个相对简单的模型底座。第二步,通过仁济医院庞大的病例库,构建出一个代表泌尿专科诊疗水平的专科数据库,来对模型进行训练。显然,难的是第二步,如何把医生的主观经验变成模型能够理解的语料,并无先例可借鉴。
在仁济医生团队和蚂蚁技术专家的碰撞下,一个奇妙的构想浮出水面——虚拟化问答。他们翻出了2019到2023年五年间仁济医院的所有病例资料,涵盖门诊诊疗、急诊抢救、住院手术和操作及日常科普等多种形式,并在此基础上模拟设计出各种各样的虚拟患者,让医生对他们进行问诊,再将问答过程投喂给模型。
仁济医院的医生为此投入了巨大的精力。迟辰斐回忆说,光是构建专业语料库,前后就耗时数月。以前列腺增生这一个病种为例,就需要参考上万条病例信息,把可能涉及的症状,影像资料、化验指标全都编出来,再在模型给出的诊断结果上进行标注,“这件事没法偷懒,因为AI的巅峰就是训练者的水平,这是提升模型能力的关键。”
与此同时,蚂蚁团队的工程师们也在不断加深对医学知识的理解。申月坦言,在项目启动的头几个月里,他们有80%以上的时间都花在学习泌尿相关专业知识上,甚至会穿着白大褂和医生一块出门诊,小伙伴在办公室里聊的最多的也不是AI,而是诸如PSA值之类的临床术语,“只有这样,我们才能更好地理解医生端的诉求。我现在可以很自信地说,你给我任何一个泌尿科的症状,我能马上告诉你,往下要怎么做追问。”
几个细节可以佐证双方融合的深度。从2023年5月立项到2024年产品上线,双方累计开了不止40次周会,小会的频次更高,差不多是一周两次。作为仁济医院的一线代表,迟辰斐说,“遇到问题就拉线上会讨论,每次去蚂蚁,就像是去上班一样”,在他的办公室里还留着蚂蚁集团60多张访客证。而算法专家申月则利用业余时间,开始了在职医学博士课程的研读,今年已是二年级。
在这种深度绑定的合作形态中,突破性成果也逐一到来。2023年12月,首个基于中文语料的专科问答数据集RJUA-QA发布;2024年4月,基于医疗真实场景的场景AI专科测评体系——RJUA测评体系面世;2024年9月,国内首个由医生深度参与开发的专科智能体——RJUA智能体在支付宝AI健康管家上线。
“我认为,专科智能体是所有医疗智能体中最有价值的。因为它要做得足够深,深了以后就能切实解决医疗上的一些问题。在专科智能体的基础上,再去演化做医生个人的智能体,这也是从当医学生到当医生的爬坡过程。”迟辰斐表示。
随着AI在医学能力上逐步精进,蚂蚁技术团队还会同步研究未来人机协同模式,即大模型产品如何在临床上和医生搭档,帮助医生、解放医生,让有AI的治疗旅程真正走入医疗本质——“偶尔治愈、常常帮助、总是安慰”。
而在申月看来,医学和人工智能的结合尚处于萌芽阶段,未来能进化到什么程度谁也无法预测,但她也总是记得第一次拜访仁济医院时,老教授黄翼然分享自己在陕西农村义诊的经历,她痛心那些基层患者因为得不到及时和专业的救治最终走向生命的终点,而人工智能是最有机会改变这些人境遇的工具。
这或许是“医疗智能体”们最有价值的部分。就像蚂蚁集团医疗大模型算法负责人王剑说的那样,“推动医疗大模型进医院最大价值是向下扎根,通过‘封装’三甲医院的诊疗能力,广泛服务基层医疗机构,使有限医疗资源以技术的方式得到扩容。”
热门跟贴