始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区,始终坚持“中立、开放、共建、共创、合作”五项基本原则,欢迎加入共同成长。
大语言模型(LLM)在医疗健康领域展现出巨大的应用潜力,从辅助复杂诊断到个性化患者护理,这些强大的工具正在逐步改变医疗实践的面貌。然而,将这些工具安全有效地整合到临床实践中,完全取决于我们对其真实能力的严格评估能力。随着通用知识与专家级临床推理之间差距的扩大,开发复杂、基于临床的基准测试不仅是学术进步的问题,更是构建可信医疗人工智能的前提条件。
项目地址
https://wisemodel.cn/datasets/FreedomIntelligence/LiveClin
当前医疗大语言模型的评估领域存在两个关键局限性。首先是数据污染问题:静态基准测试如MedQA等不仅容易受到数据污染的影响,还面临知识过时的风险。随着模型在日益扩大的网络规模语料库上进行训练,流行静态基准测试的问题和答案不可避免地被吸收到其训练集中。这种广泛的污染意味着模型越来越多地在已经见过的数据上进行测试,导致性能分数虚高,这严重威胁了评估的完整性。
其次是评估设计的局限性:现有的单轮评估与患者护理的纵向性质不一致。通过在孤立的、合成的快照中评估推理能力,即使是先进的系统如MedXpertQA和AgentClinic也将患者管理简化为一系列不连贯的任务。这种方法无法评估导航患者整个临床路径所需的综合推理能力,从初始呈现到长期管理。
图1. LiveClin 模拟真实患者全临床路径的动态推理示例
为了量化数据污染和知识过时的双重影响,研究团队进行了一项纵向试点研究。结果显示,模型在较旧的、可能被污染的数据上的表现与在新的、当代数据上的表现之间存在显著差距。以GPT-5为例,在其知识截止日期内的数据上得分高达45.0%,但在截止日期后发布的案例上下降了近10个百分点。这种模式在各个模型中一致存在,量化了数据污染的扭曲效应和知识过时的影响。
01
LiveClin基准测试概述
为解决上述挑战,研究团队引入了LiveClin——一个旨在近似真实世界临床实践的实时基准测试。该基准测试从当代、同行评审的病例报告中构建,每半年更新一次,确保临床时效性并抵抗数据污染。研究团队使用经过验证的AI-人类工作流程(涉及239名医生),将真实患者病例转化为复杂的多模态评估场景,覆盖整个临床路径。基准测试目前包含1,407个病例报告和6,605个问题。
LiveClin的核心创新在于其动态性和临床真实性。与静态基准测试不同,LiveClin通过持续更新的机制确保评估内容始终反映最新的医学知识和临床实践。每个病例都被转化为多阶段考试,评估模型是否能够顺序整合反映患者病情演变的多模态信息。这种设计模拟了从初始评估到长期管理的完整临床路径,在每个关键决策点逐步引入新的临床信息和多样化的影像模态(如X光、MRI、病理、CT),以挑战模型在演进场景中的推理能力。
图. 不同发表时间的数据集上大语言模型(LLM)的准确率对比。研究发现模型在较早、可能受到数据污染的数据上的表现,与在最新、当代数据上的表现之间存在显著差距。以 GPT-5 为例:在其知识库覆盖范围内的数据上,其得分可高达 45.0%;但在知识截止时间之后发表的病例上,成绩则下降了近 10 个百分点。
02
数据构建流程
2.1临床分类体系
LiveClin的分类体系是一个多层次性能分析的基础框架,旨在克服现有基准测试单一分数、范围狭窄的局限性。该体系采用三级层次结构:第一级为ICD-10章节,包含16个临床连贯的章节,提供模型在主要医学专业领域能力的宏观视角;第二级为疾病群组,定义了72个不同的疾病群组,平衡了特异性和统计可靠性的需求;第三级为ICD-10代码,实现细粒度的诊断级评估,对于识别模型在众多疾病中的具体优势和劣势至关重要。
2.2病例构建
病例构建阶段专注于建立高质量、结构化的当代临床病例语料库。研究团队首先从PubMed Central开放获取子集中程序化检索2025年上半年发布的所有XML格式病例报告。然后,自定义构建的流程解析每个文件,提取关键元数据并分析文章结构。描述患者病程的部分(如病例呈现)被聚合形成核心病例叙述,而包含作者分析的部分(如讨论)被整合为病例讨论。为支持多模态能力评估,该流程还将所有表格数据转换为Markdown格式,并提取所有相关图像的持久URL及其标题。
在采样阶段,研究团队首先使用gpt-4.1-2025-04-14对每个病例报告进行三级分类。然后实施分层抽样协议,以72个二级疾病群组为指导,每个群组抽样30个独特病例,同时优先考虑每个样本中三级疾病的多样性,以减轻常见疾病的过度代表性。这一严格程序最终产生了2,150份高质量病例报告的语料库。
2.3考试生成
考试生成阶段采用生成器-批评器架构,将静态报告转化为模拟整个临床路径的多步骤问题。生成器代理首先将每个病例重构为渐进式临床挑战,创建简洁的初始临床场景,然后生成3-6个渐进式、10选项多选题序列。每个问题的上下文在适当的工作流程步骤策略性地引入新的临床细节,探测模型整合演进信息的能力。
批评器代理负责闭环质量控制。一旦生成器产生问题集,批评器在两个关键维度上评估它:临床准确性和认知复杂性。如果问题被标记,批评器提供可操作的反馈,促使生成器修订该集合。这个精炼循环持续进行,直到问题集达到两个标准:100%的临床准确性(确保所有内容事实正确)和超过60%问题的高认知复杂性。为确保效率,任何在10个循环内未能收敛的集合将被丢弃。
2.4质量检查
质量检查阶段实施多层质量保证协议,遵循保守原则:任何有潜在缺陷的问题都被拒绝。该协议结合AI预筛选和多层级医生验证。所有评估者应用两个严格标准:事实验证(确保与源病例完美对齐)和逻辑可解性(确认答案可从可用信息中推导)。AI驱动的预筛选首先由法官代理进行裁决,作为高度保守的预过滤器,自主拒绝根本上有缺陷的问题。随后,239名持证医生进行两阶段验证:标注阶段由主治医生评估每个问题;检查阶段由资深医生审查标注。任何差异都会触发与标注者的修订循环,直到达成共识。
图3. LiveClin 的病例检索、生成与过滤流程
03
实验结果与分析
3.1整体性能评估
研究团队对26个领先的大语言模型进行了全面评估。结果显示,专有模型领先,o3和GPT-5位居榜首。在100个随机抽样的LiveClin病例上与医生进行基准对比,主任医师准确率最高,主治医生略低,两组都超过了大多数模型。只有GPT-5和o3略微超过主治医生,但仍未达到主任医师的水平。表现最好的模型仅达到35.7%的案例准确率,这凸显了基准测试的难度。
开源模型正在缩小差距,大规模模型如InternVL-3.5-241B接近专有领导者,高效设计如GLM-4V-9B超过了较弱的专有系统如GPT-4o。研究发现挑战了单纯通过扩展或新版本发布就能带来更好临床推理能力的信念。例如,Claude 3.5 Sonnet超过了其后继者Claude 3.7 Sonnet,在Gemini系列中,Gemini 2.0 Flash得分高于Gemini 2.5 Flash。这标志着自动升级带来的收益已经结束,指向需要针对性的、特定领域的优化。
图. LiveClin的数据分布与统计
3.2深度分析
对临床路径上的错误模式分析揭示了不同模型类别的独特失败模式。顶级专有模型如o3倾向于在路径中期失败,错误在认知要求高的诊断与解释阶段达到峰值。相比之下,开源医疗模型表现出后期失败模式,错误集中在最后四分之一的随访阶段,表明长上下文保留的关键性崩溃。通用模型如GLM-4V-9B表现出前端加载的错误特征,在过程早期就出现失误,这凸显了提高从初始临床呈现进行有效推理能力的迫切需求。
对ICD-10章节的分析显示,模型性能高度可变,揭示了独特的专业化以及普遍的弱点。例如,模型在由清晰系统逻辑支配的领域(如内分泌疾病)表现出色,但在需要细致综合的领域(如肿瘤)普遍表现不佳。有趣的是,这种专业化超越了规模:顶级o3(68.4%)和紧凑的Claude-3.5-Sonnet(63.2%)在精神和行为障碍方面都达到了出色的准确率。
图4. 26款大模型与人类真实医生在 LiveClin 上的 Case Accuracy(病例完全通关率)评测结果比较3.3多模态分析
多模态推理分析显示,简单数据提取与复杂推理之间存在关键差距。模型自信地解释结构化数据如图表(75.1%),但在需要专家级推理时表现不佳,病理(59.6%)和生物信号(53.6%)等模态上的表现较差。尽管专业训练显示出希望,MedGemma-27B在生物信号方面表现出惊人的能力(71.4%),但基础稳健性仍然是关键挑战。即使是最有能力的模型也可能在看似简单的输入如人口统计表上出错,这凸显了这一核心问题。
图. 各款大模型在不同医学影像及表格上的准确率热力图
04
消融研究
为验证基于代理的流程中每个组件的贡献,研究团队在随机抽样的200份病例报告上进行了消融研究。结果显示,基于LLM的生成在可扩展性和问题复杂性方面都有显著改善。单独运行时,生成器代理将时间和财务成本相比医生撰写降低了近两个数量级,同时将简单问题的比例从38.5%降低到16.5%。添加批评器代理对事实准确性至关重要,将医生验证的准确率从84.5%提高到93.0%,并进一步将简单问题比例降低到5.5%。这种迭代精炼对于大规模产生可靠、临床要求高的内容至关重要。
最终的法官代理不仅作为过滤器,更是人类审查过程的关键增强。虽然其包含名义上将通过率降低到89.5%,但这种降低代表了一个积极的结果:更严格的质量标准。通过为医生提供结构化的审计跟踪和来自源病例的直接证据,法官使他们能够识别可能被忽视的细微缺陷。
05
可持续性与污染控制
LiveClin的长期可靠性依赖于可持续性、污染控制和偏见评估。研究团队维持每半年一次的医生审查更新周期作为可靠实时医疗AI评估的核心要求。每个周期替换整个评估集,重新评估现有模型,并包括新发布的模型。利用AI-人类协作工作流程,前六个月的病例被收集、验证并在前两周内发布。
为限制污染风险,研究团队实施定期更新,遵循LiveBench和LiveCodeBench的做法。模型数据收集与公开发布之间大约六到八个月的滞后为污染控制提供了有效窗口。为检测个别开发者频繁迭代可能带来的潜在利用,研究团队运营每月更新的私人排行榜。月度分数变化很小,排名保持稳定,确认监控措施保障了基准测试的完整性。
06
总结与展望
这项工作的主要贡献包括三个方面:首先,LiveClin是一个新颖、动态、多模态的基准测试,评估完整的临床路径,设计为抗污染并持续更新;其次,一个可扩展且经过验证的AI-人类工作流程,用于生成和维护模拟临床实践的高质量评估,证明比仅人类撰写更具成本效益,并产生更具挑战性的问题;第三,对26个领先LLM的全面评估,为最先进的临床推理提供了新的基线,并揭示了关键的、独特的失败模式,为未来模型开发提供信息。
LiveClin标志着从静态知识测试到应用临床推理动态评估的范式转变。通过提供持续演进、基于临床的挑战,研究团队旨在指导医疗LLM的发展,朝着更大的现实世界可靠性和安全性迈进。评估结果显示了明显的性能差距,顶级案例准确率仅为35.7%,揭示了顶级模型中期的综合困难以及专业模型后期阶段的上下文丢失等独特失败模式。这些发现为医疗AI的进一步发展指明了方向,强调了在强大通用基础模型之上进行针对性、领域特定优化的重要性。
----- END -----
wisemodel相关:
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
2
欢迎加盟wisemodel开源社区
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
热门跟贴