作者丨Jiageng

编辑丨ScienceAI

由哈佛大学医学院与附属 BWH 医院 YLab 团队领衔,联合UIUC、MIT、斯坦福、梅奥诊所等多个团队,共同发布了 BRIDGE —全球首个专注真实临床文本的多语言大语言模型评测!

该测评构建了 87 个真实世界的电子病历任务,覆盖 9 种语言,并且评估了 65 种当前最先进的大语言模型,是当前最全面、规模最大的 LLM 在医学应用的评测之一。

论文链接:https://arxiv.org/pdf/2504.19467

临床实战 —— 大语言模型在医疗的下一个战场

自两年前 GPT-4 和 Med-PaLM-1/2 刷榜美国医考 USMLE,轻松拿下「专家级」高分,验证了大语言模型(LLM)在医疗任务中的潜力,LLM 已被广泛应用于医疗领域。

但伴随着 LLM 在医疗领域的深入探索,越来越多研究与实践经验表明:考场高分 ≠ 临床实践。真实世界的临床文本和任务与文本规范的医考选择题截然不同:

  • 语言风格不同,文本形态灵活

电子病历中大量缩写和临床惯用表达,患者表述中的不规范文本、错别字等;

模板+自由输入混杂,结构松散不一、噪声极高。

  • 任务维度更广,涉及更多考量

不只是选择题,更多临床关心的任务亟待探索:表型提取、ICD-10 编码等;

不同语言、不同任务类型、不同临床专业等评估都是刚需。

同时,当前 LLM 发展迅猛,各家大模型「百花齐放」且更新频繁,越来越需要一个全面的真实临床文本评测构建起 LLM 开发与临床实践之间的「桥梁」!

因此,BRIDGE(Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text)就是要把大模型拉到真实的临床文本和任务面前「实战」,希望给大家带来新的参考:

  • 医生

快速查看适合自己语言、科室、任务的最优模型,安心选型;

  • LLM 开发者

全面考察模型,精准发现短板,进一步提升模型的适应性;

  • 医院 / 监管

系统性地分析性能差异,权衡使用方式/部署资源,制定相关标准。

BRIDGE概要

依托于团队前期发表于《NEJM AI》的全球临床文本数据集系统性综述[1],收集整理了大量开源的临床文本数据集,并进一步加以改造适应于 LLM 执行,从而构建了目前规模最大、覆盖最全的多语言真实世界临床文本(电子病历和在线问诊)数据大语言模型评测。

目前,已全面评估了 65 个当前最先进的LLM的性能,包括 DeepSeek-R1, Google Gemini, GPT-4o,Qwen3, Llama 4,MedGemma, Baichua-M1 等开源、闭源、医学专用 LLM,结合提出的系统性分类框架,从语言、专业科室、任务类型等多维度提供全面的性能分析,相关结果已上线实时排行榜

相关链接:https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard

结果速览

  • 开源模型发展迅猛,DeepSee-R1领跑

三种推理策略下的综合排名:

  • 零样本(Zero-shot) — 直接输出目标答案 DeepSeek-R1(44.2),GPT-4o(44.2),Gemini-1.5-Pro(43.8);
  • 思维链(Chain-of-thought) — 输出推理过程与答案,增强解释性 DeepSeek-R1(42.2),Gemini-2.0-Flash(43.8),GPT-4o(40.7);
  • 样本(Few-shot) — 提供5个随机的样本,包含完整输入和输出Gemini-1.5-Pro(55.5),Gemini-2.0-Flash(53.3),GPT-4o(52.6)。

在最新一轮排行榜中,DeepSeek-R1 已超越 GPT-4o、Gemini 等商业化闭源模型,在零样本和 CoT 设置下都占据榜首。随着时间推移,开源模型和商业化模型的差距在逐渐缩小。

Mistral、Qwen、Gemma、Llama 等一系列开源模型迭代发展、持续发力,直至 DeepSeek-R1 带来突破。

其中,最新的 MedGemma 和 Qwen3 表现亮眼:MedGemma-27B 在少样本设置下排名第 4,甚至超过 DeepSeek-R1,Qwen3-235B-A22B-Thinking 在零样本和思维链设置下分别排名第 7 和第 5,而 Llama-4 却表现不佳,甚至不如 Llama3。

  • 少样本是最高效的性能提升途径,思维链可能损害性能

给 LLM 提供 5 条随机示例,能够使大多数模型性能显著增长,不仅领先的 LLM 进一步突破,如 DeepSeek-R1(44.2 到 51.4,+16.3%),较小的 LLM 更是「脱胎换骨」,如 Llama-3.2-1B(从 12.7到 24.4, +92.1%。相比之下,思维链虽然能够提高模型解释性,促进与医生患者的交互,但导致了大多数模型的性能下降。

  • Scaling Law在医疗领域依旧明显

纵向比对同一模型家族的不同参数版本,整体而言模型越大表现越好,验证了在临床文本任务上的 Scaling Law。业界常用的~70B 模型整体性能较优,排在第二梯队,而在小型 LLM(≤30B)中,MedGemma 和Baichuan-M1-14B 两个专门的医学领域模型表现亮眼,为资源受限的部署场景提供了轻量化选项。

  • 医学LLM潜力巨大,但还需全面加强

MedGemma 和 Baichuan-M1-14B 等最新的医学LLM性能强劲,甚至超过了许多 70B 的模型,但其他医学 LLM 则表现不佳,甚至未跑赢同代的通用 LLM。

同时,这些医学 LLM 往往在少样本设置下涨点明显,可能表明其指令跟随能力较弱。整体结果暴露出部分医学 LLM 的基座模型版本偏老,预训练数据、监督训练任务与真实临床文本脱节等潜在问题。

  • 不同任务表现差异较大:

文本分类、自然语言推理等标签明确的分类任务表现较优,而 NER 与事件提取任务则需要少样本的加持提升性能,表明这些任务更需要示例来澄清详细的标签定义和标准。

与此同时,需要与标准化医疗编码系统(如 ICD-10)保持一致的规范化和编码任务仍然特别具有挑战性,因为许多 LLM 缺乏对这些代码的内置映射。

尽管少样本学习带来适度的改进,但这些编码任务的性能仍然相对较低(约 15%)。QA 和摘要在内的文本生成任务的平均性能较低约为 20%,表明 LLM 在临床文本生成方面面临着挑战。

  • 更多:多语言、多临床场景、多专科验证

不同语言、不同专科的榜首各有归属:DeepSeek-R1 在中文、西班牙语、德语、俄语中独占鳌头,Gemini 对英文表现突出。而不同的临床场景和专业科室也表现不同,体现出需要进一步结合具体任务选择合适的模型。

结语

  • 开源模型持续发力,整体性能不逊商业化模型;
  • 少样本推理策略目前是成本最低、收益最稳的 LLM 提升途径;
  • 70 B 仍是效果与资源平衡的主流选项,而高质量的小模型正在加速发展;
  • 医学专业模型需要更新基座、拥抱更广泛的真实临床文本与任务;
  • 没有一款模型可以跨所有语言与专科「通吃」,针对性评测与配置仍是落地关键。

要想将 LLM 在临床领域进一步落地,还需要更多的「BRIDGE」来全面评估 LLM 在真实世界临床文本与任务中的表现,研发出更加可靠和全面的 LLM!

研究助理/博士后机会:

哈佛大学医学院和布莱根妇女医院 Jie Yang 课题组和 Josh Lin 课题组联合招聘博士后或者科研助理一名,研究方向为 Clinical natural language processing, LLM in healthcare。

  • 跨学科团队:与 Harvard、MIT、Mayo 的 AI 研究员、临床医生合作
  • 数据资源丰富:近 2 亿份 EHR 电子病例数据,覆盖 180 万患者,连接保险理赔数据;同时可以申请 MGB 十余家合作医院的病历数据。
  • 计算资源:8xH100 等高性能 GPU,高性能计算集群以及 Azure 云计算资源研究
  • 前沿:LLM in EHR、医疗文本理解与推理
  • 环境开放灵活,适合科研成长与职业发展

详情请前往招聘页面:https://ylab.top/opportunities/

参考文献:

1.Wu, J., Liu, X., Li, M., Li, W., Su, Z., Lin, S., Garay, L., Zhang, Z., Zhang, Y., Zeng, Q. and Shen, J., 2024. Clinical text datasets for medical artificial intelligence and large language models—a systematic review. NEJM AI, 1(6), p.AIra2400012.

2.Wu, J., Gu, B., Zhou, R., Xie, K., Snyder, D., Jiang, Y., Carducci, V., Wyss, R., Desai, R.J., Alsentzer, E. and Celi, L.A., 2025. BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text. arXiv preprint arXiv:2504.19467.