这项由哈佛医学院、哈佛大学肯普纳自然与人工智能研究所、南加州大学、卡内基梅隆大学以及斯坦福大学联合开展的研究,以预印本形式于2026年4月发布,论文编号为arXiv:2604.06505。感兴趣的读者可通过该编号查阅完整原文。
医生在写病历报告时有一个固定的习惯:先描述病人的情况,再说明用了什么检查或治疗,然后汇报结果,最后写一段结论——"综合以上,患者的病因最可能是……"。这个"最后一步"看似简单,实则需要大量的临床经验和专业判断。现在,研究团队想知道的是:人工智能能不能学会做这个"最后一步"?
这个问题并不像表面那么简单。医学论文的摘要结构与病历报告非常相似,通常包含背景、方法、结果,最后是结论。如果把前三部分喂给一个AI,让它写出最后的结论,它能写出接近人类科学家水平的内容吗?为了回答这个问题,研究团队做了一件规模惊人的事情:他们从PubMed(全球最大的医学文献数据库)中收集了整整570万篇带有结构化摘要的医学论文,构建了一个叫做MedConclusion的超大规模数据集,并用它来系统性地测试各类大语言模型的推理能力。
一、为什么需要570万篇论文?医学AI推理的困境
考虑这样一个场景:你是一位医学研究生,导师给你一堆实验数据,然后问你:"根据这些结果,你的结论是什么?"这个问题要求你不能瞎猜,不能引入数据里没有的信息,必须基于已知证据做出合理的推断。这正是医学科研中最核心的能力之一,也是MedConclusion这个数据集想要测试的能力。
在这项工作诞生之前,研究界并非没有人尝试过类似的方向。然而,此前的数据集普遍存在两个明显的短板。一方面,它们的规模太小、范围太窄——有的只收集了随机对照试验的摘要,有的专注于心脏超声报告这类特定格式的文本,覆盖面相当有限;另一方面,这些数据集通常缺少期刊层面的元数据,也就是说,它们不告诉你这篇论文发表在什么档次的期刊上、属于哪个医学子领域。没有这些信息,就很难分析AI在不同专业领域、不同难度级别的论文上表现有何差异。
正是为了填补这个空白,研究团队花费大量工程工作,构建了MedConclusion。这个数据集涵盖2000年至2025年间发表的5,692,839篇结构化摘要,来自3,772种不同的期刊,横跨141个医学子领域。每一条数据的结构很简单:输入是摘要中除结论以外的所有部分(背景、方法、结果等),输出目标是原文作者亲笔撰写的结论。此外,每篇论文还附带了期刊的学科分类标签,以及该期刊的SJR分数——SJR是一种衡量期刊学术影响力的评分体系,类似于学术界的"信誉评级",分数越高代表期刊在同行中越受认可和引用。
二、570万篇论文是怎么收集和整理的?
数据收集的过程本身就是一项浩大的工程。研究团队使用PubMed官方提供的命令行工具EDirect,向数据库发送查询指令,专门筛选那些带有"结构化摘要"标记的文章,然后批量下载对应的XML格式原始记录。
拿到原始数据之后,团队还需要做大量的清洗工作。他们首先对记录进行去重处理,通过文章的唯一编号(PMID)、数字对象标识符(DOI)以及经过标准化处理的标题,剔除重复收录的文章。接着,程序会过滤掉那些不是英文、缺少核心书目信息、或者摘要段落数少于三个的记录。最关键的一步是识别结论段落:团队整理了一份详尽的"结论标签变体清单",包含了"CONCLUSION"、"CONCLUSIONS"、"AUTHORS' CONCLUSIONS"、"CONCLUSIONS AND RELEVANCE"等二十余种在实际论文中出现过的结论标签写法,只要摘要中包含这些标签之一,才会被纳入数据集。
与此同时,每篇论文所在期刊的学科分类信息和历年SJR评分,则从SCImago Journal & Country Rank数据库中单独检索和对齐。这个数据库是一个公开的文献计量资源,基于Scopus的引用数据计算期刊影响力,每年更新一次。通过这一系列操作,研究团队最终获得了一个干净、结构一致、信息丰富的570万条记录的数据集。
三、测试AI的四种"答题方式"
有了数据集,下一步就是实验设计。研究团队设计了四种不同的提示方式,用来测试AI在不同指令下的表现,这四种方式就像是给考生出了四种不同形式的同一道题。
第一种方式(称为A模式)是最基础的结论写作指令:给AI看摘要的非结论部分,要求它以正式学术风格写出结论,不限制字数和句数。第二种方式(B模式)则把任务换成写摘要:同样的输入,但要求AI写的是对全文的概括性总结,而非结论。第三种方式(C模式)在A模式的基础上加入了格式约束:不仅要写结论,还必须匹配原文的写作风格,并且控制句子数量和字数,以尽量接近原始结论的篇幅。第四种方式(D模式)则是在B模式基础上加入同样的格式约束。
这四种方式形成了两个对比维度:结论写作与摘要写作的对比,以及加格式约束与不加格式约束的对比。这样的设计让研究者能够回答两个关键问题:AI在写"结论"和写"摘要"时,行为上有没有本质区别?给AI加上长度和风格的约束,会让它更接近人类作者的写法吗?
四、评分标准:AI写出来的结论怎么打分?
判断AI写出的结论好不好,其实比想象中复杂得多。一篇医学结论不只是文字上流畅就够了——它必须在意思上贴近原文、不与原文矛盾、数字信息准确、写作风格接近原作者,而且整体要足够正式。
研究团队采用了两套评分体系,形成互补。第一套是基于规则的参考指标,包括几个经典的文本评估工具:ROUGE分数(衡量AI写的内容与原文有多少词语重叠,分为ROUGE-1、ROUGE-2和ROUGE-L三种粒度)、BLEU分数(同样衡量词语级别的重合度,但计算方式略有不同)、句子嵌入余弦相似度(把两段文字转换成向量,看两个向量指向有多接近,代表语义层面的相似性)、以及困惑度(用GPT-2这个语言模型来判断文本是否流畅自然,分数越低代表越通顺)。此外还有字数比和句数比两个辅助指标,用来衡量AI生成的文本在长度上是否与原文接近。
第二套是"AI当裁判"(LLM-as-a-judge)的评分方式,研究团队用另一个大语言模型来充当打分官,对AI生成的结论和原始人类结论进行对比,从五个维度分别打0到100分。这五个维度分别是:语义相似度(意思有多接近)、写作风格相似度(措辞、句式、修辞风格有多接近)、非矛盾率(生成的结论有没有和原文产生逻辑冲突)、数字一致性(涉及的数据、比例、方向是否与原文吻合)、以及正式程度相似度(两者的学术正式程度是否匹配)。
五、哪些AI模型表现最好?
研究团队一共测试了15个不同的大语言模型,涵盖商业闭源模型、开源指令模型、多模态模型(能处理图片和文字)以及专门为推理任务优化的模型。由于评估成本的限制,实验在从数据集中随机抽取的3万条样本上进行。
按照主裁判(GPT-5.4-mini)的评分结果,GPT-5.4在所有五个维度上均排名第一:语义相似度73.22分,写作风格相似度71.21分,非矛盾率84.61分,数字一致性88.24分,正式程度相似度89.80分。Gemini 3.1 Pro和Gemini 3 Flash紧随其后,各维度得分与GPT-5.4相差不超过两三分。Gemma-3-27B和GLM-4.6V也表现相当稳健,处于第一梯队的边缘位置。
然而,基于词语重叠度的传统指标却讲述了一个不同的故事。在ROUGE和BLEU这类指标上,DeepSeek-V3.2反而拔得头筹,ROUGE-1得分0.35、ROUGE-2得分0.11,均高于GPT-5.4的0.34和0.10。与此同时,Gemma-2-9B在句子嵌入相似度上得分最高(0.78),但它在AI裁判的语义相似度维度上却落后于GPT-5.4。这种矛盾现象揭示了一个重要事实:不同的评估工具在衡量的并不是同一件事,词语重叠、语义接近、逻辑一致性是各自独立的维度,某个模型在一个维度上表现出色,并不意味着它在其他维度上同样优秀。这也正是研究团队坚持采用混合评估方案的原因。
规模较小的模型,如Llama-3.2-1B,在各项指标上均明显落后于其他模型,语义相似度只有54.17分,这与其他大模型有相当大的差距,体现出模型规模对于复杂推理任务的重要性。
至于专为推理任务优化的DeepSeek-R1,则出现了一个有趣的现象:它的字数比高达9.45,句数比高达11.17,意味着它生成的文本比原始结论长了将近10倍。这是因为推理模型倾向于把思考过程也写出来,而不是像人类医学作者那样直接给出简洁的结论。这种冗长直接导致其ROUGE和BLEU分数大幅下滑(ROUGE-1仅0.15),但在数字一致性方面(75.58分)并不算差,说明内容本身并非错误,只是格式与预期大相径庭。
六、写"结论"和写"摘要",AI的表现差别很大
当研究团队把任务从"写结论"切换为"写摘要"时,发现了一个非常清晰的行为差异,这也是整个研究中最有趣的发现之一。
在无格式约束的情况下,GPT-5.4从A模式(写结论)切换到B模式(写摘要)之后,语义相似度从73.22分微降至72.11分,降幅很小,说明摘要在语义上确实抓住了原文的大意。但写作风格相似度却从71.20急跌至62.60,足足下降了8.6分。更戏剧性的变化发生在数字一致性上:从88.24分暴跌至66.24分,下降了整整22分。
这个结果意味着什么?当AI被要求写摘要而非结论时,它倾向于保留论文的核心含义,但会换一种不同的叙述方式,选择不同的细节,特别是对于数字数据的取舍和呈现方式,与原始结论差异显著。人类作者在写结论时,会非常精挑细选地引用关键数字;而AI在写摘要时,可能会引用不同的数字,或者忽略某些数据,或者以不同的比例形式呈现。
加入格式约束(长度和风格匹配要求)之后,情况更加有趣。C模式(有约束的结论写作)与A模式相比,语义相似度略微下降(从73.22到70.90),但数字一致性却显著提升,从88.24飙升至91.36。这说明当AI被明确要求模仿原文的写作风格并控制篇幅时,它对数字的选择和处理变得更加精准。D模式(有约束的摘要写作)则是四种模式中表现最差的:语义相似度降至64.99,数字一致性仅74.06。
研究团队进一步验证了这一结论在所有112个医学子领域中的普遍性。他们发现,在全部112个类别中,从结论模式切换到摘要模式之后,写作风格相似度的降幅始终为正(最小降幅3.8分,平均降幅8.3分,最大降幅13.7分),数字一致性的降幅同样始终为正(最小降幅11.3分,平均降幅21.6分,最大降幅41.3分)。唯一的异常是生物技术领域,在这个类别中,摘要模式的语义相似度反而略微高于结论模式(差值-4.0),但即便如此,数字一致性的降幅依然高达27.2分。
七、裁判不同,分数差多少?
研究团队还做了一个关于评估可靠性的重要实验:如果换一个AI来当裁判,分数会变吗?
实验结果相当令人警觉。当裁判从GPT-5.4-mini换成Gemini 3 Flash时,同一批AI生成的结论,语义相似度从约73分直接跳到约84分,非矛盾率从约82分跳到约97分,数字一致性从约87分跳到约98分——几乎所有维度都有10到15分的大幅提升。唯一变动相对较小的是写作风格相似度,两个裁判给出的分数差异不超过两分。
这个现象说明,AI裁判本身就存在一种"打分风格"的差异:不同的AI模型对同一份答案的打分倾向并不一致,有的裁判整体偏宽松,有的偏严苛。这就像同一篇作文,遇到不同的语文老师可能得到很不一样的分数。好消息是,模型之间的相对排名保持了一定的稳定性——无论哪个裁判来评分,GPT-5.4都排在第一位,说明相对优劣的判断比绝对分数更可靠。但绝对分数本身不能轻信,必须注明是哪个裁判给出的评分才有意义。
八、不同医学领域,AI的发挥差距有多大?
期刊的SJR评分与AI表现之间的关系,比研究团队预期的要微妙得多。从统计上看,SJR评分较高的期刊,其结论的ROUGE分数和写作风格相似度略高,且这些正相关在统计上显著(p值小于0.001)。然而,这些相关系数的数值都非常小(ROUGE-1的Pearson相关系数约为0.067),说明期刊声望只是影响AI表现的一个非常弱的因素,绝对不是决定性因素。更有趣的是,数字一致性和期刊SJR之间呈现出微弱的负相关,也就是说,越是高影响力期刊的论文,AI在数字细节上的一致性反而略低——这可能是因为顶级期刊的论文通常包含更多、更复杂的统计数据,AI在处理这些细节时更容易出现偏差。
在医学子领域层面,研究团队比较了表现最好和最差的五个类别。当按语义相似度排名时,表现最好的五个类别(实验与认知心理学、内分泌与自主神经系统、高级专科护理、环境科学、急救护理)呈现出一个美丽的雷达图:不仅语义相似度高,写作风格、数字一致性、非矛盾率和词语重叠度也同步较高,各个维度均衡发展。而表现最差的五个类别(污染研究、健康毒理学与致突变性、计算机科学应用、应用微生物学与生物技术、软件)的雷达图则杂乱不均。
当按ROUGE-L排名时,视角发生了一个意味深长的转变。Gerontology(老年医学)按ROUGE-L排名跻身前五,但在语义相似度和数字一致性上却远落后于按语义相似度排名的前五——这暗示着AI写的结论与原文共享了大量相同的词语,但背后的意思和具体数字细节并不那么吻合。这种现象如同两个人复述同一个故事,一个人用了很多和原故事相同的词,但理解却有偏差;另一个人换了一套说法,但意思抓得很准。
最值得关注的极端案例是软件类别:它的语义相似度在全部112个类别中最低(仅61.0分),但数字一致性却高达96.4分——这说明AI在软件领域相关的论文上,虽然整体意思没太对上,但对数字的复述反而很准确。这种内部不一致性再次印证了单一评估指标的局限性。
由此可见,归根结底这项研究想告诉我们的是:教会AI做科学推理,比我们想象的要复杂得多,也有趣得多。
MedConclusion数据集的意义在于,它提供了一个真正大规模、跨领域、有元数据支撑的测试场地,让研究者可以系统性地研究AI在科学推理上的能力边界。从实验结果来看,目前最强的商业AI模型(如GPT-5.4)确实能够写出在语义和逻辑上基本靠谱的医学结论,但距离完全达到人类专家水平仍有差距,尤其是在精确复现特定数字细节和匹配写作风格方面。更重要的是,不同的评估工具会给出相互矛盾的排名结论,这提醒我们在评价AI能力时,不应依赖单一指标,而需要像这个研究一样,采用多维度的混合评估体系。
对于普通人来说,这项研究的意义是双重的。一方面,它让我们对AI辅助科研工具有了更清醒的认识:AI确实能帮助科学家起草结论,但在精确的数字一致性和特定的写作风格方面,仍需要人类专家的审核和把关。另一方面,它也提醒了研究界:评估工具本身就值得被评估,当你用AI来打分时,换一个AI可能会得到截然不同的分数,这种"裁判效应"需要被更严肃地对待。MedConclusion数据集本身也将作为一个公开的研究资源,供未来的科学家继续探索AI的科学推理边界——570万篇论文,够研究者们忙上相当长的时间了。
Q&A
Q1:MedConclusion数据集和之前的医学NLP数据集有什么区别?
A:MedConclusion最主要的优势在于规模和覆盖面。之前的类似数据集要么规模很小(几万条记录),要么只专注于某一类特定论文(比如随机对照试验或心脏超声报告)。MedConclusion包含570万条记录,来自3772种期刊和141个医学子领域,还附带了每个期刊的学术影响力评分(SJR),可以用来研究AI在不同专业难度水平下的表现差异,是目前同类任务中规模最大、信息最完整的数据集。
Q2:AI写结论和写摘要有什么本质区别?
A:从MedConclusion的实验结果来看,当AI被要求写摘要而非结论时,整体意思通常相差不大,但写作风格和数字细节的处理方式会明显不同。摘要模式下,AI倾向于以更概括的方式重述内容,对特定数字的引用和呈现方式与人类作者写结论时差异较大。数字一致性指标在摘要模式下平均下降了20分以上,说明结论写作和摘要写作在AI看来确实是两种不同的任务。
Q3:用不同AI模型来评分,结果会差很多吗?
A:差异相当显著。研究团队同时使用GPT-5.4-mini和Gemini 3 Flash作为裁判评分同一批结果,发现语义相似度的绝对分数相差约11分,非矛盾率相差约15分,数字一致性相差约10分。不过,两个裁判给出的模型相对排名基本一致,GPT-5.4在两个裁判下都排名第一。这说明绝对分数受裁判本身影响很大,但相对优劣的判断更为稳健。
热门跟贴