打开网易新闻 查看精彩图片

这项研究由美国宾夕法尼亚大学医学院病理与实验室医学系、生物工程系、生物统计学系,以及生物技术公司Enable Medicine联合完成,于2026年4月30日以预印本形式发布于arXiv平台,论文编号为arXiv:2605.00925v1。

每当医生拿到一张癌症患者的病理切片,他们看到的是细胞的形状和颜色——这是H&E染色图像,也是全球病理科每天处理数百万份的标准工具。但问题在于,这张切片背后隐藏的信息远不止于此:肿瘤里有哪些免疫细胞在战斗?哪些蛋白质在异常表达?这位患者的预后如何?这些问题,靠一张染色图是回答不了的,必须借助更昂贵、更复杂的分子检测手段。

于是,一个自然的问题就浮现出来:能不能训练一套人工智能系统,让它同时"学会"看懂病理图像、理解分子信号、读懂临床信息,三种语言融为一体,彼此翻译?这正是这篇论文要解决的核心问题。研究团队将他们构建的这套系统命名为Haiku(俳句),借用这种日本短诗"以少胜多、以局部见整体"的意境,来描述一个能从局部组织切片中提炼出丰富信息的AI模型。

接下来,这篇文章将带你完整走进这项研究,从最基础的问题出发,一路抵达那些令人眼前一亮的实验结果。

一、为什么同时读懂三种"语言"这么难

在医院里,理解一个肿瘤通常需要多种检测。病理科医生会看H&E染色切片,判断肿瘤的形态和分级;分子检测实验室会用多重荧光免疫标记(mIF,可以理解为一种能同时点亮50多种蛋白质的高级染色技术)来揭示肿瘤微环境中的分子细节;临床医生则掌握着患者的分期、治疗反应、生存状态等信息。这三种信息来自不同的检测体系,说着不同的"语言"。

问题在于,现有的人工智能模型大多只会其中一种语言。有些模型擅长分析H&E图像,有些模型专门处理空间蛋白组学数据,还有一些模型尝试把图像和临床文本对齐。但把这三种语言同时放进一个统一框架里互相翻译,以前从来没有人系统地做过。这就像你找到了一个会说中文的翻译、一个会说英文的翻译、一个会说法文的翻译,但你真正需要的是一个三语同传,而且还能在三种语言之间自由切换、互相补充。

Haiku要做的,正是这个三语同传的角色。更关键的是,它不仅要"听懂"三种语言,还要能用一种语言的信息去检索、推断另一种语言的内容——比如,只给它一张H&E图像,它就能去数据库里找到最相似的分子蛋白图谱;或者只给它一段临床描述文字,它就能推断出组织里可能的分子特征。

二、一个史无前例的训练数据集

要训练这样一个三语同传系统,首先需要大量"配套教材"——也就是同一块组织同时拥有H&E图像、分子图像和临床信息的配对数据。这本身就极为稀缺,因为大多数医院里这三种数据是分散存储的,很少有人把它们完整对齐。

研究团队由Enable Medicine提供的数据库做到了这一点。整个数据集涵盖7600张多重荧光免疫标记(mIF)组织切片,来自1848名患者,横跨乳腺癌、肺癌、结直肠癌、肾癌、食管癌、肝癌、卵巢癌等11种器官类型和11种疾病类型。其中,3218张切片同时拥有配对的H&E图像和患者临床元数据,正是这批"三重配套"数据构成了Haiku核心对比学习训练的基础,贡献了2669万个组织图像小块。另外3848张仅有mIF数据的切片,则用于专门预训练分子图像编码器。

为了确保实验结果的可信度,研究团队在患者层面进行了严格的训练集与测试集分离:1606名患者(86.9%)的数据用于训练,剩余242名患者(13.1%)的所有切片完全隔离,专门用于评估。这个分割方式的重要性在于,它防止了同一个患者的不同切片分别出现在训练和测试中——这是一种常见的数据泄露漏洞,在医疗AI研究中经常被忽视。

每张组织切片被分割成256×256像素的小方块(称为"patch",可以理解为组织的一个小窗口),每个小窗口同时对应三份数据:一个H&E染色的彩色图像小块、一个包含多达120个生物标记物通道的mIF图像小块,以及一段描述该小块的文字。文字描述分为两层:一层是"局部层",描述这个小窗口里各种蛋白质的表达高低和空间分布模式;另一层是"全局层",包含该患者的肿瘤类型、分期、分级、治疗反应、生存状态等临床信息。这两层文字被拼合在一起,形成了每个图像小块的"文字身份证"。

三、俳句的架构:一套三模态对比学习系统

理解Haiku的工作原理,可以借用一个"三面翻译器"的比喻。这个翻译器有三个入口,分别接收H&E图像、mIF分子图像和文字描述,每个入口都有一个专属的"编码引擎"把输入内容压缩成一串数字向量。然后,三个入口的输出都被投射到同一个"共享语义空间"里,在这个空间里,来自同一块组织的三种信息应该落在彼此很近的位置,来自不同组织的信息则应该彼此分离。

具体来说,H&E图像的编码引擎采用了一个叫MUSK的预训练视觉模型,这是一个专门为病理图像设计的视觉变换器,在大量H&E切片上预训练过,已经学会了识别组织形态的基本特征。文字编码引擎使用的是BiomedBERT,一个在海量生物医学文献上训练的语言模型,擅长理解医学专业术语。

mIF图像的编码引擎则更为特殊。由于市面上没有现成的、在多重荧光免疫数据上预训练的模型,研究团队从头训练了一个基于VirTues架构的mIF编码器。这个编码器有一个聪明的设计:它不仅能处理图像本身,还为每个生物标记物通道绑定了一个来自ESM-3蛋白质语言模型的蛋白质嵌入向量,作为该通道的"身份标签"。这样,即使遇到训练时没见过的蛋白质,只要有对应的ESM嵌入,模型就能处理。

三个编码引擎各自产生的向量,经过各自的"投影头"(一个两层神经网络)映射到同一个512维的共享空间。训练时,来自同一块组织的H&E向量、mIF向量和文字向量被迫靠近,而来自不同组织的向量则被推开——这种训练方式叫做对比学习,灵感来自OpenAI的CLIP模型,原本用于对齐图像和文字,Haiku将其扩展到了三个模态。

训练时,为了避免破坏已经预训练好的H&E和文字编码器,这两个编码器只开放最后两个变换器层进行微调,而mIF编码器在对比训练阶段则完全冻结,只更新各自的投影头。学习率也精细分层:H&E编码器用1×10??,文字编码器用2×10??,投影头用1×10??。整个系统在完整训练数据上训练25轮,采用先线性预热5000步、再余弦退火的学习率调度策略。

四、跨模态检索:给组织切片建立"三语词典"

Haiku训练完成后,第一个要验证的能力是跨模态检索——也就是说,给它一张H&E图像小块,它能不能从几十万个mIF图像小块的数据库里找出同一块组织对应的mIF图像?反过来,给它一段文字描述,它能不能找到对应的mIF图像?

这个任务的难度超乎想象。检索不是在同一张切片的几百个小块里找,而是在336张不同患者、不同器官的测试切片的所有小块里找——这意味着数据库里有几十万个候选对象,而正确答案只有一个。这相当于把一首诗的一行,从十万本书里找到它的原书,还要找到正确的那一页。

评估指标用的是Recall@K,也就是在前K个检索结果里,正确答案出现的比例。研究团队测试了K=1、5、10、20、50五个级别。

结果相当显著。对于H&E→mIF方向的检索,Haiku在Recall@50达到了0.611,而作为基准对比的"朴素方法"(把mIF的多通道图像强行叠加成RGB三通道,然后用H&E编码器处理)几乎没有任何检索能力,Recall@50仅为0.030。对于mIF→H&E方向,Haiku达到0.604,朴素基准仅为0.012。对于文字→mIF的跨模态检索,因为文字和图像之间本身信息差距更大,Haiku达到0.169,这个数字看起来不高,但在如此大规模的跨数据集检索场景下,已经体现出了有意义的对齐能力。

更直观的是定性展示。在一个文字→mIF的检索例子中,输入文字描述的是一个乳腺癌患者的切片,文字中提到GranzymeB、CD11c和PanCK表达较高,而Ki67和IFNγ表达较低。Haiku检索到的前三名mIF小块,每一个都忠实地反映了这些特征:富集标记物的空间分布和强度都与文字描述吻合,说明系统不仅学会了"对齐",还学会了"理解"文字的语义内容。

在零样本分类实验中,Haiku还展示了一个类似于CLIP的能力:给它一张mIF图像,再给它10个器官类型的文字提示(比如"一张乳腺组织的mIF图像"),它能把正确的器官类型排在第一位。在10分类的器官类型任务上,宏平均F1达到0.179,而随机猜测只有0.067;在11分类的疾病类型任务上,宏平均F1达到0.182,随机猜测仅为0.059。两个差异均通过了严格的统计显著性检验。

五、下游任务:从检索到临床预测的飞跃

跨模态检索是基础能力,但更重要的问题是:这种对齐学到的特征,对临床上真正有用的任务有帮助吗?

研究团队针对这个问题设计了一系列实验,全部在训练集之外的独立测试数据上进行。

在最基础的分类任务上,团队从336张测试切片中提取了五类临床标签:器官类型、组织类型、肿瘤T分期(反映肿瘤大小和侵犯程度)、N分期(反映淋巴结转移情况)和肿瘤分级。然后用线性探针方法评估——就是冻结Haiku的编码器权重,只在其输出特征上训练一个极简单的线性分类器,测试特征本身携带了多少有用信息。

结果表明,Haiku的单模态特征(无论是H&E还是mIF)都明显超越了对应的基准模型(H&E方向超越MUSK,mIF方向超越VirTues)。更重要的是,当把Haiku的H&E特征和mIF特征拼接在一起形成"融合特征"时,性能进一步提升,在N分期任务上宏平均F1达到0.942,T分期达到0.961,肿瘤分级达到0.942,器官类型达到0.999,组织类型达到0.998。这些融合结果均显著优于任何单一模态,且统计检验均达到显著性水平(P值均小于0.001或接近这一水平),说明两种模态确实携带了互补信息,融合后能捕捉到任何单一模态都无法单独提供的内容。

在更具挑战性的生存预测和治疗反应预测任务上,Haiku的表现同样令人关注。这两个任务使用的是完全独立于Haiku训练和VirTues预训练的198张测试切片,来自两个外部队列:75例转移性黑色素瘤患者(均有免疫治疗记录和随访数据)和66例结直肠癌患者(均有治疗和长期生存数据)。这相当于让模型在完全陌生的"考题"上接受检验。

在结直肠癌的生存预测任务上,使用了基于注意力机制的多实例学习框架(可以把每张切片理解为一个"证据包",模型学会从包里挑出最有预测价值的小块,然后综合判断患者风险)。Haiku(mIF)特征训练出的Cox回归模型,平均一致性指数(C-index,衡量模型把高风险和低风险患者排序正确的能力,0.5是随机猜测,1是完美)达到0.737,而VirTues基准仅为0.683,提升约5.4个百分点。更直观的是Kaplan-Meier生存曲线:VirTues区分的高低风险组的统计显著性P值仅为0.274(不显著),而Haiku区分的两组P值达到3.41×10??(显著),说明Haiku学到的特征能真正把预后不同的患者区分开来。

在黑色素瘤的治疗反应预测任务上,Haiku(mIF)的平均AUROC(接受者工作特征曲线下面积,反映模型区分有效与无效治疗反应的能力)达到0.756,而VirTues仅为0.352;AUPRC(精确率-召回率曲线下面积)达到0.660,而VirTues仅为0.333。单折展示中,AUROC和AUPRC分别达到0.920和0.885,差距之大令人印象深刻,且差异均达到统计显著性。结直肠癌治疗反应预测的改善幅度相对较小但方向一致,AUROC从0.721提升至0.730,AUPRC从0.735提升至0.775,统计显著性未达到传统阈值,但平均值的改善方向始终稳健。

六、零样本融合检索:让临床信息帮助推断分子特征

到这里,Haiku已经证明了自己在检索和分类任务上的价值。但研究团队还想走得更远:如果只有一张H&E图像,再加上一段只包含临床信息(不含任何蛋白质信息)的文字描述,能不能比单纯用H&E图像更准确地推断出组织里各种蛋白质的表达水平?

这个任务被称为"融合检索生物标记物推断"。方法是:把H&E图像的相似度分数和文字的相似度分数,按照一定权重加权求和,形成一个融合的检索分数,然后从mIF数据库里找出最相似的若干小块,把它们的蛋白质表达值加权平均,作为对查询小块蛋白质表达的预测。评估指标是预测值与真实测量值之间的皮尔逊相关系数(PCC,越接近1越好)。

关键的设计在于:这里用到的文字描述是"仅含元数据"的版本,也就是把文字里涉及蛋白质表达的部分全部删掉,只保留器官类型、疾病状态、分期等临床背景信息。这样做的目的是确保文字带来的提升纯粹来自临床语义,而不是因为文字本身已经直接告诉了模型蛋白质信息。

在52个经过验证的生物标记物通道上,融合检索(H&E权重0.8,文字权重0.2)的平均PCC达到0.718,而单纯H&E检索为0.710,差异通过了Wilcoxon符号秩检验(P=1.46×10??),说明临床文字信息确实贡献了独立于图像之外的补充信息。更引人注意的是,朴素基准(把mIF通道压缩成RGB再用H&E编码器处理)的平均PCC仅为-0.033,几乎毫无预测能力,说明专用的mIF编码器加上三模态对齐对这个任务是不可或缺的。

从各个生物标记物的具体表现来看,这种提升覆盖了非常广泛的生物学类别:自适应免疫标记物(如CD3e、CD8、PD-L1)、肿瘤内在标记物(如EpCAM、Ki67)、基质成分标记物(如胶原蛋白IV、CD31)等。这意味着Haiku的跨模态对齐捕捉到的不是某一类生物信号,而是真正跨越了多个生物学程序。

七、反事实预测:改变一行文字,看肿瘤微环境怎么变

到目前为止,所有任务都在"描述现实":这张切片对应什么分期?这位患者的预后如何?但Haiku的共享语义空间还开启了一个更有趣的可能性:反事实推理。

反事实推理的问题是:"如果临床情况不同,组织里的分子环境会有什么不同?"例如,同一个患者,同一块组织,如果把肿瘤分期从T2N0改成T4N2,分子微环境会发生什么变化?或者,同一个肺腺癌患者,如果把生存状态从"已死亡"改成"存活",组织里的免疫细胞格局会有什么不同?

这种分析靠传统模型无法完成,因为传统模型是单向的:给定输入,预测输出,但无法"扰动"某一个属性再看其他属性如何联动。Haiku的共享语义空间让这成为可能:把H&E图像的嵌入向量固定不变(代表组织形态保持不变),只修改文字嵌入中的某个临床属性,然后用修改前后的"融合查询向量"分别去检索mIF数据库,比较两次检索结果的蛋白质表达差异,就可以得到一个"如果分期/预后改变,分子特征会怎么变"的预测。

研究团队强调,这些分析是探索性的、假说生成性的,而非机制性结论。单患者的案例研究无法代替大规模验证,所有结论都需要后续实验研究来核实。带着这个前提,团队做了两个案例研究。

第一个案例研究针对乳腺癌进展动态。团队选取了一位中期乳腺癌患者(T2N0M0,IIA期,2级)的281个组织图像小块,只把文字里的分期字段修改为晚期(T4N2M1,IV期,3级),其余所有信息保持不变,然后比较两次检索的mIF结果。

首先,检索结果的临床构成发生了显著变化:原始检索中,从数据库检索到的小块里有96.6%来自N0期患者,修改后降至88.6%,而N2期患者的比例从1.3%上升至4.9%。T分期的变化同样显著。这说明Haiku确实对文字扰动做出了响应,而不是返回固定不变的结果。

更有趣的是分子层面的变化。研究团队把281个小块按照H&E形态聚类成四个组织微环境:富含成纤维细胞的基质(C0,100个小块)、炎症肿瘤区(C1,70个小块)、黏液/ECM重塑基质(C2,39个小块)和以上皮细胞为主的肿瘤核心(C3,72个小块)。在每个微环境内部,分别统计反事实条件下蛋白质表达的变化。

在上皮主导的肿瘤核心(C3)里,晚期反事实扰动带来了两类协调的、符合生物学逻辑的变化:泛巨噬细胞标记物CD68上升了69.7%,淋巴管/癌症相关成纤维细胞标记物Podoplanin上升了99.9%,这两者在文献中均与乳腺癌晚期和不良预后相关;同时,乳腺癌管腔分化三联征GATA3(-22.3%)、Keratin8_18(-23.0%)和E-cadherin(-13.4%)全部显著下降,与乳腺癌进展中管腔分化丧失的文献记录方向一致。

在炎症肿瘤区(C1),晚期扰动产生的最强信号是Vimentin上升了73.9%,同时GATA3显著下降41.1%,这个Vimentin上升/GATA3下降的组合与文献中乳腺癌上皮-间质转化的分子标志高度一致。在黏液基质(C2),HLA-DR(抗原呈递相关蛋白)下降了34.2%,与三阴性乳腺癌中HLA-DR丢失与预后相关的报道方向吻合。在富含成纤维细胞的基质(C0),则出现了协调的B细胞浸润信号(CD19上升70.5%,CD20上升132.9%,CD79上升142.7%)和CD8 T细胞信号(CD8上升28.9%)。

还有一个细节值得关注:未成熟T细胞标记物CD45RA在全部四个微环境中均显著下降(C0下降29.5%,C1下降49.7%,C2下降39.8%,C3下降43.9%),且在肿瘤区下降幅度大于基质区。这与乳腺癌文献中初始T细胞在肿瘤组织中耗竭、肿瘤免疫微环境随疾病进展向激活/效应状态转变的描述方向一致。

在成纤维细胞基质(C0)内部,团队还进行了主成分分析,发现第二主成分(PC2)能区分哪些小块在反事实扰动下偏向髓系/抗原呈递方向,哪些偏向上皮/B系方向。把PC2分数与原始mIF测量值相关联,发现免疫检查点标记物LAG3和基底/肌上皮标记物TP63的基线值都与PC2有正相关(皮尔逊相关系数均为0.45),说明一个小块在反事实扰动下"往哪个方向走",是由它自身的基线免疫和细胞类型状态所决定的——基线LAG3和TP63更高的小块,倾向于在反事实扰动下向髓系方向偏移。

第二个案例研究针对肺腺癌的生存相关分子特征。团队选取了一位肺腺癌已死亡患者(生存25个月,IIIA期,T3N1M0)的154个组织小块,只把文字里的生存状态从"已死亡"改为"存活",其他临床信息(包括分期)保持不变,比较反事实推断的分子变化。

同样按照H&E形态聚类成四个空间微环境:上皮主导的肿瘤核心(C0,42个小块)、效应细胞富集的肿瘤区(C1,30个小块)、基质-血管转运微环境(C2,31个小块)和肿瘤-基质交界面(C3,51个小块)。

在上皮主导的肿瘤核心(C0)里,"存活"状态下CD8上升50.6%,颗粒酶B(杀伤性T细胞释放的效应分子)上升38.0%,记忆T细胞标记物CD45RO上升36.8%,同时免疫检查点分子PD-L1下降61.7%。这个模式与非小细胞肺癌中高密度CD8?T细胞和记忆T细胞与良好预后相关的大量文献报道方向一致。

在效应细胞富集的肿瘤区(C1),这是免疫检查点缓解信号最强的微环境:PD1下降24.6%,PD-L1下降30.7%,VISTA下降34.7%,同时CD8上升89.5%,CD45RO上升35.7%,抑制性髓系标记物CD11c下降35.6%,MPO下降27.5%。这个多重检查点同时缓解的模式,与免疫检查点抑制剂有效应答的分子签名有相似之处。

在基质-血管转运微环境(C2),CD8上升35.8%,CD21(滤泡B细胞标记物)上升71.9%,粒系髓系活动(MPO)下降32.1%。值得注意的是,这个微环境里广谱B细胞标记物CD20反而下降了59.7%,说明B细胞方面的变化不是简单的B细胞扩增,而更可能是CD21阳性的生发中心样B细胞亚群富集——这种富含三级淋巴结构的模式在肺癌文献中与良好预后有关联。

在肿瘤-基质交界面(C3),CD8上升13.5%,调节性T细胞标记物FoxP3下降36.1%,细胞外基质蛋白胶原蛋白IV下降23.7%,而Ki67(反映细胞增殖活力)下降24.8%,成为四个微环境中唯一达到统计显著性的Ki67下降信号(其他三个微环境有同方向趋势但未达到显著性)。这个组合指向一个从免疫抑制、纤维化屏障向更开放的免疫接触界面的转变,与文献中促进免疫细胞进入肿瘤的有利微环境特征相呼应。

整个肺癌反事实分析展现出一个具有四个收敛主题的图景:效应T细胞扩增、广泛的免疫检查点缓解、抑制性髓系清除,以及仅在肿瘤-基质交界面达到显著性的增殖减少。这些方向性一致的信号,仅通过修改一个"生存状态"文字属性就浮现出来,说明Haiku的共享语义空间确实捕捉到了某种与临床预后关联的分子组织模式。

八、局限性与未来方向

研究团队坦诚地指出了Haiku目前的几个局限。首先,当前模型的对比学习训练只能处理配对数据(同时有H&E、mIF和文字的样本),而大量现实中的单模态数据(比如只有H&E的大规模切片库)尚未被充分利用,未来引入混合配对/非配对数据的训练范式可能进一步提升模型规模和泛化能力。

其次,Haiku的文字描述是从结构化元数据模板生成的,而非真正的自由文本临床报告。将模型扩展到处理真实、杂乱的临床病历文本仍是一个开放挑战。

第三,最重要也最需要强调的:反事实分析目前是单患者的概念验证(乳腺癌281个小块来自一位患者,肺腺癌154个小块来自另一位患者),所有方向性结论都需要在更大规模的患者队列中验证,并需要实验室实验来确认具体的分子机制。反事实分析工具的价值在于生成假说,而非提供最终答案。

第四,模型当前在256×256像素的小块层面工作,要部署到完整的全切片分析场景,还需要与全切片层面的架构整合。

此外,对比学习的性能很大程度上取决于各模态编码器的质量,这意味着Haiku可以直接受益于未来更强大的单模态基础模型的发展,但也意味着当前版本的表现受限于所使用的预训练编码器。

归根结底,Haiku这个研究做的事情,是把三种原本各说各话的医学语言——组织形态、分子蛋白和临床信息——编入了同一本"词典",让它们在同一个空间里互相翻译、互相补充。这不仅仅是一个更好的单一任务模型,而是一个通用的多模态连接框架:一旦这个词典建好,无论是检索类似案例、预测临床结局、推断分子特征,还是探索"如果临床条件改变,分子环境会怎样"这类假设性问题,都能从同一个预训练模型出发,无需为每个任务重新训练。对于任何一个从事病理学、肿瘤学或精准医疗研究的人来说,这个框架开辟的方向值得认真关注。有兴趣深入了解的读者,可以通过arXiv编号2605.00925查询完整论文,代码和模型检查点已在GitHub(zhihuanglab/Haiku)和Hugging Face(zhihuanglab/Haiku)公开发布。

Q&A

Q1:Haiku模型和普通的病理AI有什么区别?

A:普通病理AI通常只能处理一种数据类型,比如单纯分析H&E染色切片或单纯分析分子检测数据。Haiku的核心区别在于它同时学习了三种数据的对应关系:H&E病理图像、多重荧光免疫标记(mIF)分子图像,以及患者临床信息文字描述。这意味着它可以用其中一种数据去检索或推断另一种数据的内容,而不需要每个任务都重新训练一个专用模型。

Q2:Haiku的反事实分析是什么意思,能用来预测真实患者的结果吗?

A:反事实分析是指固定患者的H&E图像(代表形态不变),只修改文字里的某个临床属性(比如把肿瘤分期改高),然后观察模型检索到的分子特征如何变化,从而探索"如果临床条件不同,分子微环境会怎样"。这是一种假说生成工具,帮助研究者找到值得验证的分子信号,但目前不能直接用于预测真实患者的结果,因为这些分析基于单个患者的案例,还需要大规模队列验证和实验室实验来确认机制。

Q3:Haiku训练数据有多大,普通研究机构能复现吗?

A:Haiku在超过6200万个组织图像小块上训练,来自7066张切片、1606名患者,数据由Enable Medicine提供,是私有数据集。完整数据集目前未公开,但研究团队在Hugging Face上提供了演示数据,代码和模型权重也已开源,允许研究者在自有数据上使用已训练好的Haiku编码器提取特征或进行迁移学习。