宾大与Enable Medicine联手打造"俳句"AI|t细胞|免疫性疾病|基质|宾大|微环境|肿瘤

这项研究由美国宾夕法尼亚大学医学院病理与实验室医学系、生物工程系、生物统计学系，以及生物技术公司Enable Medicine联合完成，于2026年4月30日以预印本形式发布于arXiv平台，论文编号为arXiv:2605.00925v1。

每当医生拿到一张癌症患者的病理切片，他们看到的是细胞的形状和颜色——这是H&E染色图像，也是全球病理科每天处理数百万份的标准工具。但问题在于，这张切片背后隐藏的信息远不止于此：肿瘤里有哪些免疫细胞在战斗？哪些蛋白质在异常表达？这位患者的预后如何？这些问题，靠一张染色图是回答不了的，必须借助更昂贵、更复杂的分子检测手段。

于是，一个自然的问题就浮现出来：能不能训练一套人工智能系统，让它同时"学会"看懂病理图像、理解分子信号、读懂临床信息，三种语言融为一体，彼此翻译？这正是这篇论文要解决的核心问题。研究团队将他们构建的这套系统命名为Haiku（俳句），借用这种日本短诗"以少胜多、以局部见整体"的意境，来描述一个能从局部组织切片中提炼出丰富信息的AI模型。

接下来，这篇文章将带你完整走进这项研究，从最基础的问题出发，一路抵达那些令人眼前一亮的实验结果。

一、为什么同时读懂三种"语言"这么难

在医院里，理解一个肿瘤通常需要多种检测。病理科医生会看H&E染色切片，判断肿瘤的形态和分级；分子检测实验室会用多重荧光免疫标记（mIF，可以理解为一种能同时点亮50多种蛋白质的高级染色技术）来揭示肿瘤微环境中的分子细节；临床医生则掌握着患者的分期、治疗反应、生存状态等信息。这三种信息来自不同的检测体系，说着不同的"语言"。

问题在于，现有的人工智能模型大多只会其中一种语言。有些模型擅长分析H&E图像，有些模型专门处理空间蛋白组学数据，还有一些模型尝试把图像和临床文本对齐。但把这三种语言同时放进一个统一框架里互相翻译，以前从来没有人系统地做过。这就像你找到了一个会说中文的翻译、一个会说英文的翻译、一个会说法文的翻译，但你真正需要的是一个三语同传，而且还能在三种语言之间自由切换、互相补充。

Haiku要做的，正是这个三语同传的角色。更关键的是，它不仅要"听懂"三种语言，还要能用一种语言的信息去检索、推断另一种语言的内容——比如，只给它一张H&E图像，它就能去数据库里找到最相似的分子蛋白图谱；或者只给它一段临床描述文字，它就能推断出组织里可能的分子特征。

二、一个史无前例的训练数据集

要训练这样一个三语同传系统，首先需要大量"配套教材"——也就是同一块组织同时拥有H&E图像、分子图像和临床信息的配对数据。这本身就极为稀缺，因为大多数医院里这三种数据是分散存储的，很少有人把它们完整对齐。

研究团队由Enable Medicine提供的数据库做到了这一点。整个数据集涵盖7600张多重荧光免疫标记（mIF）组织切片，来自1848名患者，横跨乳腺癌、肺癌、结直肠癌、肾癌、食管癌、肝癌、卵巢癌等11种器官类型和11种疾病类型。其中，3218张切片同时拥有配对的H&E图像和患者临床元数据，正是这批"三重配套"数据构成了Haiku核心对比学习训练的基础，贡献了2669万个组织图像小块。另外3848张仅有mIF数据的切片，则用于专门预训练分子图像编码器。

为了确保实验结果的可信度，研究团队在患者层面进行了严格的训练集与测试集分离：1606名患者（86.9%）的数据用于训练，剩余242名患者（13.1%）的所有切片完全隔离，专门用于评估。这个分割方式的重要性在于，它防止了同一个患者的不同切片分别出现在训练和测试中——这是一种常见的数据泄露漏洞，在医疗AI研究中经常被忽视。

每张组织切片被分割成256×256像素的小方块（称为"patch"，可以理解为组织的一个小窗口），每个小窗口同时对应三份数据：一个H&E染色的彩色图像小块、一个包含多达120个生物标记物通道的mIF图像小块，以及一段描述该小块的文字。文字描述分为两层：一层是"局部层"，描述这个小窗口里各种蛋白质的表达高低和空间分布模式；另一层是"全局层"，包含该患者的肿瘤类型、分期、分级、治疗反应、生存状态等临床信息。这两层文字被拼合在一起，形成了每个图像小块的"文字身份证"。

三、俳句的架构：一套三模态对比学习系统

理解Haiku的工作原理，可以借用一个"三面翻译器"的比喻。这个翻译器有三个入口，分别接收H&E图像、mIF分子图像和文字描述，每个入口都有一个专属的"编码引擎"把输入内容压缩成一串数字向量。然后，三个入口的输出都被投射到同一个"共享语义空间"里，在这个空间里，来自同一块组织的三种信息应该落在彼此很近的位置，来自不同组织的信息则应该彼此分离。

具体来说，H&E图像的编码引擎采用了一个叫MUSK的预训练视觉模型，这是一个专门为病理图像设计的视觉变换器，在大量H&E切片上预训练过，已经学会了识别组织形态的基本特征。文字编码引擎使用的是BiomedBERT，一个在海量生物医学文献上训练的语言模型，擅长理解医学专业术语。

mIF图像的编码引擎则更为特殊。由于市面上没有现成的、在多重荧光免疫数据上预训练的模型，研究团队从头训练了一个基于VirTues架构的mIF编码器。这个编码器有一个聪明的设计：它不仅能处理图像本身，还为每个生物标记物通道绑定了一个来自ESM-3蛋白质语言模型的蛋白质嵌入向量，作为该通道的"身份标签"。这样，即使遇到训练时没见过的蛋白质，只要有对应的ESM嵌入，模型就能处理。

三个编码引擎各自产生的向量，经过各自的"投影头"（一个两层神经网络）映射到同一个512维的共享空间。训练时，来自同一块组织的H&E向量、mIF向量和文字向量被迫靠近，而来自不同组织的向量则被推开——这种训练方式叫做对比学习，灵感来自OpenAI的CLIP模型，原本用于对齐图像和文字，Haiku将其扩展到了三个模态。

训练时，为了避免破坏已经预训练好的H&E和文字编码器，这两个编码器只开放最后两个变换器层进行微调，而mIF编码器在对比训练阶段则完全冻结，只更新各自的投影头。学习率也精细分层：H&E编码器用1×10??，文字编码器用2×10??，投影头用1×10??。整个系统在完整训练数据上训练25轮，采用先线性预热5000步、再余弦退火的学习率调度策略。

四、跨模态检索：给组织切片建立"三语词典"

Haiku训练完成后，第一个要验证的能力是跨模态检索——也就是说，给它一张H&E图像小块，它能不能从几十万个mIF图像小块的数据库里找出同一块组织对应的mIF图像？反过来，给它一段文字描述，它能不能找到对应的mIF图像？

这个任务的难度超乎想象。检索不是在同一张切片的几百个小块里找，而是在336张不同患者、不同器官的测试切片的所有小块里找——这意味着数据库里有几十万个候选对象，而正确答案只有一个。这相当于把一首诗的一行，从十万本书里找到它的原书，还要找到正确的那一页。

评估指标用的是Recall@K，也就是在前K个检索结果里，正确答案出现的比例。研究团队测试了K=1、5、10、20、50五个级别。

结果相当显著。对于H&E→mIF方向的检索，Haiku在Recall@50达到了0.611，而作为基准对比的"朴素方法"（把mIF的多通道图像强行叠加成RGB三通道，然后用H&E编码器处理）几乎没有任何检索能力，Recall@50仅为0.030。对于mIF→H&E方向，Haiku达到0.604，朴素基准仅为0.012。对于文字→mIF的跨模态检索，因为文字和图像之间本身信息差距更大，Haiku达到0.169，这个数字看起来不高，但在如此大规模的跨数据集检索场景下，已经体现出了有意义的对齐能力。

更直观的是定性展示。在一个文字→mIF的检索例子中，输入文字描述的是一个乳腺癌患者的切片，文字中提到GranzymeB、CD11c和PanCK表达较高，而Ki67和IFNγ表达较低。Haiku检索到的前三名mIF小块，每一个都忠实地反映了这些特征：富集标记物的空间分布和强度都与文字描述吻合，说明系统不仅学会了"对齐"，还学会了"理解"文字的语义内容。

在零样本分类实验中，Haiku还展示了一个类似于CLIP的能力：给它一张mIF图像，再给它10个器官类型的文字提示（比如"一张乳腺组织的mIF图像"），它能把正确的器官类型排在第一位。在10分类的器官类型任务上，宏平均F1达到0.179，而随机猜测只有0.067；在11分类的疾病类型任务上，宏平均F1达到0.182，随机猜测仅为0.059。两个差异均通过了严格的统计显著性检验。

五、下游任务：从检索到临床预测的飞跃

跨模态检索是基础能力，但更重要的问题是：这种对齐学到的特征，对临床上真正有用的任务有帮助吗？

研究团队针对这个问题设计了一系列实验，全部在训练集之外的独立测试数据上进行。

在最基础的分类任务上，团队从336张测试切片中提取了五类临床标签：器官类型、组织类型、肿瘤T分期（反映肿瘤大小和侵犯程度）、N分期（反映淋巴结转移情况）和肿瘤分级。然后用线性探针方法评估——就是冻结Haiku的编码器权重，只在其输出特征上训练一个极简单的线性分类器，测试特征本身携带了多少有用信息。

结果表明，Haiku的单模态特征（无论是H&E还是mIF）都明显超越了对应的基准模型（H&E方向超越MUSK，mIF方向超越VirTues）。更重要的是，当把Haiku的H&E特征和mIF特征拼接在一起形成"融合特征"时，性能进一步提升，在N分期任务上宏平均F1达到0.942，T分期达到0.961，肿瘤分级达到0.942，器官类型达到0.999，组织类型达到0.998。这些融合结果均显著优于任何单一模态，且统计检验均达到显著性水平（P值均小于0.001或接近这一水平），说明两种模态确实携带了互补信息，融合后能捕捉到任何单一模态都无法单独提供的内容。

在更具挑战性的生存预测和治疗反应预测任务上，Haiku的表现同样令人关注。这两个任务使用的是完全独立于Haiku训练和VirTues预训练的198张测试切片，来自两个外部队列：75例转移性黑色素瘤患者（均有免疫治疗记录和随访数据）和66例结直肠癌患者（均有治疗和长期生存数据）。这相当于让模型在完全陌生的"考题"上接受检验。

在结直肠癌的生存预测任务上，使用了基于注意力机制的多实例学习框架（可以把每张切片理解为一个"证据包"，模型学会从包里挑出最有预测价值的小块，然后综合判断患者风险）。Haiku(mIF)特征训练出的Cox回归模型，平均一致性指数（C-index，衡量模型把高风险和低风险患者排序正确的能力，0.5是随机猜测，1是完美）达到0.737，而VirTues基准仅为0.683，提升约5.4个百分点。更直观的是Kaplan-Meier生存曲线：VirTues区分的高低风险组的统计显著性P值仅为0.274（不显著），而Haiku区分的两组P值达到3.41×10??（显著），说明Haiku学到的特征能真正把预后不同的患者区分开来。

在黑色素瘤的治疗反应预测任务上，Haiku(mIF)的平均AUROC（接受者工作特征曲线下面积，反映模型区分有效与无效治疗反应的能力）达到0.756，而VirTues仅为0.352；AUPRC（精确率-召回率曲线下面积）达到0.660，而VirTues仅为0.333。单折展示中，AUROC和AUPRC分别达到0.920和0.885，差距之大令人印象深刻，且差异均达到统计显著性。结直肠癌治疗反应预测的改善幅度相对较小但方向一致，AUROC从0.721提升至0.730，AUPRC从0.735提升至0.775，统计显著性未达到传统阈值，但平均值的改善方向始终稳健。

六、零样本融合检索：让临床信息帮助推断分子特征

到这里，Haiku已经证明了自己在检索和分类任务上的价值。但研究团队还想走得更远：如果只有一张H&E图像，再加上一段只包含临床信息（不含任何蛋白质信息）的文字描述，能不能比单纯用H&E图像更准确地推断出组织里各种蛋白质的表达水平？

这个任务被称为"融合检索生物标记物推断"。方法是：把H&E图像的相似度分数和文字的相似度分数，按照一定权重加权求和，形成一个融合的检索分数，然后从mIF数据库里找出最相似的若干小块，把它们的蛋白质表达值加权平均，作为对查询小块蛋白质表达的预测。评估指标是预测值与真实测量值之间的皮尔逊相关系数（PCC，越接近1越好）。

关键的设计在于：这里用到的文字描述是"仅含元数据"的版本，也就是把文字里涉及蛋白质表达的部分全部删掉，只保留器官类型、疾病状态、分期等临床背景信息。这样做的目的是确保文字带来的提升纯粹来自临床语义，而不是因为文字本身已经直接告诉了模型蛋白质信息。

在52个经过验证的生物标记物通道上，融合检索（H&E权重0.8，文字权重0.2）的平均PCC达到0.718，而单纯H&E检索为0.710，差异通过了Wilcoxon符号秩检验（P=1.46×10??），说明临床文字信息确实贡献了独立于图像之外的补充信息。更引人注意的是，朴素基准（把mIF通道压缩成RGB再用H&E编码器处理）的平均PCC仅为-0.033，几乎毫无预测能力，说明专用的mIF编码器加上三模态对齐对这个任务是不可或缺的。

从各个生物标记物的具体表现来看，这种提升覆盖了非常广泛的生物学类别：自适应免疫标记物（如CD3e、CD8、PD-L1）、肿瘤内在标记物（如EpCAM、Ki67）、基质成分标记物（如胶原蛋白IV、CD31）等。这意味着Haiku的跨模态对齐捕捉到的不是某一类生物信号，而是真正跨越了多个生物学程序。

七、反事实预测：改变一行文字，看肿瘤微环境怎么变

到目前为止，所有任务都在"描述现实"：这张切片对应什么分期？这位患者的预后如何？但Haiku的共享语义空间还开启了一个更有趣的可能性：反事实推理。

反事实推理的问题是："如果临床情况不同，组织里的分子环境会有什么不同？"例如，同一个患者，同一块组织，如果把肿瘤分期从T2N0改成T4N2，分子微环境会发生什么变化？或者，同一个肺腺癌患者，如果把生存状态从"已死亡"改成"存活"，组织里的免疫细胞格局会有什么不同？

这种分析靠传统模型无法完成，因为传统模型是单向的：给定输入，预测输出，但无法"扰动"某一个属性再看其他属性如何联动。Haiku的共享语义空间让这成为可能：把H&E图像的嵌入向量固定不变（代表组织形态保持不变），只修改文字嵌入中的某个临床属性，然后用修改前后的"融合查询向量"分别去检索mIF数据库，比较两次检索结果的蛋白质表达差异，就可以得到一个"如果分期/预后改变，分子特征会怎么变"的预测。

研究团队强调，这些分析是探索性的、假说生成性的，而非机制性结论。单患者的案例研究无法代替大规模验证，所有结论都需要后续实验研究来核实。带着这个前提，团队做了两个案例研究。

第一个案例研究针对乳腺癌进展动态。团队选取了一位中期乳腺癌患者（T2N0M0，IIA期，2级）的281个组织图像小块，只把文字里的分期字段修改为晚期（T4N2M1，IV期，3级），其余所有信息保持不变，然后比较两次检索的mIF结果。

首先，检索结果的临床构成发生了显著变化：原始检索中，从数据库检索到的小块里有96.6%来自N0期患者，修改后降至88.6%，而N2期患者的比例从1.3%上升至4.9%。T分期的变化同样显著。这说明Haiku确实对文字扰动做出了响应，而不是返回固定不变的结果。

更有趣的是分子层面的变化。研究团队把281个小块按照H&E形态聚类成四个组织微环境：富含成纤维细胞的基质（C0，100个小块）、炎症肿瘤区（C1，70个小块）、黏液/ECM重塑基质（C2，39个小块）和以上皮细胞为主的肿瘤核心（C3，72个小块）。在每个微环境内部，分别统计反事实条件下蛋白质表达的变化。

在上皮主导的肿瘤核心（C3）里，晚期反事实扰动带来了两类协调的、符合生物学逻辑的变化：泛巨噬细胞标记物CD68上升了69.7%，淋巴管/癌症相关成纤维细胞标记物Podoplanin上升了99.9%，这两者在文献中均与乳腺癌晚期和不良预后相关；同时，乳腺癌管腔分化三联征GATA3（-22.3%）、Keratin8_18（-23.0%）和E-cadherin（-13.4%）全部显著下降，与乳腺癌进展中管腔分化丧失的文献记录方向一致。

在炎症肿瘤区（C1），晚期扰动产生的最强信号是Vimentin上升了73.9%，同时GATA3显著下降41.1%，这个Vimentin上升/GATA3下降的组合与文献中乳腺癌上皮-间质转化的分子标志高度一致。在黏液基质（C2），HLA-DR（抗原呈递相关蛋白）下降了34.2%，与三阴性乳腺癌中HLA-DR丢失与预后相关的报道方向吻合。在富含成纤维细胞的基质（C0），则出现了协调的B细胞浸润信号（CD19上升70.5%，CD20上升132.9%，CD79上升142.7%）和CD8 T细胞信号（CD8上升28.9%）。

还有一个细节值得关注：未成熟T细胞标记物CD45RA在全部四个微环境中均显著下降（C0下降29.5%，C1下降49.7%，C2下降39.8%，C3下降43.9%），且在肿瘤区下降幅度大于基质区。这与乳腺癌文献中初始T细胞在肿瘤组织中耗竭、肿瘤免疫微环境随疾病进展向激活/效应状态转变的描述方向一致。

在成纤维细胞基质（C0）内部，团队还进行了主成分分析，发现第二主成分（PC2）能区分哪些小块在反事实扰动下偏向髓系/抗原呈递方向，哪些偏向上皮/B系方向。把PC2分数与原始mIF测量值相关联，发现免疫检查点标记物LAG3和基底/肌上皮标记物TP63的基线值都与PC2有正相关（皮尔逊相关系数均为0.45），说明一个小块在反事实扰动下"往哪个方向走"，是由它自身的基线免疫和细胞类型状态所决定的——基线LAG3和TP63更高的小块，倾向于在反事实扰动下向髓系方向偏移。

第二个案例研究针对肺腺癌的生存相关分子特征。团队选取了一位肺腺癌已死亡患者（生存25个月，IIIA期，T3N1M0）的154个组织小块，只把文字里的生存状态从"已死亡"改为"存活"，其他临床信息（包括分期）保持不变，比较反事实推断的分子变化。

同样按照H&E形态聚类成四个空间微环境：上皮主导的肿瘤核心（C0，42个小块）、效应细胞富集的肿瘤区（C1，30个小块）、基质-血管转运微环境（C2，31个小块）和肿瘤-基质交界面（C3，51个小块）。

在上皮主导的肿瘤核心（C0）里，"存活"状态下CD8上升50.6%，颗粒酶B（杀伤性T细胞释放的效应分子）上升38.0%，记忆T细胞标记物CD45RO上升36.8%，同时免疫检查点分子PD-L1下降61.7%。这个模式与非小细胞肺癌中高密度CD8?T细胞和记忆T细胞与良好预后相关的大量文献报道方向一致。

在效应细胞富集的肿瘤区（C1），这是免疫检查点缓解信号最强的微环境：PD1下降24.6%，PD-L1下降30.7%，VISTA下降34.7%，同时CD8上升89.5%，CD45RO上升35.7%，抑制性髓系标记物CD11c下降35.6%，MPO下降27.5%。这个多重检查点同时缓解的模式，与免疫检查点抑制剂有效应答的分子签名有相似之处。

在基质-血管转运微环境（C2），CD8上升35.8%，CD21（滤泡B细胞标记物）上升71.9%，粒系髓系活动（MPO）下降32.1%。值得注意的是，这个微环境里广谱B细胞标记物CD20反而下降了59.7%，说明B细胞方面的变化不是简单的B细胞扩增，而更可能是CD21阳性的生发中心样B细胞亚群富集——这种富含三级淋巴结构的模式在肺癌文献中与良好预后有关联。

在肿瘤-基质交界面（C3），CD8上升13.5%，调节性T细胞标记物FoxP3下降36.1%，细胞外基质蛋白胶原蛋白IV下降23.7%，而Ki67（反映细胞增殖活力）下降24.8%，成为四个微环境中唯一达到统计显著性的Ki67下降信号（其他三个微环境有同方向趋势但未达到显著性）。这个组合指向一个从免疫抑制、纤维化屏障向更开放的免疫接触界面的转变，与文献中促进免疫细胞进入肿瘤的有利微环境特征相呼应。

整个肺癌反事实分析展现出一个具有四个收敛主题的图景：效应T细胞扩增、广泛的免疫检查点缓解、抑制性髓系清除，以及仅在肿瘤-基质交界面达到显著性的增殖减少。这些方向性一致的信号，仅通过修改一个"生存状态"文字属性就浮现出来，说明Haiku的共享语义空间确实捕捉到了某种与临床预后关联的分子组织模式。

八、局限性与未来方向

研究团队坦诚地指出了Haiku目前的几个局限。首先，当前模型的对比学习训练只能处理配对数据（同时有H&E、mIF和文字的样本），而大量现实中的单模态数据（比如只有H&E的大规模切片库）尚未被充分利用，未来引入混合配对/非配对数据的训练范式可能进一步提升模型规模和泛化能力。

其次，Haiku的文字描述是从结构化元数据模板生成的，而非真正的自由文本临床报告。将模型扩展到处理真实、杂乱的临床病历文本仍是一个开放挑战。

第三，最重要也最需要强调的：反事实分析目前是单患者的概念验证（乳腺癌281个小块来自一位患者，肺腺癌154个小块来自另一位患者），所有方向性结论都需要在更大规模的患者队列中验证，并需要实验室实验来确认具体的分子机制。反事实分析工具的价值在于生成假说，而非提供最终答案。

第四，模型当前在256×256像素的小块层面工作，要部署到完整的全切片分析场景，还需要与全切片层面的架构整合。

此外，对比学习的性能很大程度上取决于各模态编码器的质量，这意味着Haiku可以直接受益于未来更强大的单模态基础模型的发展，但也意味着当前版本的表现受限于所使用的预训练编码器。

归根结底，Haiku这个研究做的事情，是把三种原本各说各话的医学语言——组织形态、分子蛋白和临床信息——编入了同一本"词典"，让它们在同一个空间里互相翻译、互相补充。这不仅仅是一个更好的单一任务模型，而是一个通用的多模态连接框架：一旦这个词典建好，无论是检索类似案例、预测临床结局、推断分子特征，还是探索"如果临床条件改变，分子环境会怎样"这类假设性问题，都能从同一个预训练模型出发，无需为每个任务重新训练。对于任何一个从事病理学、肿瘤学或精准医疗研究的人来说，这个框架开辟的方向值得认真关注。有兴趣深入了解的读者，可以通过arXiv编号2605.00925查询完整论文，代码和模型检查点已在GitHub（zhihuanglab/Haiku）和Hugging Face（zhihuanglab/Haiku）公开发布。

Q&A

Q1：Haiku模型和普通的病理AI有什么区别？

A：普通病理AI通常只能处理一种数据类型，比如单纯分析H&E染色切片或单纯分析分子检测数据。Haiku的核心区别在于它同时学习了三种数据的对应关系：H&E病理图像、多重荧光免疫标记（mIF）分子图像，以及患者临床信息文字描述。这意味着它可以用其中一种数据去检索或推断另一种数据的内容，而不需要每个任务都重新训练一个专用模型。

Q2：Haiku的反事实分析是什么意思，能用来预测真实患者的结果吗？

A：反事实分析是指固定患者的H&E图像（代表形态不变），只修改文字里的某个临床属性（比如把肿瘤分期改高），然后观察模型检索到的分子特征如何变化，从而探索"如果临床条件不同，分子微环境会怎样"。这是一种假说生成工具，帮助研究者找到值得验证的分子信号，但目前不能直接用于预测真实患者的结果，因为这些分析基于单个患者的案例，还需要大规模队列验证和实验室实验来确认机制。

Q3：Haiku训练数据有多大，普通研究机构能复现吗？

A：Haiku在超过6200万个组织图像小块上训练，来自7066张切片、1606名患者，数据由Enable Medicine提供，是私有数据集。完整数据集目前未公开，但研究团队在Hugging Face上提供了演示数据，代码和模型权重也已开源，允许研究者在自有数据上使用已训练好的Haiku编码器提取特征或进行迁移学习。