打开网易新闻 查看精彩图片

摘要

在复杂生物系统中,从观测数据中推断变量间的干预性直接因果关系对于揭示调控机制至关重要,但仍是计算生物学中的核心挑战。本文提出 KOCMI(Knockoff Conditional Mutual Information)——一种无需先验网络结构知识即可量化干预因果效应的新方法,适用于独立样本或时间序列数据。KOCMI对变量进行反向操作作为其虚拟干预,保留原始网络结构,然后通过估计干预前后分布的不变性来识别两个变量之间的因果关系。文章表明,在算法上,即使对于具有环路的网络,KOCMI也可能量化因果关系;在理论上,虽然没有网络结构的前提条件,但是结果与do-calculus因果分析一致。KOCMI在基准和真实数据集上的表现优于现有方法。总体而言,KOCMI为推断干预因果关系提供了一种强有力的工具,在理论和实验上都得到了验证。

在测量变量之间进行因果推断对于理解复杂生物过程在网络层面上的潜在机制至关重要,但在计算生物学中仍然具有挑战性。我们提出了一种创新的因果标准,KOCMI(knockoff conditional mutual information),以准确推断无需先前网络结构知识的干预直接因果关系,适用于时间独立或时间序列数据。KOCMI对变量进行反向操作作为其虚拟干预,保留原始网络结构,然后通过估计干预前后分布的不变性来识别两个变量之间的因果关系。文章表明,算法上,KOCMI使得因果关系的量化成为可能,即使对于具有环路的网络,理论上,它也与do-calculus因果分析一致,但没有网络结构的前提条件。KOCMI在基准和真实数据集上的表现优于现有方法。总体而言,KOCMI为推断干预因果关系提供了一种强有力的工具,其理论得到保证,并通过真实干预数据进行实验验证。

关键词:Knockoff操作(Knockoff Operation),分布不变性(Distribution Invariance),因果推断 (Causal Inference),虚拟干预 (Virtual Intervention),条件互信息 (Conditional Mutual Information),基因调控网络(Gene Regulatory Network, GRN),干预性因果关系(Interventional Causality)

Lynne丨作者

赵思怡丨审校

打开网易新闻 查看精彩图片

论文题目:Quantifying interventional causality by knockoff operation 论文链接:https://www.science.org/doi/full/10.1126/sciadv.adu6464 发表时间:2025年10月1日 论文来源:Science Advances 相关代码链接:https://github.com/ZhangXinyan2023/KOCMI


引言:从“相关”到“因果”的鸿沟

在生物学、医学乃至经济学等领域,我们观测到海量的数据。传统的分析方法,无论是基于相关性还是回归模型,大多只能告诉我们变量之间“有关联”,但这远不等于“有因果”。正如著名哲学家朱迪亚·珀尔(Judea Pearl)所阐述的结构因果模型框架,关联(Association)只是第一层,而我们真正渴望理解并能够指导干预的,是第二层——干预(Intervention)。例如,知道基因A的表达与疾病B相关,并不代表敲除基因A就能治疗B,后者需要确切的因果证据。

现有的干预性因果推断方法,如基于“do-calculus”的因果图模型,依赖于网络结构的先验知识,极大地限制了在真实生物网络中的适用性。此外,许多方法仅适用于无环网络,难以适配现实问题。

KOCMI的破局之道:一场精巧的“替身”实验

为了解决上述难题,作者提出了一个创新方法:基于Knockoff条件互信息的因果推断框架。此方法无需网络结构的先验知识,即可基于独立时间数据或时间序列数据识别变量对之间的干预性直接因果关系。

那么,KOCMI是如何实现这一看似不可能的任务的呢?其核心思想可以类比为一场在计算机中进行的、无需动用真实实验资源的“替身”实验。

想象一下,我们想研究变量X是否直接导致Y发生变化。在现实世界中,严格的科学实验需要直接干预X,然后观察Y的变化。KOCMI的巧妙之处在于,它通过对变量执行“Knockoff操作”生成一个完美的“替身”——变量X的Knockoff变量(记为),以此作为虚拟干预,无需实际实验即可保留原始网络结构(图 1A)。

这个“替身”具有两个关键特性:

第一,它自身与原始变量X服从相同分布;

第二,它与网络中除Y之外的所有其他变量保持着与X完全相同的关联关系。

这就好比为X制作了一个“全息投影”,这个投影在除目标Y之外的所有维度上都与本体一模一样。

接着,KOCMI进行核心的因果检验:分布不变性检验。它比较的是,在给定其他所有变量Z的条件下,Y在“面对”原始X时的分布,即P(Y|X,Z),与Y在“面对”替身时的分布,即P(Y|,Z),是否发生了显著变化(图 1B)。

  • 如果分布不变:意味着即使把X偷偷换成了它的替身,Y的行为模式也丝毫没有改变,这说明两者不存在因果关系。

  • 如果分布改变:意味着替身X̃扰动了Y的分布,两者存在因果关系。

从概念上讲,构建Knockoff变量的核心逻辑是:在保持Knockoff变量与其他所有变量相关性不变的前提下,最大化其与原始变量的差异。

打开网易新闻 查看精彩图片

图1. KOCMI 框架。 (A) 针对 X 的Knockoff干预以研究 X → Y:为因变量 X 生成一个Knockoff变量。 (B) 使用分布不变性作为因果推断的标准:如果干预后结果/效应变量的条件分布发生变化,则存在因果关系;如果条件分布保持不变,则不存在因果关系。 (C) KOCMI 的计算框架。

从思想到算法:量化因果强度的三步走

作者将KOCMI这一思想转化为可计算的稳健算法,主要包含三个步骤(图 1C):

  1. 制造“替身”:基于观测数据,利用GhostKnockoff等方法,为因变量X生成Knockoff副本,这些副本集体充当了虚拟干预的样本。

  2. 计算“因果信号”:分别计算原始X与其Knockoff副本在给定其他变量Z的条件下,与果变量Y的条件互信息的差值:D = CMI(,Y|Z) - CMI(X,Y|Z)。

  3. 统计检验与量化:由于生成了多个Knockoff,可以得到D值的一个分布。通过非参数的置换检验,来判断D值是否显著地不等于零。同时,为了量化因果关系的强弱,作者定义了因果强度cs,即D值的绝对值除以其标准差。这不仅给出了一个“是/否”的因果结论,更提供了一个可比较的因果效应大小指标。



性能验证:在“考场”中脱颖而出

任何新方法的提出,都必须经过严格的基准测试。作者将KOCMI与七种当前主流的网络推断方法(GENIE3、nonlinear-ODE、GENIMS、CLR、ARACNE、TIGRESS、NIMEFI)在多种模拟和真实数据集上(the SOS DNA repair network in Escherichiacoli、the human HeLa data)进行了全面比拼。

在模拟的五种经典因果场景中(cascade, fan-out, sequential, fan-in, loop)(图 2A),KOCMI在绝大多数情况下都取得了最高的AUROC和AUPR值,并且在数据噪声增大时依然保持稳健(图 2B)。KOCMI也是少数能够有效处理含环结构网络的方法(图 2C)。

在著名的IRMA基因网络(图 2D)、大肠杆菌SOS DNA修复网络(图 2E)、人类HeLa细胞周期数据(图 2F),以及DREAM3和DREAM4挑战赛数据集(图 3)上,KOCMI的表现都很好,在捕捉真实调控关系方面表现比较突出。

打开网易新闻 查看精彩图片

图2. 在基准数据集上的性能。 (A) 三个变量之间的五种因果场景。 (B) 在噪声水平增加的模拟案例中,不同方法的表现。 (C) 在五个中等噪声水平案例中,不同方法的 AUROC 和 AUPR 的乘积。 (D 和 E) 不同方法在 IRMA 数据集和 SOS DNA 修复数据集上的表现。 (F) 不同方法在人体 HeLa 细胞数据集上的表现。

打开网易新闻 查看精彩图片

图3. 不同方法在 DREAM3 和 DREAM4 计算机网络挑战数据集上的表现。 (A) 不同方法在 DREAM3 和 DREAM4 挑战中每个网络的表现。 (B) 不同方法在轨迹数据和稳定数据上的平均表现。 (C) 不同方法在 DREAM3 和 DREAM4 上的综合表现。 (D) DREAM4 网络 1 的真实网络及由 KOCMI、TIGRESS 和 NIMEFI 重建的网络。

实战应用:从皮肤菌群到癌症基因的因果发现

理论的优越性最终要体现在解决实际问题的能力上。KOCMI在多个生物学前沿领域展现了其强大的应用潜力。

  • 皮肤微生态:通过分析数百份额头样本和面颊样本(图 4A),KOCMI揭示了特定微生物门类与皮肤生理指标之间的因果联系。置换检验结果显示,经表皮水分流失(TEWL)、皮脂(Hydration)、pH 值和卟啉(Porphyrin)等皮肤生理指标在额头和面颊部位存在显著差异(P<0.05)(图 4B),这种差异可能由微生物组差异引起,也可能导致微生物组差异。此外,作者分别推断额头和面颊部位微生物群对皮肤生理指标的因果调控关系,并通过皮尔逊相关系数(PCC)判断因果关系的正负性(图 4C)。研究发现,放线菌门对多个皮肤指标有正向因果效应,而拟杆菌门则对经皮水分流失等有负向影响,这些发现与已知的皮肤菌群功能高度吻合。

打开网易新闻 查看精彩图片

图4. 使用宏基因组数据和乳腺癌数据对 KOCMI 的验证。 (A) 共收集并测量265个额头样本和277个颊部样本,以研究皮肤微生物组和皮肤生理指标。 (B) 颊部与额头之间的皮肤生理指标差异。 (C) KOCMI 从微生物群落到皮肤生理指标识别的因果关系。 (D) 使用乳腺癌数据重建的网络的子网络。(E、F)针对核心基因及其共有的上游基因进行的药物富集分析和京都基因与基因组百科全书(KEGG)通路富集分析。注:NF-κB 为核因子 κB,PI3K 为磷脂酰肌醇 3 - 激酶。

  • 癌症关键基因:在乳腺癌和肝癌数据中,KOCMI识别调控关系,重构了基因调控网络,筛选出度值最高的 6 个核心基因(图 4D)。对这些基因及其网络进行的富集分析(图 4E、F),基于分析筛选出10种潜在药物,其中 4 种药物已被证实具有治疗乳腺癌的潜力或已用于乳腺癌耐药性研究。

  • 糖尿病干预验证:最有力的证据来自于对真实干预数据的分析(图 5)。作者利用胃旁路(RYGB)手术前后糖尿病患者的时序蛋白质组数据,让KOCMI进行“虚拟干预”来寻找与血糖、胆固醇有因果关系的蛋白质。结果发现,那些被KOCMI判定为“正调控”血糖的蛋白质,在手术后随着血糖的降低,其表达量也真实地下降了;而被判定为“负调控”的蛋白质,其表达量则随之上升。虚拟干预得出的因果预测,与真实手术干预的观测结果高度一致,强有力地证明了KOCMI在识别真实干预性因果关系上的准确性与可靠性。

打开网易新闻 查看精彩图片

图5. KOCMI 在糖尿病中识别干预因果关系。 (A) KOCMI 识别的与葡萄糖相关的因果蛋白及基因本体 (GO) 富集分析。 (B) KOCMI 识别的蛋白在 DO 组与 NO 组之间的表达差异。 (C) 实际外科干预后蛋白表达的变化与 KOCMI 识别的对葡萄糖的调节关系一致。 (D) 由具有显著度差异的蛋白组成的调节网络。

讨论与展望:机遇与挑战并存

KOCMI的成功在于它利用Knockoff操作,在理论上与经典的do-calculus框架贯通一致的同时,摆脱了其对先验知识的依赖。它适用于稳态和时序数据,能处理循环网络,且在高维和低维场景下均有效。

当然,没有完美的方法。KOCMI目前的有效性依赖于“无未观测混杂因子”的假设。随着网络规模的扩大,其计算复杂度也会增加。未来,作者计划探索在存在未测量混杂因子情况下的稳健算法,利用深度学习框架生成更精确的Knockoff,并将方法扩展到识别“多因一果”的复杂高阶因果关系。

因果表征学习读书会

随着“因果革命”在人工智能与大数据领域徐徐展开,作为连接因果科学与深度学习桥梁的因果表征学习,成为备受关注的前沿方向。以往的深度表征学习在数据降维中保留信息并过滤噪音,新兴的因果科学则形成了因果推理与发现的一系列方法。随着二者结合,因果表征学习有望催生更强大的新一代AI。

集智俱乐部组织以“因果表征学习”为主题、为期十周的读书会,聚焦因果科学相关问题,共学共研相关文献。欢迎从事因果科学、人工智能与复杂系统等相关研究领域,或对因果表征学习的理论与应用感兴趣的各界朋友报名参与。集智俱乐部已经组织三季“因果科学”读书会,形成了超过千人的因果科学社区,是其第四季,现在加入读书会即可参与因果社区各类线上线下交流合作。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:

1.

2.

3.

4.

5.

6.