打开网易新闻 查看精彩图片

该论文通讯作者为上海交通大学数学科学学院 / 人工智能学院陈洛南教授与西北工业大学自动化学院张绍武教授;第一作者为闫金铃与张弛浩;研究人员还包括史际帆与黄伟填。

从观测时间序列数据中准确识别因果关系,是生命科学、地球科学、经济学以及人工智能等诸多领域的核心科学问题。尤其在复杂生物系统中,基因、蛋白质和代谢物之间高度耦合,并常常受到大量不可观测因素的干扰——这些「隐形混杂」无法被直接测量,却会严重误导因果推断结果,产生虚假的因果关联。

如何在存在未观测混杂因素的情况下,仅依赖部分观测数据重构真实的因果调控网络,一直是因果推断与系统生物学研究面临的关键挑战。我们将未观测混杂因素下的因果推断面临的关键问题总结如下:

  • 非线性动力学场景:大多数真实系统都是非线性、复杂且具有时间依赖性的。传统的因果假设——如因果马尔可夫假设(latent confounders)和忠实性假设(Faithfulness Assumption)——限制了非线性动力系统领域因果推断研究的进展。
  • 不可分离性:非线性动力系统中变量之间的耦合作用,使得从观测时间序列数据中区分潜在混杂因素变得困难。
  • 未观测混杂因素导致的虚假因果:如何区分真实的因果关系与混杂效应造成的虚假因果,以及如何从观测时间序列重建未观测的混杂因素,是非常重要且有趣的问题。

2026 年 1 月 28 日,上海交通大学数学科学学院 / 人工智能学院陈洛南团队与西北工业大学自动化学院张绍武团队等合作在国际期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)上在线发表题为「Dynamical Causality Under Latent Confounders for Biological Network Reconstruction」的研究成果。该研究提出了一种全新的动力学因果判别框架——未观测混杂因素下的因果推断(CIC),能够在存在未观测混杂变量的情况下,仅通过观测时间序列数据,准确识别因果方向、区分真实因果关联与混杂效应、重构未观测的混杂变量、重建复杂生物网络。

打开网易新闻 查看精彩图片

  • 论文链接:https://ieeexplore.ieee.org/document/11367338

问题提出

打开网易新闻 查看精彩图片

然而,在实际系统中常出现如下情形:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

由此带来两个关键挑战(见图 1(a)):

1)在存在未观测混杂变量 z 的情况下,如何准确推断从 x 到 y 的因果作用?

2)如何仅根据 x 和 y 的时间序列数据重构未观测的混杂因素 z?

打开网易新闻 查看精彩图片

图 1 未观测混杂因素下的动力学因果推断计算框架

CIC 方法总体框架

为解决上述问题,本文提出了一种基于延迟嵌入空间中正交分解定理的新框架——CIC。该方法能够在存在未观测混杂变量的情况下实现因果推断,并进一步对混杂因素进行重构。

1)延迟嵌入变换

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2)延迟嵌入空间中的正交分解

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3)因果推断与混杂因素重构

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

CIC 框架的应用

CIC成功应用于一系列非线性动力学系统和复杂生物学系统,包括基因调控网络、生态网络、恒河猴的神经元网络以及和大鼠昼夜节律基因表达网络。

以下是 CIC 在具有不同耦合形式的 3 节点 Logistic 系统中的性能:

打开网易新闻 查看精彩图片

图 2 CIC 在带有不同耦合结果的三维系统中的因果推断

以下是 CIC 在 DREAM4 in silico Network Challenge 基因调控网络中的因果推断和混杂因素重构结果:

打开网易新闻 查看精彩图片

图 3 CIC 在 Dream4 基因调控网络中的因果推断和未观测混杂因素重构

以下是 CIC 框架重构大鼠昼夜节律基因调控网络和重构未观测混杂因素(基因)的结果:

打开网易新闻 查看精彩图片

图 4 CIC 在大鼠昼夜节律基因表达数据集中的应用

方法总结

打开网易新闻 查看精彩图片

理论上,CIC 基于 Takens 的延迟嵌入提出了嵌入空间的正交分解定理,避免了对因果充分性假设的依赖;计算上,利用深度神经网络完成非线性变量表示与正交分解,从而在存在未观测混杂因素的条件下,实现复杂因果场景下(反馈回路、多重混杂因素、非平稳因果机制等)的因果推断和混杂因素重构;在应用中,CIC 在多种基准系统和真实生物学数据上均表现出优于现有方法的性能。

综上所述,本研究为非线性动力学系统的因果推断提供了新的思路,也为生物网络重构、疾病机制解析以及复杂系统建模等领域带来了重要方法学突破。