从观测时间序列数据中准确识别因果关系,是生命科学、生态学、经济学以及人工智能等领域的核心科学问题。重构复杂生物系统的因果网络,进一步揭示基因、蛋白质和代谢物等组分之间的拓扑结构与调控关系,对于理解生命活动的调控机制以及疾病发生发展的分子基础具有重要意义。然而,由于生物系统内在的复杂性以及未观测混杂因素的广泛存在,此类网络的推断面临巨大困难。例如,在基因调控网络中,未测量的遗传因素或环境变异可能作为潜在的混杂因素,诱导基因之间产生虚假关联。类似问题也出现在生态系统和经济系统中,例如生态系统中的气候变化或市场中的政策冲击,会在观测变量之间产生一致波动。在这些领域中,未观测的混杂因素虽然无法被直接测量,却会影响观测结果,导致估计偏差甚至错误的因果方向推断。因此,一个基础性挑战随之产生:如何区分真实因果关联与由未观测混杂因素诱导的虚假关联,并进一步重构这些未观测的混杂变量?

近日, 上海交通大学 数学科学学院 / 人工智能学院 陈洛南 团队与西北工业大学 张绍武 团队 等合作 在

IEEE Transactions on Pattern Analysis and Machine Intelligence
TPAMI
在线发表题为 Dynamical Causality Under Latent Confounders for Biological Network Reconstruction 的研究成果。该研究 提出了一种新的动力学因果判别框架 : 未观测混杂因素下的因果推断 ( CIC ) , 能够在存在未观测混杂变因素的情况下,仅通过观测时间序列数据,准确推断变量之间的因果关联、识别混杂效应,并重构未观测的混杂因素。

打开网易新闻 查看精彩图片

CIC 的核心在于提出了变量在延迟嵌入空间的正交分解定理。对任意一对变量(如 x 和 y ),将原始变量的时序数据转换为延迟嵌入形式,即 X t -1 和 Y t ,并将其分解为公共子空间和私有子空间。若变量 x 到 y 之间存在因果,则根据 Takens 延迟嵌入定理, X t -1 和 Y t 的公共子空间(或 Y t )可以完全重构 X t -1 ,若变量 x 到 y 之间不存在因果,则 Y t 无法重构 X t -1 。特别地,当变量 x 和 y 之间不存在因果关联且公共子空间非空时,变量 x 和 y 之间的未观测混杂因素由公共子空间量化。该方法主要适用于以下场景:非线性动力学系统、变量具有不可分离性(耦合性)、存在未观测的混杂因素。即便在存在大量未观测混杂因素的高维复杂系统中, CIC 仅需两个观测变量即可实现有效的因果推断,并重构未观测的混杂变量。这一突破显著降低了对传统因果假设的依赖,增强了在非线性动力系统中的因果推断能力,也从理论上解决因果推断中的不可分离性问题。

理论上, CIC 基于 Takens 的延迟嵌入提出了嵌入空间的正交分解定理,避免了对因果充分性假设的依赖;计算上,利用深度神经网络完成非线性变量表示与正交分解,从而在存在未观测混杂因素的条件下,实现复杂因果场景下(反馈回路、多重混杂因素、非平稳因果机制等)的因果推断和混杂因素重构;在应用中, CIC 在多种基准系统和真实生物学数据上均表现出优于现有方法的性能。

综上所述,本研究为非线性动力学系统的因果推断提供了新的思路,也为生物网络重构、疾病机制解析以及复杂系统建模等领域带来了重要方法学突破。 该论文通讯作者为 上海交通大学 数学科学学院 / 人工智能学院 陈洛南 教授 与西北工业大学 张绍武 教授;第一作者为闫金铃与张弛浩;研究人员还包括史际帆与黄伟填。

原文链接https://ieeexplore.ieee.org/document/11367338

制版人:十一

BioArt

Med

Plants

人才招聘

学术合作组织

(*排名不分先后)

打开网易新闻 查看精彩图片

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。