打开网易新闻 查看精彩图片

理解人体复杂系统宏观生理表型与微观遗传分子信息之间的跨尺度关联,是当前生物医学领域面临的关键科学问题,也对目前人工智能、系统生物学等前沿学科的发展提出了重要方法学挑战。心电图(ECG)作为心血管疾病临床诊疗的金标准,是耦合宏观生理表型与微观遗传分子的关键中间层次。然而,如何通过人工智能模型解析这种跨尺度关联的底层规律,并构建具有普适性的预测模型,对于深入理解心血管疾病的发生发展、推动精准预警与药物干预具有重要科学价值和现实意义。

近期,孙逸仙纪念医院基础与转化医学研究中心赵慧英教授与中山大学计算机学院杨跃东教授团队在心血管智能诊疗与跨尺度遗传发现领域取得进展。针对大规模生物样本库中多模态数据缺失及临床AI模型泛化性、可解释性不足等难题,团队先后创建了基因型-心电图尺度推断模型CapECG以及千万级数据心电基础大模型ECG-LFM。相关成果分别发表于npjDigital MedicineNature Communications。这些研究系统揭示了基于生理信息的心血管系统宏、微观跨层次关联规律,实现了多尺度心电信号与多组学信息的推断与整合。

打开网易新闻 查看精彩图片

在发表于npjDigital Medicine的题为Empowering genetic discoveries andcardiovascular risk assessment by predicting electrocardiograms from genotype的论文中,研究团队首先在心血管复杂体系宏、微观关联的本质规律发现上取得突破。针对大型人群队列UK Biobank(UKB)中仅有约10%的样本同时具备基因与心电数据的“小样本”局限,该研究创建了基因-心电表型跨尺度推断模型CapECG。该模型基于自注意力胶囊网络架构,能够自主挖掘基因变异与心电特征间的复杂非线性关联。为了应对高维基因数据的挑战,团队研发了LD-PCA方法进行维度缩减:首先利用连锁不平衡(LD)区块对全基因组范围内的800多万个单核苷酸多态性(SNP)进行分割,随后通过主成分分析(PCA)在每个区块内提取前10个主成分,并嵌入LD注意力模块以量化不同基因区块对心电表型的贡献。实验结果表明,CapECG在102种具有显著遗传力的心电特征预测中,实现了0.62的平均皮尔逊相关系数(PCC),其性能显著优于传统线性回归模型及Transformer、CNN等基准模型。依托这一推断框架,团队成功为UKB中38.8万名仅有基因数据而缺乏心电数据的个体重构其心电特征。在临床转化潜力方面,融合了推断表型的深度学习模型(DeepCVD)将6种心血管疾病的预测精度(AUC)从传统多基因风险评分(PRS)的0.71提升至0.80。在遗传发现方面,利用预测的空间QRS-T夹角(spQRSTa)开展的大规模全基因组关联分析(GWAS),识别出133个显著遗传位点,极大拓展了有效样本量并提升了统计效力。

打开网易新闻 查看精彩图片

图1:CapECG方法流程

打开网易新闻 查看精彩图片

在发表于Nature Communications的题为A self-supervised electrocardiogram foundation model for empowering cardiovascular disease prediction and genetic factor discovery的论文中,团队构建了具有深度可解释性的心电图预训练大模型 ECG-LFM。该模型采用来自Harvard-Emory 心电图数据库和 MIMIC-IV的超过一千万份12导联心电图进行自监督预训练,构建了统一的多模态嵌入表征空间。ECG-LFM融合了上下文对比学习、掩码语言建模(MLM)及多段对比学习任务,使模型能够深度提取心电信号的全局上下文语义与细粒度时空波动模式。基准测试显示,ECG-LFM在PTB-XL、CODE-15、UKB等多个独立临床队列的8种心血管疾病预测中,展现出卓越的泛化性能,平均AUROC达到0.930。模型尤为突出的优势在于其极低的数据依赖性:即便仅使用 1%的标注样本进行微调,该模型的平均 AUROC仍可达0.872,显著优于基准预训练大模型HeartBEiT 12.1%以上。这为克服医疗领域常见的“小样本”局限、构建面向临床的智能诊断模型提供了核心支撑。为了破解深度学习的“黑盒”难题,研究团队构建了基于扰动的特征解释(PEI)方法,实现了心电深度表征与形态特征的精准对齐。该方法通过在特征空间引入微小扰动并观察其对心电重构波形的影响,首次将模型提取的高维隐式衍生特征(EDF)映射回临床可识别的形态学区域。例如,研究证实衍生特征EDF 导联的ST段形态;而 EDF 则反映了心室肥厚导致的QRS波异常形态 。进而,通过对这1024个具备明确生物学意义的衍生特征开展GWAS元分析,研究团队在19个基因座上识别出24个显著SNP,其中包括8个位于 CEP85L、PRDM16、TTN 等基因附近的全新遗传位点 。随后的孟德尔随机化(MR)分析进一步确证了特定心电特征与心肌肥厚、心房颤 动等疾病间的双向遗传因果联系,为“生物网络”视角下的复杂疾病机理研究提供了新依据。

打开网易新闻 查看精彩图片

图2:ECG-LFM方法流程

这一系列研究从心血管系统宏、微观跨尺度重构了心血管AI的研究逻辑。CapECG模型自下而上地利用基因组数据重构生命早期的心电特征,解决了多组学配对数据稀缺的难题;而ECG-LFM预训练大模型则确立了高泛化、强解释的心电基座模型,能够深入解析宏观波形背后隐藏的微观分子图谱。两者的成功结合,不仅展示了人工智能在理解心血管系统宏、微观跨尺度关联规中的核心价值,也为进一步推动心血管精准诊疗提供了关键的技术路径。

中山大学计算机学院博士生林斯颖、中山大学孙逸仙纪念医院李钊琪为以上文章的共同作者,赵慧英教授和杨跃东教授为通讯作者。

https://www.nature.com/articles/s41467-026-72436-2

https://www.nature.com/articles/s41746-026-02438-3

制版人:十一

BioArt

Med

Plants

人才招聘

学术合作组织

(*排名不分先后)

打开网易新闻 查看精彩图片

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。