撰文|亦
人类启动子活性预测的传统深度学习方法依赖于整合大量表观基因组数据进行训练【1,2】,计算成本高且只能反映序列与表达的相关性,难以直接推断因果关系,也无法预测未包含在训练集中的细胞类型或条件下的调控变化。
近日,荷兰乌得勒支昂科德研究所Bas van Steensel团队与Jeroen de Ridder团队合作,共同在Nature上发表了一篇题为Regulatory grammar in human promoters uncovered by MPRA-based deep learning的文章。 研究团队开发了PARM(promoter activity regulatory model) —— 一个基于细胞类型特异性MPRA数据训练的轻量级深度学习模型,能够仅从DNA序列准确预测启动子活性,并解析启动子的调控语法。
为了直接从DNA序列预测启动子活性并克服传统表观基因组模型的局限性,研究者利用K562和HepG2细胞的基因组范围MPRA数据训练了细胞特异性卷积神经网络模型PARM。他们发现PARM能高精度预测启动子活性(K562中Pearson’s R=0.92,HepG2中R=0.89),并能准确预测个体片段的活性以及整合于基因组中的启动子活性(R=0.78-0.80)。通过ISM分析,PARM成功预测了TERT启动子中致癌突变(如C250T和C228T)会增强表达,并在预测血液组织中顺式作用eQTLs方面达到了与大型模型Enformer相当的精度,但参数量(742,337)远少于Borzoi(>3千万)。
为了进一步验证PARM的预测能力并探索其设计全新启动子的潜力,研究者采用遗传算法,以PARM为评估函数,从随机序列开始迭代优化生成合成启动子。他们发现该算法生成了大量PARM预测为高活性的多样化序列。实验验证显示,这些合成启动子的实测活性与预测强相关,其中最强合成启动子的活性与天然最强启动子相当。更重要的是,定向突变PARM预测为关键的12-18个核苷酸,会导致合成启动子活性平均降低3.16±0.77倍,证明模型能精准识别功能序列元件。这些 合成序列与人类基因组无显著相似性,但包含了K562细胞中已知激活因子(如FOS-JUN, ETS, CREB)的结合基序,表明PARM已学会在特定细胞类型中组合有功能的TF基序 。得益于PARM的计算高效性,研究者将其ISM分析应用于30,607个人类启动子,以系统识别影响活性的功能性TF结合位点(即调控位点RS)。他们发现,在K562细胞中,大多数RS与已知TF基序匹配,且对应的TF在细胞内均有表达或由其高度相似的家族成员表达。分析共在20,543个启动子中识别出至少一个RS,而无RS的启动子活性普遍较低。此外,研究者发现了1,402个不与任何已知基序匹配的RS,并对其中一个高频未知基序(TCTCTATGGT)进行DNA亲和纯化与质谱分析,鉴定出ZNF48为其结合TF,并通过体外实验证实,从而证明 PARM能发现罕见且注释不全的功能性TF基序 。
由于全基因组MPRA文库需要大量细胞且可扩展性有限,而PARM训练仅需覆盖启动子的片段,研究者 开发了一种基于捕获策略、高度富集(90%)启动子重叠片段的聚焦MPRA文库 。他们发现,这种文库仅需约500万细胞(比全基因组MPRA少240倍),仍能以平均151倍的覆盖率覆盖所有人类TSS,且在K562和HepG2细胞中测得的启动子活性及PARM的预测能力与全基因组数据相当。利用此经济策略,他们成功为另外七种人类细胞系和一种患者来源的结肠癌类器官生成了高质量数据和PARM模型,模型训练仅需约1天,证明了该策略在实验和计算上的高效性与通用性。
为了在多种细胞类型中实验验证PARM的预测,研究者构建了一个包含十个启动子的合成MPRA文库,在其中系统引入每个核苷酸的所有三种突变,并在七种细胞系中测量每个单点突变的影响。他们发现,在30个通过严格质量控制的启动子-细胞系组合中,PARM预测的突变效应与实测值之间的Pearson相关系数为0.52±0.18,与Enformer(0.50±0.19)相似,而Borzoi表现更不稳定(0.48±0.32)。在识别实验可检测的RS方面,Borzoi的召回率通常最高,但PARM的精确度普遍优于Enformer和Borzoi。这表明 尽管PARM计算上更轻量,但其整体性能相似,且在识别RS时更为保守 。
接下来,研究者利用PARM探索了九种细胞系中启动子调控的差异。他们发现,尽管不同细胞类型间自主启动子活性高度相关(R=0.78-0.95),但 PARM模型仍揭示了大量细胞类型特异性的调控事件 。分析显示,靶向数千个启动子的TF通常在所有细胞类型中均活跃,而靶向较少启动子的TF(如HepG2中的HNF1A/HNF1B,K562中的GATA因子)则表现出明显的细胞类型特异性。一个值得注意的发现是, TBP在其基序上的活性并非在所有细胞类型中普遍存在,这与近期研究提示其非必需性的观点一致 。这些分析表明PARM可用于揭示启动子的细胞类型特异性调控。利用PARM工作流程的经济性优势,研究者通过MPRA和对应模型分析了细胞对三种不同刺激(热激、nutlin-3a、PMA)的响应。他们发现,即使简单的扰动结合聚焦PARM,也能提供关于个体启动子动态调控及责任TF的详细信息。
研究者探究了TF基序的方向和位置是否影响其调控活性。他们发现, 在几乎所有细胞类型和大多数TF基序中,PARM检测到的激活RS在两个方向上的数量相似,但TBP和CTCF-CTCFL是显著例外 。此外,所有启动子汇总的RS在TSS上游-120bp至+10bp范围内呈偏好性分布,峰值在-50bp,这与之前基于线性回归的估计一致。而仅基于序列的基序扫描则分布更平坦且多出约20倍的匹配,表明大多数基序在研究的细胞类型中并无功能。对匹配特定TF基序的RS进行分析,揭示了多样化的TF特异性位置模式,且这些功能性RS的分布比单纯基序扫描得到的分布更为集中,提供了单纯基序出现频率无法提供的功能信息。为了更详细研究 特定TF基序在启动子中的位置效应,研究者使用PARM预测了将单个TF基序插入天然启动子序列各处的影响。他们发现,这种效应高度多样化且依赖于位置 。对30,607个启动子系统插入四种TF基序(NRF1、NFYA、SP1、YY1)的分析揭示了普遍趋势和例外:NRF1、NFYA和SP1基序插入在活跃启动子中会产生多样化的位置效应(包括抑制),而YY1基序则主要表现出激活效应,尤其是在低活性启动子的TSS下游插入时。后续MPRA实验在四种细胞类型中验证了这些预测,确认了NFYA、NRF1和SP1基序在TSS附近或下游的抑制效应,以及YY1在这些位置的最强激活效应,表明这些效应并非普适,强烈依赖于局部序列背景和启动子的基线活性。
综上所述,这项研究 开发了名为PARM的经济高效深度学习框架,通过结合定制化MPRA数据与轻量级卷积神经网络,实现了仅从DNA序列直接预测人类启动子活性,并系统解析了其在多种细胞类型及刺激响应下的转录因子调控语法。 该研究突破了传统依赖海量表观基因组数据的建模瓶颈,以“轻量化”策略实现了对启动子核心调控逻辑的因果性解析,为未来在合成生物学、疾病突变解读及个性化医疗中快速建模细胞特异性基因调控奠定了方法学基础。
https://doi.org/10.1038/s41586-025-10093-z
制版人: 十一
参考文献
1. Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learningbased sequence model.Nat. Methods12, 931–934 (2015) .
2. Kelley, D. R. et al. Sequential regulatory activity prediction across chromosomes with convolutional neural networks.Genome Res.28, 739–750 (2018).
学术合作组织
(*排名不分先后)
战略合作伙伴
(*排名不分先后)
转载须知
【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐
点击主页推荐活动
关注更多最新活动!
热门跟贴