责编 | 兮
近些年,以PrediXcan、FUSION等为代表的转录组关联分析 (Transcriptome-wide association study, TWAS) 被广泛地应用在寻找复杂表型 (包括二型糖尿病、肿瘤等) 关联基因的遗传流行病学研究中。与基因组关联分析 (Genome-wide association study, GWAS) 相比,TWAS以转录调控作为遗传变异与表型之间的中介 (mediator) ,将单个遗传变异与表型的关联转换成基因/转录本与表型的关联。TWAS的研究过程主要可以分成两个步骤 (下图,来源Gusev, et al, Nat Genet 2016) :第一,利用基因附近(cis)的遗传变异信息构建转录水平预测模型;第二,利用模型预测研究对象的基因表达水平,并与表型做关联分析。该研究策略的优势包括:(1) 相比SNP,以基因为单位的分析具有更低的多重比较压力;(2) 结果以基因的形式呈现,其生物学意义更为直接,便于后续功能研究及成果转化;(3) 相比转录组单组学研究,以胚系 (germline) 基因组遗传变异为基础的转录组研究不会出现因果倒置 (reversed causality) 的问题,且受混杂因素 (confounding factor) 的影响较小;(4) GTEx数据库已提供了极为丰富的基因组、转录组数据,研究者可利用多达49种人体组织、细胞的资料作为参照 (reference panel) 建立模型,无需额外的样本检测即可实现从GWAS到TWAS的跃迁。虽然TWAS已获得了广泛的认可,但该研究方法仍然存在改进的空间。
2020年10月5日,来自范德堡大学遗传学研究所的团队在Nature Genetics(自然-遗传学) 杂志在线发表了题为“A unified framework for joint-tissue transcriptome-wide association and Mendelian randomization analysis”的遗传流行病学研究方法。新方法MR-JTI在两个方面对TWAS进行了优化:第一,通过提高模型的预测精度增加关联分析的检验效能(power) ;第二,解决基因多效性(horizontal pleiotropy)及潜在混杂因素带来的假阳性问题。
经典的TWAS在预测模型的训练中,未充分利用GTEx数据组织间广泛存在的生物学相似性。本研究通过整合多个相似的组织 (Joint-tissue imputation, JTI) 来提升模型的预测精度。相似性的估计以转录水平相似度和转录起始位置附近的DNaseI-hypersensitive sites (DHS, 来自ENCODE及Roadmap) 峰的相似度为基础,利用真实数据通过交叉验证的方法获得合适的超参数对相似度进行修正,提高预测精度。值得注意的是,当目标基因在某个组织的转录调控十分特异时,超参数会将模型自动还原为PrediXcan,以避免无效信息的引入。结果显示,JTI较PrediXcan大幅提高了预测精度 (下图) 。此外,作者还利用PsychENCODE及GEUVADIS数据库作为独立于GTEx的验证集,显示了JTI较PrediXcan (elastic net) , FUSION (Bayesian Sparse Linear Mixed Model, BSLMM) , Top eQTL, TIGAR (nonparametric Bayesian Dirichlet process regression, DPR) 及另一个多组织联合预测的方法CTIMP (Cross Tissue gene expression IMPutation, 即UTMOST*的模型训练部分。*为了可比,作者对UTMOST进行了一定的修改) 的优势。
JTI在关联分析的应用结果也较PrediXcan有很大的提升。在UK Biobank 30余万人的LDL-C研究中 ,JTI大幅提升了经多重矫正后的阳性基因数量 (下图) 。作者还在其他十余个大规模GWAS数据库及BioVU数据中进行了验证。
为了提升关联分析的证据等级,作者还将TWAS接入了孟德尔随机化 (Mendelian randomization, MR) 过程,提出了MR-JTI。考虑到模型中可能广泛存在不合适的工具变量 (invalid instrument variable,即存在多效性或/且受潜在混杂影响) ,MR-JTI通过bootstrap LASSO对工具变量进行特征选择,矫正了多效性及潜在混杂的影响 (下图) 。此方法弥补了TWAS的一大缺陷,且对于工具变量异质性的假设较MR-Egger等经典方法更为灵活。
文末,作者提供了所有基于2020年9月最新发布的包含人体49种组织细胞的GTEx v8基因表达数据预测模型以供下载应用。模型以.db的格式给出,与PrediXcan相一致。同时给出的还有SNP-SNP的协方差矩阵,以便熟悉S-PrediXcan的读者将最新的模型无缝地衔接到关联分析中去。
本文整合了包括基因组(GTEx)、转录组(GTEx)、表观修饰组(ENCODE, Roadmap)的信息,利用多个大型数据库(PsychENCODE, GEUVADIS, UK Biobank, BioVU),不仅优化了转录组关联分析的策略,还提供了最新的数据资源以便读者使用,为复杂疾病的遗传流行病学研究提供了新的思路和资源。
本文的第一作者Dan Zhou(周丹) 及通讯作者Eric R. Gamazon教授来自范德堡大学遗传学研究所。本文合作者包括中南大学/纽约州立大学上州医科大学的Chunyu Liu教授的研究团队及范德堡大学遗传学研究所的Nancy J. Cox教授的团队。
https://www.nature.com/articles/s41588-020-0706-2
参考文献
1. Gusev, Alexander, et al. "Integrative approaches for large-scale transcriptome-wide association studies."Nature genetics48.3 (2016): 245-252.
2. Gamazon, Eric R., et al. "A gene-based association method for mapping traits using reference transcriptome data."Nature genetics47.9 (2015): 1091.
3. GTEx Consortium. "The GTEx Consortium atlas of genetic regulatory effects across human tissues."Science369.6509 (2020): 1318-1330.
4. Urbut, Sarah M., et al. "Flexible statistical methods for estimating and testing effects in genomic studies with multiple conditions."Nature genetics51.1 (2019): 187-195.
热门跟贴