近年来,基于人工智能的方法层出不穷,为生物医学领域提供了数百万高质量的预测蛋白质结构。这得益于高通量测序和功能基因组学产生的数量空前的基因变异和疾病相关基因变异。但在将基因组与蛋白质结构联系起来方面仍然存在挑战,研究人员需要有效的工具和资源将不同的数据类型联系起来——将变异“映射”到蛋白质结构上,以便更好地了解变异如何导致疾病,从而设计治疗方法。

为此,Broad研究所Sumaiya Iqbal团队在Nature Methods上发表了题为“Genomics 2 Proteins portal: a resource and discovery tool for linking genetic screening outputs to protein sequences and structures”的研究论文,开发了一个联系基因组学与蛋白质组学的门户网站——Genomics 2 Proteins(G2P)。利用该平台,研究人员不仅可以深入了解与遗传变异相关的蛋白质序列和结构,还能以交互方式上传蛋白质残基注释(例如变异、评分等)、更新蛋白质结构数据库。G2P平台为生命科学研究人员提供了动态查询、检索遗传变异和转录本并将其与蛋白质序列注释和结构连接起来的高效生物信息学工具。

打开网易新闻 查看精彩图片

一、

G2P平台介绍

目前 ,G2P将200767998个遗传变异映射到42413个蛋白质序列和77923个结构上,并进行了全面的蛋白质特征报告(图 1)。 通过利用实验解决和预测的蛋白质结构, G2P门户覆盖了99%具有相应结构的人类蛋白质。

G2P具有两个模块:“基因/蛋白质查找”模块归 纳了三个人类遗传变异数据库——基因组聚集数据库(gnomAD)、ClinVar和人类基因突变数据库(HGMD)的人类蛋白质变异,集合大量的人类蛋白质组资源,供用户探索转录本的遗传变异与蛋白质序列和结构的关系;“交互式映射”模块则为用户提供先进的数据分析工具和可视化工具,分析对象不限于公开可用的变异或蛋白质结构。研究人员还开发出一整套蛋白质残基注释方法,可通过评估变异对重要蛋白质特征的影响,解密变异机制。

除变异数据及蛋白质结构数据之外,G2P还纳入了蛋白质特征数据,包括氨基酸的物化性质、基于PDB和AlphaFold结构的结构特征、来自UniProtKB的序列注释、来自PhosphoSitePlus的PTM以来自变异效应(MAVE)的多重测序读数,为用户对gnomAD 、ClinVar和HGMD变异的不同结构、功能特征及分布差异提供见解。

打开网易新闻 查看精彩图片

图1.G2P的生物信息学框架

二、

“基因/蛋白质查找”模块的使用方法

研究人员以揭示MORC2致病性变异的空间分布及其蛋白质结构-功能关系方面的效用为例,介绍了基因/蛋白质查找模块的使用方法。

用户在“variant to protein sequence”选项卡下选择转录本后(图2a),查看映射的变异和蛋白质特征。用户可通过筛选器筛选目标变异,例如在MORC2的N末端区域(残基20-470)发现了一组PLP错义变异。蛋白质特征轨迹提供了对该区域的进一步见解。相应结果可在“variant to protein structure”选项卡下的结构查看器进行3D可视化(图2b)。将ClinVar PLP错义变异(黄色,图2b)与MORC2同型二聚体(PDB 5OF9)晶体结构上的结合位点轨迹进行映射,揭示突变接近二聚体界面和结合位点(黑色;图2b)。

打开网易新闻 查看精彩图片

图2.基因/蛋白质查找模块的用例(报告MORC2变异和蛋白质特征)

三、

Interactive Mapping模块示例

研究人员使用已发表的DNA甲基转移酶3A[1]的碱基编辑(BE)扫描结果进行研究。

用户在“start with a gene/protein identifier”栏输入基因DNMT3A,选择一种结构(PDB 4U7T)并上传注释,例如34个错义变异(碱基编辑位置)、BE扫描的sgRNA评分和来自AlphaMissense的致病性预测评分,以及结构域注释(图3a)。结果部分的“Resources in the G2P portal”栏可做补充。通过选择“Base-edited position”和“domain”注释(图2a,左),用户可以精确定位每个结构域内变异的3D位置(图2a,右)。

Gene/Protein Lookup模块中用户上传和集成数据的并发映射——例如ClinVar PLP变异和三类二级结构——允许用户在已知致病性变异(图2b,上)和结构特征(图2b,下)的情况下分析其变异。最后,图2c展示了BE扫描结果在AlphaFold结构上的映射。

打开网易新闻 查看精彩图片

图3.Interactive Mapping模块示例(DNMT3A碱基编辑扫描结果映射)

基因筛查越来越多地应用于临床实践,但转化和临床遗传学的一个持续瓶颈是解码筛选出的遗传变异。大多数临床鉴定的变异仍然具有不确定的意义,并且确定治疗上可行的变异具有挑战性。将遗传变异与结构生物学联系起来,提供了一种将许多疾病的潜在原因与分子效应联系起来的方法。然而,整合基因组学、转录组学、蛋白质序列和结构之间的数据是连接变异和蛋白质结构所必需的,由于不同的数据类型和固有的复杂性,这并不是容易实现。该研究提出的G2P门户网站,克服了多组学数据整合的挑战,为人类蛋白质组建立了基因变异和蛋白质结构之间的桥梁,为帮助分析遗传变异-蛋白质结构关系及发现新的治疗机制提供了强有力的生信工具。

该研究的所有资源都可以在G2P门户网站(https://g2p.broadinstitute.org/)上获得。

https://www.nature.com/articles/s41592-024-02409-0

参考文献:

[1] Lue, N. Z. et al. Base editor scanning charts the DNMT3A activity landscape. Nat. Chem. Biol. 19, 176–186 (2023).

快点亮"在看”吧