近日,浙江大学潘荣辉教授课题组联合浙江大学沈星星教授课题组和中国科学院分子植物科学卓越创新中心丰培强研究员课题组在The Plant Cell期刊发表了题为Structure-guided Discovery of Protein Functions in Plants的研究论文。该研究利用人工智能预测的蛋白质三维结构,对17种代表性被子植物的56万余个蛋白进行了系统性结构聚类与功能注释,发现了120个在植物中广泛保守但此前无法通过传统序列方法注释功能的蛋白家族。研究团队进一步聚焦其中一个结构上与酵母过氧化物酶体蛋白PEX8高度相似的植物蛋白,通过实验验证了植物PEX8-like蛋白确实具有与酵母PEX8等价的功能,建立了从蛋白三维结构出发、跨越序列差异发现基因功能的研究新策略。

打开网易新闻 查看精彩图片

解析植物蛋白的功能对于基础生物学研究和作物改良至关重要。然而,即便在模式植物拟南芥中,至今仍有约26%的蛋白功能未知。传统的基于序列相似性的同源搜索方法,是蛋白功能注释中长期依赖的核心手段;但当蛋白在漫长演化过程中序列发生剧烈分化、相似性显著下降时,序列方法往往无法识别远缘同源关系,导致大量蛋白长期处于功能未知的”暗物质”状态。

蛋白质的三维结构在演化过程中通常比其氨基酸序列更加保守,且与分子功能更为直接相关。随着AlphaFold等AI蛋白结构预测技术的突破性发展,从蛋白结构层面系统探索这些”暗物质”基因的功能,成为一种极具潜力的新策略。

被子植物蛋白结构图谱的构建

研究团队选取了17种代表性被子植物,涵盖2种基部被子植物、6种单子叶植物和9种双子叶植物,从AlphaFold数据库中获取了共564,657个蛋白质三维结构。利用FoldSeek算法对这些蛋白进行结构聚类,共获得177,510个结构簇,其中25,825个包含两个及以上成员的非单一簇。质量评估显示,这些簇内部结构一致性高,中位LDDT和TM分数分别为0.84和0.74,67.6%的簇展现出100%的Pfam结构域一致性(图1A-D)。

打开网易新闻 查看精彩图片

图1被子植物蛋白结构聚类流程及质量评估。(A) 本研究选取的17种被子植物的分析。系统发育树后的三组柱状图分别展示了蛋白质组完整性的BUSCO评估结果、蛋白质组中可用蛋白结构的数量,以及结构预测置信度分数(pLDDT)的分布。(B) 被子植物蛋白结构的聚类流程示意。去除单一成员簇后,保留了25,825个包含至少两个成员的簇。(C) 564,657个蛋白结构中预测置信度分数(pLDDT)的累积分布。(D) 25,825个非单一簇纯度的分布,分别以Pfam一致性、模板建模分数(TM-score)和局部距离差异检验(LDDT)进行量化。

结构引导的功能注释:发现120个”暗物质”蛋白家族

研究团队建立了一套严格的结构功能注释流程:首先将每个结构簇的代表蛋白与Swiss-Prot数据库(经专家手动审核的高质量蛋白注释库)进行结构比对和序列比对;然后筛选出那些仅能通过结构比对获得功能信息、而无法被传统BLAST序列搜索识别的蛋白簇(图2A)。

经过逐层严格过滤——结构质量(pLDDT≥0.7,TM≥0.5)、物种覆盖度(≥10个物种)、以及与现有数据库(UniProtKB、TAIR、EggNOG-mapper、HHblits)的交叉验证——最终鉴定出120个在被子植物中广泛保守、此前功能完全未知的蛋白家族(图2B-D)。

这些蛋白并非在生物学上无足轻重。它们的功能涵盖蛋白结合、水解酶活性、转移酶活性、核苷酸结合、转运体活性等多个关键类别。值得注意的是,它们的结构匹配来源广泛,涵盖动物、真菌、细菌等多个类群,其中不少来自酵母、人类等非植物模式生物,表明蛋白结构相似性能够跨越巨大的系统发育距离,连接不同类群间保守的分子功能(图2E-F)。

打开网易新闻 查看精彩图片

图2(A) 25,825个非单一簇的比对流程。(B) 3,109个结构比对结果无法被序列BLAST识别的簇的分布。筛选出的簇(橙色)满足以下条件:(1)TM-score≥0.5,表明具有显著的结构相似性;(2)pLDDT分数≥0.7,确保结构预测具有高置信度。(C) 1,292个筛选簇中每簇包含的物种数量。(D) 与多个参考数据库进行人工交叉验证,以排除功能注释与其结构匹配至少部分重叠的代表蛋白/簇。(E) 120个保守簇在不同物种类型中的最佳匹配分布,以及蛋白的预测亚细胞定位。(F) 120个被子植物簇中分子功能计数前10的GO术语。

跨界发现新蛋白功能

研究揭示了多个蛋白功能发现案例:

1. 植物体内可能存在酵母型RNA三磷酸酶。Cluster_12521与裂殖酵母的PCT1(RNA 5′三磷酸酶)结构高度相似。此前,植物中仅发现了哺乳动物型的mRNA加帽酶(ARCP1/ARCP2),而酵母型三磷酸酶从未在植物中被鉴定。这一发现提示被子植物可能同时拥有两种类型的RNA三磷酸酶。(图3A

2. 叶绿体包膜上可能存在来自内共生祖先的孔蛋白。Cluster_12986与细菌外膜孔蛋白Omp32/OmpC结构匹配,其拟南芥成员已被实验证实定位于叶绿体包膜。进一步分析显示该蛋白与蓝藻同源物的相似性高于大肠杆菌,暗示其可能随叶绿体的内共生起源而被保留。(图3B

3. 种子植物中广泛存在的液泡蛋白VAC8同源物。Cluster_21741与酵母液泡蛋白VAC8结构相似,后者参与液泡遗传和蛋白靶向。有趣的是,VAC8-like蛋白在绿藻中完全缺失,在苔藓中零星出现,在种子植物中大量扩增,却在核心十字花目(包括拟南芥所在的十字花科)中特异丢失。(图3C

打开网易新闻 查看精彩图片

图3(A) Cluster_12521与粟酒裂殖酵母(S. pombe)的RNA三磷酸酶结构匹配。(B) Cluster_12986与食酸代尔夫特菌(D. acidovorans)的OmpC结构匹配。(C) Cluster_21741与与酵母(S. pombe)液泡蛋白8(VAC8)结构匹配。图中红色和蓝色数字分别表示TM-score和序列相似度。

植物中”缺失”的过氧化物酶体蛋白PEX8

在120个蛋白家族中,研究团队重点关注了Cluster_10847——一个与酵母过氧化物酶体蛋白PEX8结构高度相似的植物蛋白家族。PEX8是酵母中已知的过氧化物酶体生物发生关键因子,但此前从未在植物中被识别,因为植物与酵母的PEX8蛋白在序列层面差异极大(图4A)。

研究团队通过系统的实验验证,证实了植物PEX8-like蛋白确为PEX8的功能等价物:

亚细胞定位:来自拟南芥、水稻和苔藓的PEX8-like蛋白均定位于过氧化物酶体。

遗传学分析:拟南芥pex8突变体表现为纯合致死,胚胎发育停滞在心形期,与已知的其他过氧化物酶体蛋白突变体表型一致。

酵母互补实验:来自拟南芥、水稻和苔藓的PEX8基因均能成功互补毕赤酵母pex8突变体的生长缺陷,提供了植物PEX8确实具有PEX8功能的直接证据(图4B)。

靶向机制保守:与酵母PEX8一致,植物PEX8不依赖PTS1信号肽即可靶向过氧化物酶体,暗示它们来自同一祖先基因。

打开网易新闻 查看精彩图片

图4(A) 来自Cluster_10847的拟南芥PEX8-like蛋白与来自4种不同酵母(毕赤酵母Pichia pastoris、酿酒酵母Saccharomyces cerevisiae、多形汉逊酵母Hansenula polymorpha和解脂耶氏酵母Yarrowia lipolytica)的PEX8蛋白的结构比较。(B) 拟南芥(Arabidopsis thaliana)、水稻(Oryza sativa)和小立碗藓(Physcomitrella patens)中PEX8的蛋白结构以及野生型和突变体(以拟南芥、水稻、小立碗藓PEX8基因回补)毕赤酵母菌株的生长分析。

综上所述,该研究首次在植物中系统开展了基于蛋白结构的功能注释,建立了面向植物蛋白功能发现的结构基因组学研究范式。研究不仅揭示了120个此前功能未知的保守蛋白家族,更以PEX8为例,实验证实了结构高度保守的蛋白即便序列大幅分化,仍可保持等价的生物学功能。这些发现为植物蛋白功能的系统解析提供了重要资源,也为作物改良等应用研究提供了新的潜在分子靶点。

为方便研究者查询和使用这些数据,研究团队同步发布了在线数据库(https://ai-biolab.cn),支持基于基因ID的数据检索。

The Plant Cell
期刊同期刊发了由 Crispus M. Mbaluto 撰写的 In Brief 评述文章 (Beyond sequences: structure-guided discovery of novel protein functions in plants, DOI: 10.1093/plcell/koag009)。评述指出,传统基于序列同源性的蛋白功能注释方法在缺乏高度相似序列时往往力不从心,而本研究所采用的结构引导策略为突破这一瓶颈提供了创新且强有力的解决方案。

评述文章特别强调了本研究的核心发现:通过对17种被子植物超过55万个蛋白质结构的系统聚类分析,研究团队鉴定出120个在植物中广泛保守、但传统序列方法无法注释功能的蛋白家族。其中约87个家族与动物、真菌、原生生物和细菌的蛋白具有结构同源性,另有约33个家族为植物所特有。评述还着重介绍了植物PEX8蛋白的发现——这一此前被认为在植物中不存在的过氧化物酶体关键蛋白,尽管与酵母PEX8在序列上高度分化,却共享独特的靶向机制,指向共同的祖先起源。评述认为,这一结构引导的蛋白功能发现策略代表了一种创新而强大的研究范式,有望为解答广泛的植物研究问题开辟新途径,推动植物生物学认知的深入发展。

打开网易新闻 查看精彩图片

浙江大学博士生陈佳荣、副研究员冯彦磊(杭州国际科创中心)、博士生张钰婵(已毕业)和博士后高炬灿(现为浙江工业大学副研究员)为共同第一作者。浙江大学潘荣辉教授、浙江大学沈星星教授和中国科学院分子植物科学卓越创新中心丰培强研究员为共同通讯作者。该研究受到了国家自然科学基金、浙江省自然科学基金等经费资助。

论文链接:

https://doi.org/10.1093/plcell/koag022