科学家基于AI模型检测蛋白质同源物，为蛋白质鉴定提供解决方案|rna|同源物|大分子|序列|李煜|蛋白质|鉴定

29 岁的李煜目前在香港中文大学担任助理教授，他致力于围绕 RNA 和蛋白质开发机器学习、深度学习等人工智能算法，并将序列分析、结构预测、功能预测等应用于解决生物和医疗健康领域的挑战。

在中国科学技术大学生物专业获得一等荣誉学士学位后，来到沙特阿拉伯阿卜杜拉国王科技大学计算机专业获得硕士和博士学位，从那时起，他的研究方向从生物学转向了计算机科学和生物医药交叉。

此前，李煜曾在美国麻省理工学院、美国哈佛大学等高校担任访问助理教授和访问学者，并曾担任美国博德研究所副研究员。

2022 年，他与团队在第 15 届结构预测关键评估大赛（CASP，Critical Assessment of Structure Prediction）的 RNA 结构预测竞赛中，获得总评全球冠军和全自动化类冠军。

近期，李煜课题组与合作者共同开发了一种创新的蛋白质同源物检测方法——密集同源物检索器（DHR，Dense Homolog Retriever）。该方法基于蛋白质语言模型和密集检索技术，能够实现超快速和高灵敏度地检测蛋白质同源物。

研究人员采用了独特的双编码器框架，从而为蛋白质序列产生向量嵌入表达形式。通过分析不同蛋白质的向量表达，可以便捷地识别同源蛋白质，无需传统的序列比对步骤，从而大幅提高了检测效率。

此外，DHR 的蛋白质语言模型在其嵌入中隐式地融合了大量的进化和结构数据，进一步提升了检测的灵敏度。

基于 AI 的蛋白质结构预测和设计近年来备受瞩目，并获得了 2024 年诺贝尔化学奖。同源序列搜索技术与蛋白质结构预测密切相关，同样在多个领域展现出应用价值。

李煜认为，同源序列对比是生物学研究中最基础且关键的技术之一，生物学家对其使用程度甚至超过了单纯的蛋白质结构预测。

这项技术的应用范围广泛，对于推动生物科学的发展具有深远的影响。该技术为蛋白质结构预测、药物开发和药物发现提供了一个强大的工具。

不仅能够帮助科学家探索不同物种之间的进化关系，为进化生物学家提供关键信息，还能在病毒和病原体研究中发挥重要作用，比如分析病毒的进化趋势和地区分布等。

同源序列对比在生态学研究中也扮演着关键角色，其能够帮助人们了解生态系统中病毒、细菌、真菌等生物的多样性。

此外，在定向进化领域，该技术对于改造蛋白质、核糖核酸（RNA，RibonucleicAcid）和优化酶功能等研究同样不可或缺。

可实现识别蛋白质远源同源物

实际上，该研究最初的研究目标是加速蛋白质结构预测工具 AlphaFold 2 的运行速度。

研究人员注意到，使用 AlphaFold 2 在构建序列数据库和生成模型输入所需的多重序列比对（MSA，Multiple sequence alignment）时，程序耗费了大量时间，尤其是在同源序列搜索这一步骤。

于是，该团队进一步提出，是否有可能解决 AlphaFold 2 输入前同源序列搜索的效率问题？

在深入研究同源序列搜索的过程中，研究人员面临两个核心的问题。

首先，搜索速度不足，尤其是在处理蛋白质、脱氧核糖核酸（DNA，DeoxyriboNucleic Acid）和 RNA 等大规模序列数据时，这些数据的规模通常达到以百万甚至亿级别，使用传统软件进行搜索会耗费大量时间。

其次，识别同源序列不仅依赖于序列间的相似度，更重要的是它们在进化过程中的距离。在进化过程中，某些序列的功能片段可能完全丢失，导致序列相似度降低。

但从进化的角度来看，这些序列仍然被认为是同源的。传统的基于序列相似度对比的方法不仅速度慢，而且可能无法检测到这些演化中的远源同源序列。

传统的位点特异性迭代比对（PSI-BLAST，Position-Specific Iterated Basic Local Alignment Search Tool）和序列对比工具 HMMER 等方法，虽然在序列对齐和对比方面有一定的效果，但它们很难同时保证速度和准确度。

为了突破这一局限，该课题组采取了一种全新的方法。他们借鉴自然语言处理技术，使用类似于预训练模型 BERT（Bidirectional Encoder Representations from Transformers）的编码方法，将生物大分子序列编码转换成高维向量。

以 768 维向量为例，研究人员通过向量点乘等数学运算操作，直接计算出序列间的相对相似性，从而快速得到结果。这种方法显著提升了速度和准确率，而且向量中不仅包含了序列的原始信息，还隐含了结构信息。

与常规方法相比，DHR 在检测灵敏度方面的表现提升了 10% 以上，而在那些难以通过传统对齐技术识别的超家族样本中，其灵敏度提高逾 56%。

在速度方面，DHR 比 PSI-BLAST 和 DIAMOND 等方法快 22 倍，比 HMMER 快高达 28700 倍。

值得关注的是，DHR 技术能够识别出新的远源同源关系，有助于更好地理解那些已经得到充分研究的蛋白质之间的联系，进而深化对蛋白质进化、结构和功能之间相互关系的了解。

李煜指出，这种新方法打破了依赖于传统的序列对齐方式，并能够更有效地识别生物大分子序列的同源性，为研究生物大分子结构和功能提供了一种更快速、更准确的工具。

在研究中，研究人员特别关注模型的灵敏度，尤其是对于那些传统方法难以处理的且灵敏度极低的序列（软件 MMseqs2 的灵敏度通常小于 0.4）。

值得注意的是，该模型在处理这些具有挑战的案例时表现出色，性能可以达到 0.8 甚至 0.9。

此外，得益于该方法在语言层面隐式编码蛋白质结构信息的优势，它不仅能够有效处理远源同源序列，还能够隐式地考虑蛋白质的 3D 结构信息。

“我们的模型在识别这些难以捉摸的序列方面具有显著的优势，这种能力使其在结构生物学和蛋白质工程领域具有重要的应用潜力。”李煜说。

日前，相关论文以《利用深度密集检索技术快速、灵敏地检测蛋白质同源物》（Fast, sensitive detection of protein homologs using deep dense retrieval）为题发表在Nature Biotechnology[1]。

香港中文大学博士生洪亮、胡智航、复旦大学青年研究员孙思琦、美国耶鲁大学博士生唐相儒是共同第一作者，李煜、耶鲁大学马克·格斯坦（Mark Gerstein）教授和孙思琦担任共同通讯作者。

需要了解的是，该方法在处理长序列和内存消耗方面仍存在提升的空间。对于超过几千个氨基酸的序列，当前性能不足，且模型的内存消耗较大，这有可能会影响用户体验。

因此，该团队正在致力于提升处理长序列的能力。与此同时，他们还计划将结构信息明确整合进模型。

“尽管目前蛋白质语言模型主要隐式地考虑结构信息，但通过预测工具或数据库中已有的结构信息，有望更有效地利用这些数据来识别同源序列。”李煜表示。

用 RNA 语言模型精准预测 RNA 的三维结构

在蛋白质科学领域，众多研究方法和公司的积极参与已经使得该领域竞争异常激烈。相比之下，对 RNA 分子的研究起步较晚，但其潜力巨大。

无论是信使 RNA（mRNA，Messenger RNA）、小 RNA（sRNA，small RNA）还是长非编码 RNA（lncRNA，Long non-coding RNA），这些 RNA 分子有望成为治疗传统药物难以攻克的疾病的创新疗法。

最近，李煜团队与合作者在 RNA 领域取得重要进展。他们在 RNA 语言模型的深度学习方法基础上，开发了一款新工具 RhoFold+，其原理类似于 AlphaFold，用于从序列中精准预测单链 RNA 的 3D 结构。

该课题组集成了近 2400 万 RNA 序列上预训练的 RNA 语言模型，在此基础上，利用解决数据稀缺性的技术，实现了一个完全自动化的端到端 RNA 3D 结构预测流程。

RNA 语言模型可以被视为一个通用模型，为了解决更复杂的问题，该团队基于此模型进一步开发了 RhoFold+。

李煜指出，RhoFold+在 RNA 结构预测方面取得了显著的成果，它能够接收一个 RNA 序列并预测其 3D 结构，和单纯的 RNA 语言模型相比，相当于从本科生的水平提升到了研究生。

RhoFold+展现出了显著的效率优势，它能够在仅仅 0.14 秒内快速生成准确的预测结果，无需进行耗时的采样过程，也不需要依赖专家的专业知识。

跨家族和跨类型评估以及时间限制的基准测试结果，证明了它的有效性和泛化能力。

此外，该模型还能对 RNA 二级结构与螺旋间角度进行预测，并提供了可以实证验证的特征，扩大了其在 RNA 结构和功能研究中的应用范围。

RhoFold+的开发，不仅为 RNA 结构预测提供了一个强大的新工具，而且为 RNA 在药物设计和合成生物学中的应用开辟了新的可能性。

近日，相关论文以《使用基于语言模型的深度学习方法精准预测 RNA 三维结构》（Accurate RNA 3D structure prediction using a language model-based deep learning approach）为题发表在Nature Methods[2]。

香港中文大学研究助理沈涛、博士生胡智航、复旦大学青年研究员孙思琦和哈佛大学刘迪博士是共同第一作者，李煜、哈佛大学詹姆斯·J·柯林斯（James J. Collins）教授、尹鹏教授、智峪生物创始人兼 CEO 王晟和复旦大学孙思琦担任共同通讯作者。

李煜认为，未来药物开发和生物技术领域的关键突破将集中在提升分子间相互作用的预测技术上。

尽管目前领域内已经在单个结构或序列分析方面实现了突破，如 AlphaFold 在预测蛋白质结构上的准确性，但在预测分子相互作用方面仍然有限，包括它们的作用位置、强度和随时间的动态变化等，而这些信息对药物开发至关重要。

此外，虽然蛋白质研究积累了大量数据，但在将计算模拟结果应用于实际医疗问题时，研究人员经常面临数据稀缺和偏差问题，这会导致体外实验与体内实际应用之间的不一致。

因此，如何在数据噪声大、数据量有限以及模拟与实际应用存在偏差的情况下，有效解决实际问题，是李煜课题组未来研究的重要方向。另据悉，他们还计划近期将相关研究成果向工业应用转化。

参考资料：

1.Hong, L., Hu, Z., Sun, S. et al. Fast, sensitive detection of protein homologs using deep dense retrieval.Nature Biotechnology(2024). https://doi.org/10.1038/s41587-024-02353-6

2.Shen, T., Hu, Z., Sun, S. et al. Accurate RNA 3D structure prediction using a language model-based deep learning approach.Nature Methods21, 2287–2298 (2024). https://doi.org/10.1038/s41592-024-02487-0

排版：刘雅坤