撰文丨王聪
编辑丨王多鱼
排版丨水成文
功能性核酸(functional nucleic acid,FNA)是经过设计的 DNA 或 RNA 分子,其功能超越了存储遗传信息,例如用于分子识别的核酸适配体(aptamer)、用于基因调控的调控元件以及用于催化作用的脱氧核酶或核酶。
尽管它们在化学、生物学、医学和材料科学等多个领域具有巨大潜力,但由于核苷酸序列空间庞大,FNA 的设计仍是一项艰巨挑战。蛋白质设计得益于完善的序列-结构-功能规则和丰富的 3D 结构数据,已取得一些列重大突破,而核苷酸结构具有高度灵活性,导致了其序列-结构-功能关系异常复杂,从而阻碍了 FNA 的设计。
2026 年 3 月 11 日,中国科学院杭州医学研究所韩达研究员、陈广勇研究员、郭沛副研究员、裘捷中研究员作为共同通讯作者,在 Nature 子刊Nature Computational Science上发表了题为:De novo design of functional nucleic acids of aptamers 的研究论文。
该研究提出了一个名为InstructNA的新框架,其结合了核酸大语言模型(NA-LLM) 和高通量 SELEX(HT-SELEX)数据,不依赖于难以获得的核酸 3D 结构信息,直接从序列中学习功能,能够从头设计(
de novodesign) 全新的核酸适配体(aptamer) 。
传统的实验筛选方法,例如指数富集的配体系统进化(SELEX),虽然常用,但往往存在成本高昂、成功率低、初始文库中序列空间不完整以及 PCR 偏向性(更倾向于扩增效率而非功能亲和力)等问题。计算方法推动了生物分子设计的发展,但它们在很大程度上依赖于 3D 结构预测的准确性。尽管诸如 ESM、AlphaFold、RoseTTAFold 和 ProteinMPNN 等工具极大地促进了蛋白质的计算设计,但核酸领域的类似发展却因实验性核酸 3D 结构的稀缺而受阻。基于深度学习的模型,例如 RaptGen 和 AptaDiff,能够在无需 3D 结构的情况下,快速在计算机中探索广阔的设计空间,但它们仅基于少量特定目标的 SELEX 数据进行训练,这使得它们无法学习到捕捉全面序列-功能关系所需的丰富语义。
大量基于生物序列训练的大语言模型(LLM)彻底改变了蛋白质设计的范式,但其在核酸设计中的应用仍处于探索阶段。近期,有少量核酸大语言模型(NA-LLM)被报道,这激励了研究团队开发能够指导 NA-LLM 生成功能更优 FNA 序列的方法。
在这项最新研究中,研究团队开发了InstructNA,这是一个利用先进的核酸大语言模型(NA-LLM)和高通量指数富集的配体系统进化(HT-SELEX)数据进行从头生成设计功能性核酸(FNA)的框架。
InstructNA 具有两个显著能力,首先,研究团队继续用 HT-SELEX 数据对现有的 NA-LLM 进行预训练,从而生成一个虚拟库,用于生成在物理筛选中常被忽略的更优 FNA 序列。其次,为了迭代优化 FNA 设计,研究团队开发了 HC-HEBO(爬山-异方差演化贝叶斯优化)算法,该算法能够在连续潜在空间中实现 FNA 的定向进化。通过建立一个生成-评估闭环系统,计算机模拟和体外数据反复优化 FNA 功能的替代函数,指导逐步优化序列的生成。
研究团队证明了 InstructNA 能够学习功能核酸(FNA)的语义丰富、功能相关且稳健的表征,生成的核酸适配体序列对转录因子(TF)的结合特异性高于现有的最先进模型。
与传统的 HT-SELEX 相比,InstructNA 为两种蛋白质靶点 LOX1 和 CXCL5 分别生成了亲和力高出 100% 和 200% 的强结合核酸适配体,且与原始 HT-SELEX 核酸适配体的序列相似度低至 38%,这表明了 InstructNA 能够探索全新的序列空间,而非简单模仿。
InstructNA 的高效性、稳健性和广泛实用性表明了核酸语言模型(NA-LLM)的显著能力,特别是当与 HT-SELEX 集成时,能够推动 FNA 设计领域的发展。这种协同作用为开发基于 FNA 的分子工具以应用于广泛领域开辟了道路。
总的来说,InstructNA的高效性、稳健性和广泛实用性表明了核酸语言模型(NA-LLM)的显著能力,特别是当与 HT-SELEX 集成时,能够推动 FNA 设计领域的发展,将 FNA 设计从依赖耗时费力的实验筛选,转向了以计算预测为主导、实验验证为辅的更高效范式,还能够发现传统实验方法可能遗漏的、结构新颖且功能更优的候选分子,从而为开发用于诊断、治疗的各种 FNA 分子工具开辟了新道路。
论文链接:
https://www.nature.com/articles/s43588-026-00965-3
热门跟贴