由新加坡A*STAR基因组研究所(A*STAR GIS)领导的研究团队开发了一种方法,可以准确高效地读取含有非标准碱基的DNA——这一任务曾被认为对传统DNA测序仪来说太复杂。他们的研究成果发表在自然通讯上,结合了纳米孔测序和人工智能(AI),快速且精准地解码这些额外的“字母”。
挑战:解码DNA,自然的隐秘语言
DNA就像自然的说明书,由四个标准“字母”或碱基A、T、C和G构成。科学家们早已设想通过添加新的“字母”来扩展这一遗传字母表,这些新字母被称为非标准碱基(NCBs)。这些NCBs可以自然存在于某些病毒里,或者在实验室合成,它们有潜力开启设计分子、材料和生物系统的新方法。
然而,DNA测序仪是为了识别这四个标准碱基而设计的。由于它们难以检测或解码新的碱基,科学家们无法充分利用它们的潜力来开发更精准的药物、为可持续化学生产设计人工基因组,以及为未来的技术设计可编程材料和纳米设备。
“我们快速阅读一段文本的能力在很大程度上依赖于我们对所使用词汇的熟悉程度,”A*STAR GIS的科学家、该研究的第一作者毛里西奥·利斯博阿·佩雷斯博士说。“同样,对于一个AI模型来说,要‘快速阅读’DNA,它必须见过足够多的每种碱基的例子。非典型碱基是稀有且更难产生的,因此我们必须设计创造性的方法来生成足够的例子供我们的AI模型进行学习。”
解决方案:使用AI翻译含有非典型碱基的DNA
研究团队创建了一个包含标准和非典型碱基的人工DNA的大型库,以不同的组合,然后使用纳米孔测序记录每个碱基通过微观孔时产生的独特电信号。
由于数据通常噪声较大且不完整,研究人员开发了一种AI驱动的方法,可以迭代学习和改进,随着时间的推移不断优化预测结果。他们还通过创造性地重新排列现有信号数据来提升AI模型的学习效果,以表示更多的组合。
这种自适应方法使人工智能能够准确识别每个碱基的独特模式,从而使测序仪能够直接读取新的DNA“字母”。
虽然其他研究小组也探索了类似的挑战,但本研究是首个展示能够直接、可靠地识别非标准碱基的大规模DNA测序仪的研究,克服了训练数据有限等关键瓶颈。
“能够大规模准确识别这些新碱基,让我们拥有更丰富的词汇,用于书写和阅读生物信息,”A*STAR GIS人工智能与计算部副主任、该研究的资深作者Niranjan Nagarajan博士说。“这就像学习识别新字母,让我们能理解生命语言中更多的单词和含义。”
该方法的变革潜力
这一突破可能推动多个领域的创新:
- 医疗和治疗:准确读取和分析非标准碱基,消除了开发DNA和RNA治疗方法中的一个主要瓶颈,为新药和诊断工具铺平了道路。
- 先进材料和生物技术:非标准碱基可以作为纳米结构和纳米机器人的新构建块,在医学、制造和可持续化学生产方面带来突破。
- 数据和信息存储:用扩展DNA字母表编码信息,可以让数据存储更经济、更节能,可能会减少数据中心对环境的影响。
研究人员计划进一步探索,发现病毒中更多的非标准碱基,并提升AI模型对它们的检测能力。
“我们对这种新DNA测序方法及其带来的可能性感到非常兴奋,”来自A*STAR GIS的执行董事Wan Yue博士表示。
“使用扩展的DNA字母表将为科学家创造更多机会,以开发新的治疗方法和新型可编程材料。这些材料可以用于纳米结构和纳米机器人,同时也能产生环保化学品的新型生物体。这些创新可以推动科学研究,创造经济价值,并最终改善生活。”
了解更多信息: Mauricio Perez等,直接高通量解析非典型碱基,通过纳米孔测序和自助学习,自然通讯(2025)。 DOI: 10.1038/s41467-025-62347-z
热门跟贴