利用AI工具几分钟即可追溯基因对共同祖先|ai工具|共同祖先|变异|序列|遗传学

来源：市场资讯

（来源：环球网资讯）

来源：科技日报

科技日报北京5月10日电（记者张梦然）美国俄勒冈大学研究团队发布了一项突破性成果。他们利用ChatGPT同源技术，攻克了生物进化研究难题，开发出全球首个面向群体遗传学的语言模型。该人工智能（AI）工具可解析DNA序列中的突变规律，几分钟就可追溯基因对的共同祖先，为重建生物进化史提供了全新模式。相关论文刊登于新一期《美国国家科学院院刊》。

这项技术受大语言模型启发，采用改进版GPT-2架构，但训练数据并非自然语言，而是基于细菌、啮齿类、蚊媒及灵长类等多物种的进化模拟数据。模型通过学习DNA序列中“A、T、C、G”四种碱基构成的“遗传语言”，识别出类似文本错别字的突变模式，这些随世代累积的变异正是追溯血缘关系的分子路标。

在传统群体遗传学中，依赖概率统计的推断方法虽精度可靠，但面临计算效率瓶颈。尤其在应对大规模基因组数据时，解析单个染色体可能耗时数日，且难以处理片段缺失的不完整序列。新模型将繁重的统计运算前置到训练阶段，实际应用时仅需数分钟即可完成传统方法需数小时的任务，速度提升达数十倍。测试表明，其在推算基因“认祖”这一核心指标上，已媲美现有最优统计方法。

该技术对公共卫生研究具有直接价值。研究团队正将其应用于疟疾防控领域，通过分析蚊虫种群中抗药性基因的演化轨迹，揭示杀虫剂选择压力下的进化动态。而理解抗性基因何时出现、如何扩散，正是制定可持续防控策略的关键。模型对非完整数据的兼容性，恰好解决了野外采样常见的基因序列碎片化难题。

团队计划进一步拓展模型功能，从当前双谱系分析向多谱系全基因树重建迈进。尽管传统方法已能实现部分功能，但机器学习路线有望在处理海量数据方面展现独特优势。目前团队正致力于优化算法，以捕捉更复杂的进化信号。这项跨学科探索不仅为遗传学注入新方法，也为AI在生命科学领域的深度应用提供了新路径。

【总编辑圈点】

这项研究最厉害之处，是科学家把“读文章”的技术拿去“读基因”。之前科学家看基因变化，就像拿着放大镜一个碱基一个碱基地数，慢而且累，遇到残缺不全的基因数据就无能为力。但现在这个AI几乎一眼就能看出DNA序列里哪些地方写错了，还能通过这些错误反推出生物的祖先是谁，甚至推出什么时候“分家”的。这对现实世界有个很直接的用处：比如对付蚊子。它能快速算出蚊子身上的抗药基因是哪年出现的、是怎么在蚊群里传开的。知道了抗药基因的扩张路线，才能及时调整杀虫剂，不让蚊子产生耐药性。可以说，该技术把原本要算好几天的进化题缩短到了几分钟，让人们可以从更乱、更碎的生物样本里挖出有用的进化线索，真正做到了“把AI从聊天室带进了实验室”。