新华社伦敦1月29日电(记者郭爽)谷歌旗下“深层思维”公司29日在英国《自然》杂志刊发封面文章介绍,该公司推出的AlphaGenome深度学习模型能解码人类基因组中98%对健康至关重要的“暗基因组”,未来可用于深入了解遗传疾病、改进基因检测并为新疗法的研发提供信息。
人类基因组由约30亿个DNA碱基对组成,DNA双螺旋结构由A、T、C、G四种碱基有序排列而成。其中,负责编码蛋白质的基因仅占约2%,而约98%的区域为非编码区,这些通常被称为“暗基因组”的区域虽不直接编码蛋白质,却能影响基因表达。大量与疾病相关的变异位点正位于这些被科学界知之甚少的非编码区。
传统方法往往需要在序列长度和预测精度之间做出权衡,AlphaGenome模型则打破了这一技术瓶颈,实现了对长DNA序列进行高分辨率预测。该模型利用人类和小鼠的基因组进行训练,并学习了DNA序列如何影响各种生物过程。
研究显示,AlphaGenome模型可以预测长达100万个碱基对的DNA序列的功能。这一工具不仅可以预测基因的位置,还可以预测“暗基因组”对基因表达和基因剪接等产生的影响。值得一提的是,该模型可以预测遗传密码中单个“字母”(单碱基)的变化所带来的影响。
研究团队通过26项基准测试对AlphaGenome模型进行了综合评估,结果显示,该模型在25项任务中达到或优于现有最先进模型的水平。
“深层思维”公司团队当天在社交媒体说,这一工具可帮助科研人员了解DNA,预测基因变化的分子影响,并推动新的生物学发现。
AlphaGenome模型已于去年开放给非商业用途,此后已有3000名科学家使用过该工具。虽然开发该模型的研究团队表示这一模型并不完美,但一些科研人员已将其描述为“一项了不起的成就”和“一个重要的里程碑”。
原标题:《“深层思维”公司说其AI模型可解码人类“暗基因组”》
栏目主编:秦红、蒋竹云 文字编辑:尹尚胜男 题图来源:上观题图
来源:作者:新华社
热门跟贴