新AI模型提高与疾病相关基因组学的预测能力|dna|基因组学|序列|活性|细胞系

为了了解DNA与疾病的关系，美国洛斯阿拉莫斯国家实验室的科学家开发了第一个多模态深度学习模型EPBDxDNABERT-2，该模型能够利用DNA“呼吸”，即双螺旋结构自发打开和关闭，来确定转录因子（调节基因活动的蛋白质）之间的精确关系。该模型有可能帮助设计用于治疗源于基因活性疾病的药物。

洛斯阿拉莫斯国家实验室研究员、该论文的第一作者Anowarul Kabir说：“转录因子有很多种，人类基因组的规模大得令人生畏。”“因此，有必要找出哪种转录因子与超长DNA结构上的哪个位置结合。我们试图用人工智能，特别是深度学习算法来解决这个问题。”

基于DNA训练的深度学习模型

DNA以相当于30亿个英文字母的数量写入每个人类细胞，为人类生命的生长和维持提供了蓝图。转录因子结合到DNA的某些部分并影响基因表达的调控：单个基因如何为细胞的发育和功能提供特定的指令。因为这种表达可以在疾病中表现出来，如癌症，预测与特定基因位置结合的转录因子可能对药物开发有影响。

研究小组使用的基础模型是在DNA序列上训练的。该团队构建了一个DNA模拟程序，该程序捕获了大量的DNA动态并将其与基因组基础模型集成，从而产生了EPBDxDNABERT-2，该程序能够处理染色体上的基因组序列，并将相应的DNA动态作为输入。一个这样的输入-DNA呼吸，或DNA双螺旋结构的局部和自发打开和关闭，与转录活性相关，如转录因子结合。

洛斯阿拉莫斯国家实验室的研究员Manish Bhattarai说：“DNA呼吸特征与DNABERT-2基础模型的整合大大增强了转录因子结合的预测。”“我们将DNA编码片段作为模型的输入，并询问模型是否在许多细胞系中与转录因子结合。这些结果提高了特定基因位置与许多转录因子结合的预测概率。”

使用Venado运行AI算法

该团队在实验室最新的超级计算机Venado上运行了他们的深度学习模型，Venado将中央处理单元与图形处理单元相结合，以驱动人工智能功能。深度学习模型的工作方式类似于大脑的神经网络，结合图像和文本，揭示复杂的模式来生成预测和见解。

为了训练模型，研究小组使用了690个实验结果的基因测序数据，包括161种不同的转录因子和91种人类细胞类型。他们发现，EPBDxDNABERT-2显著提高了660多种转录因子结合的预测，在一个关键指标上提高了9.6%。从受控环境中的实验中提取的体外数据集的进一步实验补充了自然界数据集，或直接从活体生物（如小鼠）研究中提取的数据。

研究小组发现，虽然单独DNA呼吸可以几乎准确地估计转录活性，但多模态模型可以提取结合基序，即转录因子结合的特定DNA序列，这是解释转录过程的关键因素。

Bhattarai说：“正如它在多个不同数据集上的表现所证明的那样，我们的多模态基础模型表现出了多功能性、鲁棒性（健壮性）和有效性。”“该模型标志着计算基因组学的重大进步，为分析复杂的生物机制提供了一种复杂的工具。”