近日,解放军疾病预防控制中心宋宏彬研究员和李鹏副研究员团队,与中国医学科学院杨俊涛研究员团队、吴爱平研究员团队,以及军事科学院军事医学研究院李靖副研究员团队开展合作,使用深度学习方法,建立了可量化评估新冠病毒变异株的宿主嗜性转换的基于语言嵌入的注意力递归网络模型(Attentional Recurrent Network based on Language Embedding,ARNLE),通过ARNEL模型研究发现,新冠病毒在流行过程中不断转向人类嗜性,在人群中传染性逐渐增强,致病性逐渐减弱,从而与人类宿主达到一种“共生”状态,相关研究成果发表在Nature MachineIntelligence期刊[1]。
研究人员选择2019年12月前来源于6大类宿主(翼手目、灵长目、食肉目、偶蹄目、猪形亚目和啮齿目)的冠状病毒(不包含新冠病毒),并提取其中5个主要编码蛋白(ORF1ab、S、E、M和N)的氨基酸序列,使用ELMo语言模型建立冠状病毒蛋白质语言模型。
训练后ELMo模型进行精细表征、训练和验证。进而通过接入一个加入注意力机制的双向长短期记忆网络(Bi-LSTM)监督学习模型,对S蛋白的宿主进行分类识别。
通过使用ELMo+Bi-LSTM整合的定量预测,发现新冠病毒在流行早期,对人类宿主嗜性维持在较低状态,但在2020年11月Alpha流行株出现后,病毒对人类宿主嗜性快速上升。研究人员发现,新冠病毒优势变异株的早期替代过程,一个重要原因是对人类宿主嗜性更强的变异株取代了嗜性更弱的变异株。结果表明,如果在新冠病毒流行早期未能遏制其流行,则病毒将快速产生对人类的嗜性增强,从而进一步加快传播和变体更替。
研究人员使用基于贝叶斯方法的事后解释策略,评估识别了影响病毒宿主嗜性迁移的关键变异位点。结果表明,模型预测的前20个关键变异位点,均有实验文献报道其对新冠病毒感染宿主细胞或免疫逃逸能力的正面影响,其中包括T478K、L452R、N501Y和P681H/R等重要突变。研究人员将上述ELMo+Bi-LSTM模型,结合基于贝叶斯方法事后解释策略的模型框架,命名为ARNLE,有望能推广用于其他病毒的宿主嗜性及流行更替研究。
该研究使用当前先进的语言模型方法,通过人工智能有效学习病毒氨基酸序列特征,清晰刻画了新冠病毒从早期类似翼手目冠状病毒到后期类灵长目冠状病毒的适应性演化过程,对预测未来具有潜在流行风险的新冠病毒变异株具有重要意义。研究也强调了在病毒流行早期对其进行遏制,防止其广泛传播造成的变异适应,仍然是病毒性传染病防控的有效手段。
刘宇奇博士、李靖副研究员、李沛翰博士为本研究共同第一作者。
文章来源:
Liu, Y., et al., ARNLE model identifies prevalence potential of SARS-CoV-2 variants. Nature Machine Intelligence, 2024. https://doi.org/10.1038/s42256-024-00919-2
热门跟贴