中国科学院康禹团队基因组DNA语言模型被ICLR 2026收录|dna|中国科学院|亚型|序列|康禹|抗原|生物学|病毒

人工智能领域国际顶级会议 ICLR 2026收录了中科院北京基因组研究所（国家生物信息中心）的最新研究成果 AntigenLM。该工作聚焦于探索如何将生成式人工智能与病毒基因组结构先验深度融合，从而实现对流感抗原进化的高精度预测与亚型判别。

AntigenLM 提出了一种结构感知的DNA语言模型。模型以自回归 Transformer 为骨干，在预训练阶段直接建模完整流感病毒基因组，显式保留八个基因片段的功能单元结构与顺序信息，从而学习跨基因片段的高阶协同进化约束。在微调阶段，模型进一步引入 sentinel 标记，对不同功能区域进行显式边界建模，引导模型注意力聚焦于抗原区域。基于这种结构感知预训练+sentinel引导微调+条件自回归生成的统一建模框架， AntigenLM 能够利用连续时间窗口内的历史 HA/NA 序列，生成未来可能流行的抗原序列；同时，通过共享模型骨干，还可高效支持亚型分类等判别任务。

图1. AntigenLM 架构预训练与微调阶段的示意图。

在下一流行季流行毒株预测（疫苗株选择相关）中，AntigenLM无论在H1N1还是 H3N2，在全长基因和抗原表位中均取得最低错配率，其中H1N1-HA和H3N2-NA 的提升最为显著：相较WHO当前疫苗推荐株，错配率降低>70%，相较SOTA抗原预测模型beth-1降低~50%，抗原表位仅有0–1个氨基酸错配。此外，AntigenLM在未见亚型和地域测试中表现出良好的跨亚型与跨地域鲁棒性，并在测试案例中90%正确预测分支转换，符合已知抗原漂移规律，显示出未来基于合成生物学的疫苗设计指导潜力。此外，在流感A多亚型分类任务中，AntigenLM取得了99.81%的F1分数，显示出其学习到的表示具有高度的生物学一致性与良好的泛化能力。

图2. AntigenLM在所有预测任务中实现最低的氨基酸错配率。

该研究展示了生物学结构本身可以作为一种有效的归纳偏置被系统性引入基础模型设计中。AntigenLM为AI驱动的病毒进化预测、疫苗设计及计算基因组学研究提供了新的方法学参考，展示了人工智能与生命科学深度交叉融合的潜力。

该文第一作者为中科院计算机网络信息中心博士生裴月，通信作者为中科院北京基因组研究所（国家生物信息中心）康禹研究员。

Yue Pei, Xuebin Chi, Yu Kang. AntigenLM: Structure-Aware DNA Language Modeling for Influenza. In The Fourteenth International Conference on Learning Representations, 2026.

论文链接：

https://openreview.net/forum?id=Y0zPlHDO5p

https://www.arxiv.org/abs/2602.09067

｜GWAS荟萃分析结果发布

快点亮"在看”吧！