Inocras是一家以生物信息学为核心的公司,利用全基因组数据和专有分析能力提供精选洞察以推进精准健康。该公司今天宣布,与韩国科学技术院(KAIST)合作撰写的论文"DNAChunker: Learnable Tokenization for DNA Language Models"已被ICML 2026(国际机器学习大会)接收发表。
该论文介绍了DNAChunker——一种面向DNA语言模型的可学习自适应标记化方法,能够将基因组序列动态分割为具有生物学意义的变长单元。传统的DNA语言模型使用固定大小或外部定义的片段来处理基因组序列,而DNAChunker则基于生物学上下文学习如何对遗传密码进行分组,从而更准确、更高效地表示复杂的基因组模式。
DNAChunker在实现最先进性能的同时,仅用1.72亿参数就匹配了领先的12亿参数DNA语言模型的准确率,模型体积缩小了七倍以上。通过在保持性能的同时减小模型规模,DNAChunker有望使先进的基因组AI模型更适用于大规模研究、转化发现和未来临床应用。
"DNA语言模型在很大程度上依赖于基因组序列在被AI解读之前如何表示,"Inocras首席信息官、论文共同负责人Wonchul Lee表示。"通过用可学习方法替代刚性标记化,DNAChunker为下游基因组建模提供了更精确、更高效的基础。"
"我们的ICML接收标志着Inocras癌症基础模型的一个重要里程碑,该模型与KAIST合作开发,基于来自多种癌症类型的数千个全基因组进行训练。"Inocras首席执行官Jehee Suh表示。"DNAChunker为这一更宏大愿景提供了基于生物学信息的基因组表示层,帮助基础模型超越模式识别,迈向具有临床意义的癌症解读。我们与KAIST正在共同推进使全基因组AI更准确、更高效、更具可扩展性所需的核心技术。"
KAIST主导了基础算法设计、模型实现和验证,而Inocras贡献了大规模计算资源、关键技术思路和验证工作,以使模型与实际和临床应用对齐。
"DNAChunker表明,序列表示是构建有效DNA语言模型的核心挑战,"来自KAIST的Sungsoo Ahn教授和Insu Han,以及论文的通讯作者表示。"我们与Inocras的合作帮助将先进的AI方法论与全基因组分析的规模和实际需求连接起来。"
关于Inocras
Inocras是一家以生物信息学为核心的公司,通过全基因组数据和专有分析能力重新定义精准健康。其肿瘤学和罕见病平台将全面的全基因组数据与先进自动化相结合,大规模提供精选且可操作的洞察,加速发现和诊断以改善患者护理,产生真实世界影响。Inocras运营一家CLIA/CAP认证实验室,与全球领先的医院、制药公司和研究机构合作。
热门跟贴