编辑丨王多鱼
排版丨水成文
近日,DeepSeek新发布的“外挂大脑”模式在大模型圈内爆火,仅 16 天后,国内一个名叫Genos的团队将这种模式引入了生命科学领域,提出了Gengram创新模块,以解决当前基因组基础模型的核心瓶颈,通过用高效的检索替代一部分繁重的计算,实现了“超越条件计算”的目标,同时兼顾了实证性能和机制可解释性。
简单理解,就是不费时费力地让模型背常识,直接装上“外挂大脑”,需要的时候查表就行。
如果说之前的基因组大模型是在逐字认识 ATCG 的排列组合,那么 Genos 团队此次推出的Gengram则相当于为其配备了一本“基因字典”。数据显示,搭载 Gengram 后的大模型,不仅刷新了多项基因组任务的 SOTA 记录,让模型在剪接位点识别等任务上 AUC 提升16.1%,还能自己悟出 DNA 双螺旋的物理规律。
瓶颈:只会“读字母”的基因组模型
在生物学中,很多 DNA 的功能元件(例如启动子、剪接位点)往往由特定的碱基组合(Motif)决定,但目前主流的基因组大模型都采用单碱基分词的形式,也就是把 DNA 序列拆成一个个碱基来处理,这种方式虽然精准,但效率极低。
就像我们看“刻舟求剑”,是一眼看懂成语的含义,而不是先分析“刻”字有几笔,“舟”字怎么写,然后一个字一个字拼在一起,这不仅浪费算力,还容易让模型在长达数亿的碱基序列中迷路。
突破:给 AI 装上“外挂记忆”与“成语词典”
今年 1 月 13 日,DeepSeek发布的Engram论文引发热议,其核心是减少“死记硬背”的任务,交给一个外部查表机制。受此启发,Genos团队提出了Gengram,成功将这一模式引入基因组学,实现了“静态模体识别”与“动态语境推理”的结构解耦。
外置“基因字典”(显式存储): 团队预构建了一个涵盖 1-6 碱基长度的哈希字典,将生物学中常见的短序列组合存入其中。当模型读取序列时,可以直接检索相关的生物学先验知识,不再需要从零推导。
动态门控机制: AI 学会了“看人下菜碟”。在编码区或关键调控区,门控高度激活,积极调用记忆库;而在广袤的无功能背景区,门控则保持抑制,减少计算干扰。
模型结构及评估概览示意图
发现:神奇的 21bp
在测试过程中,研究团队发现了一个很有意思的现象,Gengram在训练时,会通过一个局部窗口来聚合信息。研究团队发现,当这个窗口大小设定为 21bp (碱基对)时,模型性能达到最优。
为什么是 21?
我们知道,DNA 是双螺旋结构,旋转一圈大约是 10.5 个碱基,21 个碱基恰好转了 2 圈。这意味着,相隔 21bp 的两个碱基,在三维空间中恰好位于螺旋的同一侧,面对相似的生化环境,共同决定了蛋白质(例如转录因子)如何结合到 DNA 上。
也就是说,Gengram 通过这种设计,让 AI 在处理一维序列时,隐约也看见了 DNA 的三维空间。
Gengram 模块在不同窗口大小下的验证损失
战绩:小插件撬动大模型
Gengram是一个极轻量的插件,参数仅约 20M,相对于 100 亿参数的模型微乎其微,却对模型能力有了极大提升。
出色的模型数据能效比:在与多款主流 DNA 基础模型的横向测评中,集成 Gengram 的模型仅需极小规模的训练数据,便能在核心任务上媲美乃至超越训练数据规模领先其数倍乃至数十倍的公开模型。
这篇论文中的实验,大多基于人类基因组基础模型 Genos 来实现。Genos 是研发团队于去年 10 月发布的全球首个百亿级人类基因组基础模型,目前已应用于华大基因面向遗传病临床检测的大语言模型GeneT,助力提高遗传病分析解读的水平。
多种参数MoE模型中,Genram模块对负载均衡的影响
幕后:杭州 AI for Science 的“特种部队”
Gengram的发布,让人们将目光投向了杭州 AI 版图的另一块重要拼图——Genos团队。
这支低调的团队结合了华大生命科学研究院的组学大数据经验,与之江实验室的计算和模型能力。这种“数据+算力”的强强联合,正是目前攻克AI for Science领域壁垒的关键配置。
如果说 DeepSeek 证明了通用 AI 的极限,那么 Genos 团队则用行动展示了当 AI 深度对齐生物学逻辑时,我们离真正读懂“生命之书”又近了一大步。
Paper:https://github.com/BGI-HangzhouAI/Gengram/blob/main/paper/
Github:https://github.com/BGI-HangzhouAI/Gengram
Hugging face:https://huggingface.co/BGI-HangzhouAI/Gengram
热门跟贴