打开网易新闻 查看精彩图片

全球基因数据库里躺着超过4亿条测序记录,但人类能读懂的不到1%。这个尴尬比例维持了整整二十年——直到有人把Transformer(一种深度学习架构)塞进了生物实验室。

把基因当代码读

把基因当代码读

Living Models这家公司做的事情,本质上和ChatGPT没什么区别:都是找规律、做预测。区别只在于训练材料——一个用互联网文本,一个用ATCG四字母写成的生命指令。

「地球上每个活着的东西都运行在同一套编程语言上。」Living Models联合创始人这样形容DNA。这话听起来像科幻设定,但技术路径很实在:把基因序列当成字符串处理,让模型自己学出哪些片段组合会产生什么生物学效应。

传统方法里,科学家要针对特定基因设计实验、培养细胞、观察表型,周期以月计算。AI模型的介入把这个过程压缩到几分钟——输入一段未知序列,输出预测的功能标注。不是替代实验,是先帮你筛掉99%的无效假设。

测序成本暴跌催生了数据海啸,但解读工具还停留在手动时代。

2001年人类基因组计划花了27亿美元,现在1000美元就能测完全基因组。代价是数据堆积速度远超分析能力:一个中等规模的植物研究所,硬盘里可能存着几十种作物的全基因组,却没人知道哪些变异真正影响了抗旱性。

Living Models的解法是把「理解基因」重新定义为「预测序列的上下文关系」。这和GPT预测下一个词是同一套数学——只不过基因序列的「语法」比人类语言保守得多,四碱基组合玩了35亿年,规则相对固定。

打开网易新闻 查看精彩图片

植物育种进入「预筛选」模式

植物育种进入「预筛选」模式

农业是这类技术最先落地的场景。培育一个新品种平均要7到10年,其中大部分时间花在「试错的代际传递」上:杂交、种植、观察、再杂交。基因模型能提前标记出哪些亲本组合可能产生目标性状,把田间试验的基数砍掉一个数量级。

具体怎么操作?研究人员输入目标作物的参考基因组,模型会标注出与产量、抗病、耐旱相关的序列特征。这些标注不是因果解释,而是统计关联——「这段序列历史上经常和高产一起出现」。对育种家来说,这就够了。

更激进的用法是直接生成。和文本模型能续写句子类似,基因模型可以「续写」DNA:给定启动子区域,补出可能的增强子序列。这在设计全新代谢通路时有用,比如让植物自己合成某种药物前体。

但生成式生物学的监管框架还是空白。

合成一条自然界不存在的基因序列并导入活体,目前各国法规的覆盖程度参差不齐。Living Models的应对策略是暂时只做分析不做合成——帮客户读懂已有数据,而不是造新东西。这个边界让他们避开了最敏感的伦理争议,但也限制了商业想象空间。

数据壁垒比技术更难打破

数据壁垒比技术更难打破

模型效果取决于训练数据的质和量。Living Models的核心资产不是算法,是过去三年积累的私有数据集——与多家育种公司和研究机构合作获取的表型-基因型配对记录。这些数据的获取成本极高:不仅要测基因,还要在标准化条件下种植、观测、记录性状,一套流程下来比纯测序贵两个数量级。

打开网易新闻 查看精彩图片

这解释了为什么农业巨头先动起来。拜耳、先正达们手里握着几十年的田间数据,缺的是把数据连起来的工具。初创公司的机会在于中立性——不像竞争对手那样同时卖种子,客户更愿意把数据托付给第三方。

技术层面真正的挑战是泛化。一个在大豆上训练的模型,迁移到水稻上表现会打折扣,因为基因组的「语法」虽有共性,词汇表差异很大。Living Models的解决思路是分层预训练:先用所有已知物种的序列学通用规则,再用特定作物数据微调。这和多语言模型的训练策略如出一辙。

植物生物学的论文引用量正在追赶医学,但产业转化速度明显滞后。

过去五年,CRISPR基因编辑在作物上的应用案例屈指可数,监管审批是主因。AI辅助育种走的是另一条路:不修改基因组,只是更精准地选择天然变异。这绕开了转基因标签的争议,但也意味着天花板更低——你能加速自然选择,却造不出自然选择造不出来的东西。

从「可读」到「可写」还有多远

从「可读」到「可写」还有多远

Living Models的路线图分三个阶段:现在的重点是「读」——注释和理解现有序列;明年推出「预测」服务,模拟特定编辑的后果;最终目标是「写」,即设计全新序列并验证功能。每个阶段的难度指数级上升。

「读」只需要统计相关性;「预测」要建模因果关系,比如某个突变如何改变蛋白质结构进而影响酶活性;「写」则要求模型内化生物物理约束,知道什么序列在细胞环境里真的能用,而不是数学上自洽就行。

目前行业停留在第一阶段和第二阶段的交界处。2024年有几篇预印本论文展示了模型预测蛋白质-配体相互作用的能力,但预测准确率和实验验证之间还有明显落差。对农业客户来说,这个落差意味着模型建议的候选品种仍需田间测试,省时间但不省钱。

更深层的问题是生物学知识的表示方式。语言模型处理的是人类创造的符号系统,基因模型面对的是进化雕刻的化学实体。前者有语法书,后者只有遗迹——我们看到的序列是35亿年筛选的幸存者,失败的设计早已消失。这种「幸存者偏差」让模型很难学到「什么不行」,而知道边界往往和知道可能性同样重要。

如果基因模型最终能像编译器检查代码语法那样,实时标记出「这段序列会导致阅读框移位」或「这个启动子强度不足以驱动目标表达」,植物育种会变成什么形态?田间试验不会消失,但可能从「大海捞针」变成「定向打捞」。那时候,育成一个新品种的时间会不会从十年压缩到两年——而决定成败的,不再是谁能种更多亩地,而是谁的数据标注更细致?