在合成生物学领域,科学家们希望能“编程”生命 ,实现可预测地 设计 基因 元件(比如启动子 、 增强子) 、蛋白质等目标, 让细胞按照 人们 预定 的强度 表达 功能 基因。近 年来 ,人工智能 (AI) 特别是深度学习技术,成 为 这项工作的“新引擎”。通过分析实验数据,AI模型能预测哪些序列会带来强或弱的基因表达,甚至能设计出全新的调控序列

然而 ,这项技术 存在一个长期 被低估的难题 —— “数据污染”。 正如 人们 所讨论的, 大语言模型会 受到 网络 中 “错误信息” 的 污染, 其 本质 在于 训练数据 受到 非目标信息干扰, 导致 模型学 习到 错误 的 规律。 在常 规生物 实验中,研究者会在 特定 宿主细胞 中对 人工设计的序列 进行 测试。但很多看起来“活跃”的序列, 其活性实际上源于 宿主细胞自身的 意外激活 ,而 非 目标 元件本身 的 活性 。把这 类 “污染”数据喂给AI 模型 ,就 如同教幼儿 识字时混进错别字, AI 模型也会 因此“学偏” ,记住不 应 有的规则。 这不仅会导致模型的预测结果失真,还使其难以在不同物种间实现通用。

近日, 中国科学院 深圳先进 技术研究 院 定量合成生物学全国重点实验室、合成生物学研究所 娄春波 课题组与清华大学自动化系 汪小我 课题组 合作 在Nucleic Acids Research期刊 上 发表了文章

De novo design of insulated cis-regulatory elements based on deep learning-predicted fitness landscape
, 提出并验证了一项关键观点: 去除宿主 细胞内“ 污染 语料 ”,是实现高精度模型预测 及 可控 从头 设计 顺式基因元件 的前提条件。

问题发现 : 数据污染是模型“预测失灵”的根源

在利用深度学习设计基因调控元件的过程中,存在一个常被忽视但至关重要的问题—— 宿主背景污染 。研究团队在分析K1.5启动子系统的实验数据时发现: 当采用 随机序列筛选活性启动子时, 许 多看 似 “活跃”的序列 ,其活跃并非源于 对目标RNA聚合酶(K1.5 RNAP) 的 调控,而是因意外被宿主大肠杆菌自身的转录体系激活 所致 。

这类似于教 AI识别苹果 图片 时, 训练数据中混入了橘子图片却都标注为 “苹果”; 在此情况下, AI模型学到的不是真正区分苹果的特征,而是各种混 杂 的错误模式。

研究人员通过深入分析发现,这种“宿主背景污染”并非个别现象,而是在宿主细胞中任意筛选随机序列时普遍存在的问题。在传统体系里,顺式调控元件必须和宿主的转录因子(比如 RNA聚合酶、σ因子等)协 同作用 , 因此 随机序列 极易 无意中激活宿主 自身的调控机制 ,产生“伪阳性”信号。

这类“非目标”信号会对 AI模型 形成误导 ,使得它学到的规律 仅 在特定宿主 内 有效,无法迁移到其他物种或新的表达系统。要真正实现可预测、可迁移的功能元件设计,就必须从源头上去掉 此类 背景干扰,建立一个真正“正交”(即彼此独立、互不干扰)的表达系统, 确保AI 模型学到的调控规律 具有 纯粹 性 、可解释 性和 可泛化 性 。

为此,研究团队设计了一套“预测 +实验双重筛选”的数据净化流程: 首先通过 模型预测识别 并 排除可能受宿主背景激活的序列,再 借助 双通道诱导实验(有/无IPTG条件)进一步筛掉对目标RNA聚合酶无响应的序列。最终,团队构建出一个 仅 包含K1.5系统 真实 调控信息、宿主背景 干扰 最小化的高质量数据集。

图1 研究人员构建的正交调控系统示意图

建模突破:构建绝缘表达系统 , 绘制真实 的全 景观 活性功能

基于 上述 净化后的高质量数据集,研究团队训练了一个深度卷积神经网络模型。模型 以 DNA启动子序列的编码 作为输入 , 以 实验测得的表达强度 作为 输出。

不同于传统 仅 能给出结果预测的“黑箱”模型,团队通过特征可视化分析,成功绘制 出 “ 活性功能全景观 ” 。这 一 “景观” 可类比 表达强度随DNA序列变化的 地形 图 。 模型能在 该景观 里找到“局部高峰” (即 表达强度最优的序列模式 ), 还能识别出关键的功能motif(序列片段), 从而 帮助 解析 基因调控的内在规律。

一个 极具 意义的发现是: 仅需 大约1250条经净化的高质量序列, 即可 把模型的表达强度预测精度做到R²=0.90。 这表明 数据的“ 纯净度 ”比规模更重要。 该 结果为 后续 利用生成模型设计新序列打下了坚实的基础。

在这 一 精准的表达景观模型基础上,团队开发 出 真正的“从头设计(de novo design)”策略。从完全随机生成的DNA序列 出发 ,利用模型预测到的“爬坡”方向,通过反向传播和迭代优化, 持续 调整碱基组成,让序列在“表达景观” 中逐步 攀升 至 目标表达强度区域。

这一方法 突破了以往以来 天然模板、 通过 反复突变和筛选 实现的 “半理性设计” 模式 ,实现了真正意义上的“从零生成”。实验验证显示, 该 方法设计出的人工启动子 其 表达强度范围 广泛 覆盖野生型水平 ,且 预测值和实际测试结果高度一致,尤其在中高表达区的偏差 极 小 ,且 设计出的不同序列之间差异 显著 ( Hamming 距离大于10bp), 有效规避 了同源重组或序列冗余问题,保证了多样性和稳定性。

功能验证:生成启动子在不同宿主中保持表达可预测性

为进一步验证所设计调控元件的功能稳定性与跨物种适应性,研究团队将部分模型生成的启动子序列移植至哺乳动物细胞系统中进行表达测试。实验 选取 常用的中国仓鼠卵巢细胞(CHO)为代表,在等效的启动子-RNAP组合条件下评估其表达活性。

结果显示,这些 已 在大肠杆菌中验证的人工启动子,在CHO细胞中同样 呈现 出与模型预测值 基本 一致的表达趋势, 其表达强度与模型预测结果间具有显著线性相关性(R² = 0.54) 。尽管不同物种的表达背景存在差异,该结果仍表明 , 模型设计出的顺式元件具备良好的表达可控性和 宿主 迁移能力, 具备“跨宿主平台”通用化应用的潜力 。

为评估该策略的系统适配性,研究团队进一步将 活性功能景观建模 与 从头 设计方法拓展至 T7 RNA聚合酶系统 。作为经典的合成表达平台 , T7系统具有较强的表达能力和广泛的应用基础。研究显示,所生成的T7启动子序列同样实现了表达水平的可控设计,且与模型预测结果高度一致。这一结果验证了该方法不仅适用于K1.5系统, 还 具备向其他 单因子驱动、正交表达系统泛化的能力 ,为调控元件的模块化设计与系统工程化打下了通用基础。

本研究建立了一套面向顺式调控元件的高通量、可解释、跨系统泛化的从头设计流程,有望解决以往因为宿主背景干扰导致的模型预测失真和迁移失败这一长期难题。通过结合绝缘型表征系统的构建和深度学习预测模型,研究团队实现了从随机序列到目标功能启动子的精准生成,并验证了其在不同 RNA聚合酶系统和不同宿主细胞中的通用性。 该成果 为合成生物线路设计、跨物种基因回路构建以及可编程细胞工厂的开发提供了 全新 解决方案, 或将 推动AI驱动的基因调控研究迈向真正的“功能级别智能设计”阶段。

中国科学院深圳先进技术研究院研究员娄春波 、 清华大学教授 汪小我 为本文共同通讯作者。清华大学博士研究生王昊 晨 ,中国科学院深圳先进技术研究院 助理研究员 项 延会 、 研究助理 刘子 明 为共同第一作者。

https://academic.oup.com/nar/article/53/12/gkaf611/8185980?login=false

制版人: 十一

学术合作组织

(*排名不分先后)


战略合作伙伴

(*排名不分先后)

转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐