登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制|dna|序列|特异性|细胞控制|细胞系

编辑 | 萝卜皮

近年来，基因编辑技术以及各种基因治疗方法使科学家能够改变活细胞内的基因。然而，只影响特定细胞类型或组织中的基因，而不是影响整个生物体的基因，一直很困难。部分原因是人们对控制基因表达和抑制的 DNA 开关 [即顺式调控元件 (CRE）] 的理解仍面临挑战。

杰克逊实验室（JAX，The Jackson Laboratory）、麻省理工学院（MIT）和哈佛大学布罗德研究所以及耶鲁大学的研究人员利用人工智能设计了数千个新的 DNA 开关，可以精确控制基因在不同细胞类型中的表达。他们的新方法开启了控制基因在体内何时何地表达的可能性，以前所未有的方式造福人类健康和医学研究。

「这些合成设计的元素的特别之处在于，它们对其设计的目标细胞类型表现出了显著的特异性。」杰克逊实验室副教授兼论文共同通讯作者 Ryan Tewhey 博士说，「这为我们创造了机会，让我们可以在不影响身体其他部位的情况下，仅在一种组织中提高或降低基因的表达。」

该研究以「Machine-guided design of cell-type-targeting cis-regulatory elements」为题，于 2024 年 10 月 23 日发布在《Nature》。

论文链接：https://www.nature.com/articles/s41586-024-08070-z

顺式调控元件 (CRE) 控制基因表达，协调组织身份、发育时间和刺激反应，这些共同决定了体内数千种独特的细胞类型。虽然在需要组织特异性的治疗或生物技术应用中战略性地整合 CRE 具有巨大潜力，但不能保证自然产生出适合这些预期目的的最佳 CRE。

科学家们知道，人类基因组中有数千种不同的 CRE，每种都发挥着略有不同的作用。但 CRE 的语法一直很难弄清楚，「没有简单的规则来控制每个 CRE 的作用。」JAX Tewhey 实验室的计算科学家，论文的第一作者之一 Rodrigo Castro 博士解释说，「这限制了我们设计仅影响人体某些细胞类型的基因疗法的能力。」

「如果我们从语言的角度来思考，这些元素的语法和句法就很难理解。因此，我们尝试构建机器学习方法，以便学习比我们自己能学习的更复杂的代码。」

人工智能来设计 CRE

Castro所在的联合研究团队创建了 Malinois，这是一个深度卷积神经网络(CNN)，用于预测任何序列的细胞类型相关信息 CRE 活性（通过 MPRA 测量）。

图示：Malinois 能够准确预测染色体外报告基因中 CRE 的转录激活。（来源：论文）

在此基础上，研究团队提出了一种从头设计新型合成 CRE 的方法 CODA，该 CRE 能够在三种转化细胞系中驱动细胞类型特异性转基因表达。

「该项目本质上提出了一个问题：『我们能否学会读取和编写这些调控元件的代码？』」耶鲁大学遗传学助理教授、该研究的通讯作者之一 Steven Reilly 博士说。

图示：CODA 有效地设计了特定于细胞类型的 CRE。（来源：论文）

研究人员通过整合之前在跨细胞类型建模调控语法、高效序列空间搜索和可并行验证数千个 CRE 的 MPRA 实验系统方面的创新来实现这一目标。

研究人员使用了最近生成的统一处理的 MPRA 实验数据库，该数据库表征了前所未有的数量的 CRE，以训练精确的深度学习模型，该模型可以快速预测任何序列的活动。

「天然的 CRE 虽然数量众多，但只代表了可能的遗传元素的一小部分，而且它们的功能受到自然选择的限制。」该研究的共同第一作者、Sabeti 实验室的博士后研究员 Sager Gosai 博士说，「这些人工智能工具在设计基因开关方面具有巨大潜力，可以精确调整基因表达，以实现生物制造和治疗等超出进化压力范围的新应用。」

三种细胞系中测试

结合序列生成算法，研究人员部署他们的模型在三种细胞系中生成具有程序特异性的数千种合成 CRE，并使用 MPRA 在体外对其进行功能验证，并通过探测小鼠和斑马鱼的生理相关组织在体内对其进行功能验证。

在转化细胞系中检测的报告系统中，CODA 设计的合成序列在驱动细胞类型特异性基因表达方面确实优于天然序列。研究人员表明，CODA 可以识别出通常表现优于天然序列的合成序列，其效率远高于随机搜索，但无法确定全局最优值。

CODA 设计的合成 CRE 通过以独特的组合部署靶向激活和脱靶抑制 TF 来实现更高的特异性，而这种组合在人类基因组中并不常见。这说明该模型已经学习了控制 CRE 的基本规则的一部分，并且能够将这些知识推广到很少观察到的 TF 组合。

使用 Malinois（CRE 转录输出的直接模型），该团队能够识别具有中等细胞类型特异性活性的基因组序列，尽管程度低于合成序列。