(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

工业酵母是蛋白质生产领域的主力军,广泛用于疫苗、生物制药及其他有用化合物的制造。在一项新研究中,MIT 化学工程师借助 AI 优化了新型蛋白质生产工艺的开发流程,有望降低这类药物的整体开发和生产成本

研究团队利用大语言模型(LLM)分析了工业酵母卡氏酵母(Komagataella phaffii)的遗传密码,重点考察了其所使用的密码子。密码子是由三个碱基组成的 DNA 序列,用于编码特定氨基酸,每种氨基酸可由多种密码子编码,且不同生物体的密码子使用规律各不相同。

MIT 团队开发的新模型学习了卡氏酵母的密码子使用规律,并据此预测哪些密码子最适合生产特定蛋白质。研究人员借助这一方法,成功提升了酵母生产六种不同蛋白质的效率,包括人类生长激素和一种用于治疗癌症的单克隆抗体。

“拥有能够持续表现稳定的预测工具,对于缩短从创意到投产的时间至关重要。消除不确定性,归根结底就是节省时间和金钱,”MIT 化学工程系雷蒙德·A.与海伦·E.圣-洛朗讲席教授、科赫综合癌症研究所成员、MIT 新制造业计划(MIT INM)联合学术主任 J.克里斯托弗·洛夫(J.Christopher Love)说。

洛夫是这项新研究的通讯作者,论文本周发表于《美国国家科学院院刊》。MIT 前博士后哈里尼·纳拉亚南(Harini Narayanan)为论文第一作者。

卡氏酵母和酿酒酵母(Saccharomyces cerevisiae,即面包酵母)是生物制药行业的核心生产平台,每年生产数十亿美元规模的蛋白质药物和疫苗。

研究人员在对酵母进行工业蛋白质生产改造时,需从其他生物体中提取目标基因(如胰岛素基因),并对其进行改造,使酵母能够大量表达该蛋白质。这一过程涉及为酵母细胞设计最优 DNA 序列、将其整合到酵母基因组、制定有利的培养条件,最终纯化目标产物等多个环节。

对于新型生物制品药物而言,这类大型复杂药物由活体生物产生,上述开发流程可能占药物商业化总成本的 15% 至 20%。

“目前,这些步骤全部依赖繁琐的实验操作,”洛夫说,“我们一直在思考:能否将机器学习领域涌现的新理念引入进来,使这一流程的各个环节更加可靠、更易预测。”

在这项研究中,研究人员尝试优化目标蛋白质基因的 DNA 密码子序列。自然界中存在 20 种氨基酸,但密码子序列多达 64 种,因此大多数氨基酸可由不止一种密码子编码。每个密码子对应一种特定的转运 RNA(tRNA)分子,负责将相应氨基酸携带至核糖体,氨基酸在那里被串联合成蛋白质。

不同生物体使用各类密码子的频率不同。工程蛋白质的设计者通常会选择宿主生物体中出现频率最高的密码子,以优化目标蛋白质的生产效率。然而,这种做法未必能获得最佳结果。例如,如果始终使用同一种密码子编码精氨酸,细胞内对应的 tRNA 分子可能会出现供应不足。

为采取更精细化的优化策略,MIT 团队引入了一种编码器-解码器架构的大语言模型。研究人员用该模型分析 DNA 序列,学习特定基因中密码子的使用规律,而非分析文本。

训练数据来自美国国家生物技术信息中心的公开数据集,涵盖卡氏酵母天然产生的约 5000 种蛋白质的氨基酸序列及对应 DNA 序列。

“模型学习的是这些密码子使用方式的语法或语言规则,”洛夫说,“它不仅考虑了相邻密码子之间的关系,还捕捉了密码子之间的长程关联。”

完成训练后,研究人员让模型对六种蛋白质的密码子序列进行优化,包括人类生长激素、人血清白蛋白,以及用于治疗癌症的单克隆抗体曲妥珠单抗。

研究团队还使用四种市售密码子优化工具生成了上述蛋白质的优化序列,并将所有序列分别导入卡氏酵母细胞,测量各序列对目标蛋白质的产量贡献。结果显示,六种蛋白质中有五种的最优序列来自 MIT 新模型,另一种中 MIT 模型排名第二。

“我们确保涵盖了密码子优化的多种不同方法论,并与我们的方案进行了基准比较,”纳拉亚南说,“通过实验对比,我们证明了我们的方法优于其他方案。”

卡氏酵母原名毕赤酵母(Pichia pastoris),用于生产数十种商业产品,包括胰岛素、乙型肝炎疫苗,以及一种用于治疗慢性偏头痛的单克隆抗体,还被用于生产添加至食品中的营养物质,如血红蛋白。

洛夫实验室的研究人员已开始使用这一新模型优化卡氏酵母的目标蛋白质,并已将代码公开,供其他研究人员用于卡氏酵母或其他生物体的相关研究。

研究团队还在包括人类和牛在内的不同物种数据集上测试了这一方法。各物种模型生成的预测结果各不相同,表明需要针对不同物种建立专属模型,才能有效优化目标蛋白质的密码子。

通过深入分析模型的内部工作机制,研究人员发现,模型似乎自主习得了基因组运作的部分生物学原理,包括一些研究人员并未主动教授的内容。例如,模型学会了避免引入负性重复元件,即可能抑制附近基因表达的 DNA 序列;同时还学会了根据疏水性和亲水性等特征对氨基酸进行归类。

“它不仅学习了这种语言,还通过生物物理和生物化学特征对其进行了情境化理解。这让我们更加确信,模型学到的是真正有意义的内容,而非仅仅在优化我们交给它的任务,”洛夫说。

https://news.mit.edu/2026/new-ai-model-could-cut-costs-developing-protein-drugs-0216