蛋白质药物生产成本有望大幅降低！MIT用大模型优化酵母密码子|dna|mit|卡氏|密码子|氨基酸|生产成本|蛋白质|酵母

工业酵母是蛋白质生产领域的主力军，广泛用于疫苗、生物制药及其他有用化合物的制造。在一项新研究中，MIT 化学工程师借助 AI 优化了新型蛋白质生产工艺的开发流程，有望降低这类药物的整体开发和生产成本。

研究团队利用大语言模型（LLM）分析了工业酵母卡氏酵母（Komagataella phaffii）的遗传密码，重点考察了其所使用的密码子。密码子是由三个碱基组成的 DNA 序列，用于编码特定氨基酸，每种氨基酸可由多种密码子编码，且不同生物体的密码子使用规律各不相同。

MIT 团队开发的新模型学习了卡氏酵母的密码子使用规律，并据此预测哪些密码子最适合生产特定蛋白质。研究人员借助这一方法，成功提升了酵母生产六种不同蛋白质的效率，包括人类生长激素和一种用于治疗癌症的单克隆抗体。

“拥有能够持续表现稳定的预测工具，对于缩短从创意到投产的时间至关重要。消除不确定性，归根结底就是节省时间和金钱，”MIT 化学工程系雷蒙德·A．与海伦·E．圣－洛朗讲席教授、科赫综合癌症研究所成员、MIT 新制造业计划（MIT INM）联合学术主任 J．克里斯托弗·洛夫（J．Christopher Love）说。

洛夫是这项新研究的通讯作者，论文本周发表于《美国国家科学院院刊》。MIT 前博士后哈里尼·纳拉亚南（Harini Narayanan）为论文第一作者。

卡氏酵母和酿酒酵母（Saccharomyces cerevisiae，即面包酵母）是生物制药行业的核心生产平台，每年生产数十亿美元规模的蛋白质药物和疫苗。

研究人员在对酵母进行工业蛋白质生产改造时，需从其他生物体中提取目标基因（如胰岛素基因），并对其进行改造，使酵母能够大量表达该蛋白质。这一过程涉及为酵母细胞设计最优 DNA 序列、将其整合到酵母基因组、制定有利的培养条件，最终纯化目标产物等多个环节。

对于新型生物制品药物而言，这类大型复杂药物由活体生物产生，上述开发流程可能占药物商业化总成本的 15％至 20％。

“目前，这些步骤全部依赖繁琐的实验操作，”洛夫说，“我们一直在思考：能否将机器学习领域涌现的新理念引入进来，使这一流程的各个环节更加可靠、更易预测。”

在这项研究中，研究人员尝试优化目标蛋白质基因的 DNA 密码子序列。自然界中存在 20 种氨基酸，但密码子序列多达 64 种，因此大多数氨基酸可由不止一种密码子编码。每个密码子对应一种特定的转运 RNA（tRNA）分子，负责将相应氨基酸携带至核糖体，氨基酸在那里被串联合成蛋白质。

不同生物体使用各类密码子的频率不同。工程蛋白质的设计者通常会选择宿主生物体中出现频率最高的密码子，以优化目标蛋白质的生产效率。然而，这种做法未必能获得最佳结果。例如，如果始终使用同一种密码子编码精氨酸，细胞内对应的 tRNA 分子可能会出现供应不足。

为采取更精细化的优化策略，MIT 团队引入了一种编码器－解码器架构的大语言模型。研究人员用该模型分析 DNA 序列，学习特定基因中密码子的使用规律，而非分析文本。

训练数据来自美国国家生物技术信息中心的公开数据集，涵盖卡氏酵母天然产生的约 5000 种蛋白质的氨基酸序列及对应 DNA 序列。

“模型学习的是这些密码子使用方式的语法或语言规则，”洛夫说，“它不仅考虑了相邻密码子之间的关系，还捕捉了密码子之间的长程关联。”

完成训练后，研究人员让模型对六种蛋白质的密码子序列进行优化，包括人类生长激素、人血清白蛋白，以及用于治疗癌症的单克隆抗体曲妥珠单抗。

研究团队还使用四种市售密码子优化工具生成了上述蛋白质的优化序列，并将所有序列分别导入卡氏酵母细胞，测量各序列对目标蛋白质的产量贡献。结果显示，六种蛋白质中有五种的最优序列来自 MIT 新模型，另一种中 MIT 模型排名第二。