打开网易新闻 查看精彩图片

现代生物技术拥有基因编辑和药物设计的工具,但仍有数千种罕见疾病未得到治疗。据Insilico Medicine和GenEditBio的高管表示,多年来缺失的关键要素是找到足够的聪明人才来推进这项工作。他们认为,AI正在成为力量倍增器,让科学家能够解决行业长期搁置的问题。

在本周的卡塔尔网络峰会上,Insilico首席执行官兼创始人Alex Aliper阐述了公司开发"制药超级智能"的目标。Insilico最近推出了"MMAI Gym",旨在训练像ChatGPT和Gemini这样的通用大语言模型,使其表现能与专业模型相当。

目标是构建一个多模态、多任务的模型,Aliper表示,这个模型能够以超人的准确度同时解决许多不同的药物发现任务。

"我们真的需要这项技术来提高制药行业的生产力,解决该领域的劳动力和人才短缺问题,因为仍有数千种疾病没有治愈方法,没有任何治疗选择,还有数千种被忽视的罕见疾病,"Aliper在接受TechCrunch采访时说道。"所以我们需要更智能的系统来解决这个问题。"

Insilico的平台整合生物学、化学和临床数据,生成关于疾病靶点和候选分子的假设。通过自动化曾经需要大量化学家和生物学家的步骤,Insilico表示能够筛选庞大的设计空间,提名高质量的治疗候选药物,甚至重新利用现有药物——所有这些都能大幅降低成本和时间。

例如,该公司最近使用其AI模型来识别现有药物是否可以重新用于治疗ALS这种罕见的神经系统疾病。

但劳动力瓶颈并不止于药物发现。即使AI能够识别有前景的靶点或疗法,许多疾病仍需要在更基础的生物学层面进行干预。

GenEditBio属于CRISPR基因编辑的"第二波",这一过程从体外编辑细胞转向体内精准递送。该公司的目标是让基因编辑成为直接注射到受影响组织的一次性治疗。

"我们开发了专有的ePDV,即工程化蛋白质递送载体,它是一种类病毒颗粒,"GenEditBio联合创始人兼首席执行官Tian Zhu告诉TechCrunch。"我们向自然学习,使用AI机器学习方法挖掘自然资源,找出哪种病毒对特定类型组织有亲和力。"

Zhu所指的"自然资源"是GenEditBio庞大的独特非病毒、非脂质聚合物纳米颗粒库,包含数千种——本质上是设计用于安全将基因编辑工具运输到特定细胞的递送载体。

该公司表示,其NanoGalaxy平台使用AI分析数据,识别化学结构如何与特定组织靶点相关联。AI然后预测对递送载体化学性质的哪些调整将帮助它携带载荷而不引发免疫反应。

GenEditBio在湿实验室中体内测试其ePDV,结果反馈给AI以完善其下一轮的预测准确性。

高效的组织特异性递送是体内基因编辑的先决条件,Zhu说。她认为,她的公司的方法降低了商品成本,并标准化了历史上难以扩展的过程。

"这就像获得一种现成的药物,适用于多个患者,这使得药物对全球患者来说更加负担得起和可及,"Zhu说。

她的公司最近获得FDA批准,开始进行针对角膜营养不良的CRISPR疗法试验。

解决持续的数据问题

与许多AI驱动系统一样,生物技术的进步最终遇到数据问题。建模人类生物学边缘案例需要比研究人员目前能获得的更多高质量数据。

"我们仍然需要来自患者的更多基础真实数据,"Aliper说。"数据语料库严重偏向于产生数据的西方世界。我认为我们需要在当地投入更多努力,获得更平衡的原始数据或基础真实数据集,这样我们的模型也将更有能力处理它。"

Aliper表示,Insilico的自动化实验室从疾病样本中大规模生成多层生物数据,无需人工干预,然后将其输入AI驱动的发现平台。

Zhu表示,AI需要的数据已经存在于人体中,经过数千年进化塑造。只有一小部分DNA直接"编码"蛋白质,其余部分更像是基因行为的说明书。这些信息历史上很难被人类解读,但对AI模型来说越来越可及,包括谷歌DeepMind的AlphaGenome等最新努力。

GenEditBio在实验室中应用类似方法,并行测试数千个递送纳米颗粒而不是逐个测试。Zhu称这些结果数据集为"AI系统的黄金",用于训练其模型,并越来越多地支持与外部合作伙伴的协作。

据Aliper说,下一个重大努力将是构建人类数字孪生以进行虚拟临床试验,他说这个过程"仍处于萌芽阶段"。

"我们正处在FDA每年批准约50种药物的平台期,我们需要看到增长,"Aliper说。"由于我们作为全球人口正在老龄化,慢性疾病在增加...我希望在10到20年内,我们将为患者的个性化治疗提供更多治疗选择。"

Q&A

Q1:Insilico Medicine的MMAI Gym是什么?它有什么功能?

A:MMAI Gym是Insilico Medicine最近推出的平台,旨在训练像ChatGPT和Gemini这样的通用大语言模型,使其在药物发现任务中的表现能与专业模型相当。目标是构建一个多模态、多任务的模型,能够以超人的准确度同时解决许多不同的药物发现任务。

Q2:GenEditBio的ePDV技术是如何工作的?

A:ePDV是GenEditBio开发的工程化蛋白质递送载体,是一种类病毒颗粒。该公司使用AI机器学习方法分析自然资源,找出哪种病毒对特定类型组织有亲和力,然后设计能够安全将基因编辑工具运输到特定细胞的递送载体,实现体内基因编辑的一次性注射治疗。

Q3:AI在解决罕见疾病治疗中面临哪些数据挑战?

A:主要挑战是缺乏足够的高质量基础真实数据。现有数据语料库严重偏向西方世界,需要更平衡的全球数据集。此外,建模人类生物学边缘案例需要比目前可获得的更多数据。研究人员正通过自动化实验室和并行测试等方法来生成更多高质量数据。