近日,深势科技推出Uni-Fold Symmetry(下文简称UF-Symmetry),在超大规模蛋白复合物预测上取得重要突破。利用蛋白的内在对称性,UF-Symmetry简化了Uni-Fold Multimer模型,使计算复杂度脱钩于对称单元数目。借此,UF-Symmetry极大提升了同源蛋白复合物的输入规模与预测效率,使对称高聚体预测不再受单元数目限制,并在一般案例上加速AlphaFold-Multimer等模型推理约20倍。

Uni-Fold Symmetry预测的超大蛋白复合物,

AlphaFold因显存限制无法预测

(同源12聚体,共8460个残基)

01 规旋矩折:对称高聚体的结构预测难题

随着AlphaFold的横空出世,以及相关算法的不断发展,以Uni-Fold Multimer为代表的深度学习工具正在不断革新蛋白质复合物结构预测的领域。在小规模的复合物预测任务上,这些方法展示出远高于传统对接(docking)方法的预测精度,也为相关领域不断带来新的可能。

在广大蛋白质复合物中,对称的同源/异源多聚体极为常见。据统计,目前PDB中近10万个蛋白复合物中,有72%具有全局对称性。以离子通道(ion channels)为例,这些复合物由结构相同或相似的同源子单元构成,在空间中呈高度对称分布。攻克对称多聚体的结构预测难题,对于深挖相关生命科学机制以及药物研发具有重大意义。

PDB复合物结构的对称性统计,

72%的结构具有全局对称性

尽管这些方法在小规模的复合物上表现出色,其所能预测的复合物规模却极其有限。这主要是因为模型要求将输入的同源子单元序列反复拷贝,作为整体进行预测。这一操作让这些模型无法处理对称多聚体。以Uni-Fold Multimer,当前显存利用率最高的程序之一为例,在40GB显存的NVIDIA A100 GPU上,其所能容纳的残基数目最大在4000左右,而对称高聚体的规模很容易突破这一限制。

PDB中的对称高聚体示例

02 奔轶绝尘:UF-Symmetry引领高聚体预测规模及速度飞跃

Uni-Fold Symmetry的出现,解决了这一难题。

与以往的模型不同,UF-Symmetry不再将对称复合物作为整体进行预测,而是预测其非对称最小单元(Asymmetric Unit,下文称AU)的结构,并按照给定对称性进行组装。模型允许针对相同的 AU 指定不同对称性,进而探索相应复合物的性质。在Uni-Fold Multimer的基础上,UF-Symmetry新引入了虚拟残基(pseudo residue),以编码给定的对称性、学习AU的组装方法。通过将输入的规模限制在AU内,UF-Symmetry的计算复杂度不再与同源聚体数目挂钩,由此获得了输入规模与推理速度的飞跃。

UF-Symmetry模型示意图

研究者测试了UF-Symmetry与AlphaFold-Multimer的最大输入规模与推理效率。由于需要复制同源子单元序列,AlphaFold-Multimer等方法的最大AU输入规模与对称单元数量成反比。此外,其模型复杂度为对称单元数目的立方,极大影响了预测效率。与之相反,因复杂度与对称单元数目脱钩,UF-Symmetry的输入规模与推理效率不再受其限制。以每序列512个残基的同源四聚体为例,UF-Symmetry加速AlphaFold-Multimer推理效率约20倍。

UF-Symmetry与AlphaFold-Multimer

等方法的输入规模限制与推理时间对比

03 落地花开:UF-Symmetry襄助生命科学发现与药物研发

结合在蛋白单体、复合物结构预测任务上长期积累的技术优势,继开源Uni-Fold后,深势科技推出UF-Symmetry,为对称高聚体预测规模与效率带来新的飞跃。UF-Symmetry的出现,对包括离子通道、新冠病毒刺突糖蛋白等在内的对称蛋白的进一步研究具有重大意义。我们将于近期公开UF-Symmetry的相关源码,并上线服务至Hermite™平台。深势科技将继续关注领域最新进展,持续深耕算法与产品,为用户提供更加优质的服务,探索创造更多可能。

关于Hermite™

Hermite™是深势科技打造的基于人工智能、物理建模和高性能计算的新一代药物计算设计平台,致力于为药物研发工作者提供一站式解决方案,满足多种场景的药物研发需求。Hermite™以网页应用的形式,提供多种药物设计功能,帮助药物设计人员完成从靶点结构解析、预测与精修,到苗头化合物筛选,再到先导化合物优化和性质预测的一体化工作。Hermite™提供友好的可视化交互界面、功能实时更新,同时支持本地和云上的私有化部署。

关于深势科技

深势科技成立于2018年,是“AI for Science”科学研究范式的先行者,致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。

深势科技总部位于有“中国硅谷”之称的北京市中关村地区,具有约2000平米的科研办公场地以及1500平米的生物实验室,同时在上海、深圳、海口等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了近百名数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中博士及博士后的比例超过了35%。核心成员获得2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。

深势科技深耕“AI for Science”领域,创新性地融合了跨尺度建模、高效采样、高性能计算等技术,在保持量子力学精度准确性的基础上,将分子动力学的计算速度提升了数个数量级,从而解决药物和材料的微观计算模拟难题。深势科技推出的Hermite™药物计算设计平台、Bohrium微尺度科学计算云平台以及Lebesgue高性能任务调度与算力编排平台等微尺度工业设计基础设施,颠覆了现有研发范式,打造"计算指导实验、实验反馈设计"的全新范式,为药物、材料领域带来极具突破性的计算模拟及设计工具。