蛋白质是生物体内最基本的分子之一,在生物体内担任着多种重要的功能,对生命的维持和运行起着关键作用;蛋白质功能的发挥完全依赖于自身结构,但如何预测其结构一直是生物学领域的重大挑战。2020年,谷歌DeepMind公司推出模型,成功破解了蛋白质折叠预测的核心问题,也因此荣获2024年诺贝尔化学奖,成为AI赋能基础科学研究的典范。
在此基础上,研发团队进一步开发了,将预测范围从单一蛋白质结构延伸至蛋白质与其他蛋白质、小分子等的相互作用。与AlphaFold2不同,AlphaFold3最初并未开放代码,直到数百名科学家联合签署请愿书呼吁后,DeepMind才逐步先个人、非盈利组织及记者公开相关资源。
近日,非营利性人工智能(AI)研究联盟OpenFold Consortium正式发布了开源深度学习模型OpenFold3的预览版,凭借海量训练数据与开放共享的核心优势,该模型能够高精度预测复杂蛋白质及其相互作用分子的三维结构。据悉,研究团队精心剖析了AlphaFold3的代码,创建了这个AI平台的复制品——OpenFold3不仅破解了AlphaFold3的技术核心,更以开源姿态打破了商业使用壁垒,有望为药物研发、酶设计等领域带来革命性突破,成为下一代蛋白质AI工具的基础框架。
从“黑箱”到开源:推动科学透明与进步
OpenFold3模型由哥伦比亚大学AlQuraishi 实验室、劳伦斯利弗莫尔国家实验室生物弹性项目以及首尔国立大学Steinegger实验室牵头,联合行业与学术界研究人员共同打造。联盟团队耗时良久,对AlphaFold3的代码进行了细致拆解与深度分析,最终成功打造出这款功能相近的AI平台,并在核心功能上实现了高度复刻。
OpenFold3仅使用蛋白质的氨基酸序列作为输入,便能精准预测其如何折叠成三维结构。更重要的是,与此前仅能预测单一蛋白质结构的工具相比,OpenFold3新增了预测蛋白质与其他分子相互作用的能力,这些分子包括小分子配体和核酸等常见生物分子。目前市场上绝大多数药物正是通过与蛋白质靶点相互作用而发挥疗效,因此这一新功能具有巨大的实际应用价值。
OpenFold3执行委员会主席Woody Sherman表示:“蛋白质与分子的相互作用预测对药物设计至关重要,因为生物学的本质并非孤立的蛋白质,而是生物分子间的动态相互作用网络。OpenFold3的开源特性,让更多企业能够借助这一先进工具探索药物研发的新可能。”
海量数据训练,解锁多分子互作预测能力
OpenFold3的核心竞争力源于其庞大且多元的训练数据集。该模型不仅基于超30万个公开、通过实验确定的蛋白质结构,以及OpenFold联盟精心整理的超1300万个结构的合成数据库进行训练。双重数据支撑让模型在结构预测精度上实现跨越式提升,更突破了前代模型的功能边界。
通过在计算机中精准模拟蛋白质结构与分子互作,OpenFold3能够显著加速生物分子的虚拟筛选,大幅降低研发的时间与成本,为药物发现和材料科学研究开辟高效路径。
Apache 2.0许可证,打破行业应用壁垒
OpenFold3最显著的优势之一在于其完全开放的授权模式:所有软件组件均采用Apache 2.0许可证。与仅限有限学术使用且未开放商业授权的AlphaFold3不同,OpenFold3允许所有用户(包括商业机构)自由测试模型、利用新数据集训练模型、开发衍生应用或根据需要对模型进行适应性修改。这种完全开源的特性,解决了部分开源AI模型 "半开放" 带来的应用限制,真正实现了先进生物基础模型的民主化共享。
"让生物领域的顶尖基础模型实现开源普惠,是释放其工业应用潜力的关键。"Woody Sherman强调,通过联合全球生物技术、制药行业和学术界的研究者与实践者,OpenFold 联盟能聚焦最紧迫的现实挑战,持续推动整个领域的发展。
OpenFold联盟联合创始人Brian Weitzner指出:"OpenFold3将所有新功能毫无保留地开放给所有人。这款功能强大、架构精良的模型,未来数年都将成为其他蛋白质AI工具赖以构建的基础模型。
模块化设计+高效部署,降低应用门槛
为确保广泛的应用性和未来的发展潜力,OpenFold3基于PyTorch框架构建,并作为NVIDIA NIM(NVIDIA推理微服务)提供服务。这是一个容器化的、加速API,支持随时随地大规模推理部署,既能保证高速运行性能,又能最大限度减少计算资源消耗。
此外,该模型在设计上采用模块化架构,具有可配置性。生物制药和材料科学公司无需调整自身数据格式,就能修改模型以适配原生数据,这种无与伦比的灵活性进一步降低了应用门槛,不会给数据科学家带来额外负担,也不会占用过多IT资源。
"通过OpenFold3,我们让生物分子建模变得更具适应性和可扩展性,"OpenFold3科学联合负责人Nazim Bouatta表示,“这一平台能够从新数据中学习、整合到各类研发流程中,加速整个生物学领域的发现进程。”
多行业应用场景全面开花
OpenFold3的功能特性使其在生物制药及所有蛋白质相关领域具备极强的适配性。模型能预测共折叠结构(如蛋白质与药物分子的结合结构),还可整合到蛋白质设计流程中,对 ProteinMPNN等反向折叠工具设计的蛋白质序列进行结构测试。
目前,多家行业领军企业已明确表示将借助OpenFold3加速其新产品与疗法的研发。如Novo Nordisk公司将使该模型适配其内部研发流程与专有数据,助力新型疗法发现;Outpace Bio公司计划利用模型开发基于特殊分子回路的新型细胞疗法;Cyrus Biotechnology公司则将利用该模型设计治疗自身免疫疾病的新型酶类药物。
“能够预测配体与其靶点的结合结构,这对整个研发价值链具有广泛意义,有助于指导选择更好的靶点,加速分子设计与优化,并为临床患者分层提供信息。”Novo Nordisk数字化学与分子设计副总裁、OpenFold联盟执行委员Peter Clark表示,“开源模型可使人们更广泛地使用、改造和优化技术,这将推动我们以更低成本、更快速度为患者提供更好的药物。”
多方协同,打造生物AI共享基础
OpenFold3 的开源特性已催生出一系列协同创新举措。英国政府6月宣布了一项开源计划 OpenBind,将利用合作者生成的数据对OpenFold3进行微调;同时,AI结构生物学(AISB)网络正基于多家大型制药公司的专有数据训练该模型。
10月1日,柏林 Apheris公司牵头与五家制药企业联合发起“联邦OpenFold3计划”,旨在通过专有数据训练AI模型,打造更强大的预测工具。据介绍,每家企业将使用自身库中约4000-8000个蛋白质-药物配对数据训练专属版本的OpenFold3;随后,Apheris将这些本地训练的AI模型整合为一个集中式版本,该版本将涵盖约20000种蛋白质与药物的相互作用知识。
这些举措共同构成了OpenFold3不断扩张的生态系统,凸显了其作为未来模型开发共享基础的核心地位。从学术研究到工业应用,从药物研发到作物保护,OpenFold3有望成为生物领域的通用基础工具,推动全球研究者协同创新。
目前,OpenFold3的预览版已通过多个渠道向公众开放:代码可在 Github 平台获取;Docker镜像和模型检查点可通过HuggingFace获取;也可通过合作伙伴Apheris获取本地部署版本。
参考文献:
1.https://www.sciencenews.org/article/ai-model-openfold3-protein-predictions
2.https://www.businesswire.com/news/home/20251028507233/en/OpenFold-Consortium-Releases-Preview-of-OpenFold3-An-Open-Source-Foundation-Model-for-Structure-Prediction-of-Proteins-Nucleic-Acids-and-Drugs
01
PRS模型
02
03
04
快点亮"在看”吧
热门跟贴