药物研发领域长期存在一个隐秘的瓶颈,不是缺少算法,而是缺少数据。2026年5月,由英国Diamond光源主导的OpenBind联盟正式发布首个公开数据集和人工智能预测模型,标志着这场"数据荒"迎来了真正意义上的破局时刻。
过去几年,AI在蛋白质结构预测领域的成就令人瞩目。AlphaFold2的横空出世几乎在一夜之间改变了结构生物学的面貌,让科学家能够以前所未有的精度预测蛋白质的三维结构。
但从"预测蛋白质结构"到"找到有效药物",中间还隔着一道几乎同样宽阔的鸿沟。药物研发的核心问题,是弄清楚一个药物分子如何与疾病相关蛋白结合,结合有多紧密,以原子级的精度。
这类数据在全球范围内极为稀缺,现有的公开蛋白质数据库(PDB)虽然积累了海量蛋白质结构,但配套的结合亲和力测量数据极少,而且往往质量参差不齐。哥伦比亚大学的穆罕默德·阿尔库拉伊希教授曾直言,AlphaFold2之所以能够成功,恰恰是因为它站在了几十年蛋白质结构实验数据的肩膀上。但类似的蛋白质与药物分子结合的数据集,目前根本不存在。
OpenBind的目标,正是填补这个空白。
这次首批发布的数据集,针对的靶点是肠道病毒A71(EV-A71)的2A蛋白酶。这一病毒是手足口病的重要病原体,在全球儿童中引发大规模流行,目前仍缺乏有效的抗病毒药物。
数据集包含来自699个化合物的925个晶体学结合事件,以及601个化合物的结合亲和力(KD值)测量数据。换句话说,研究人员不仅看到了药物分子如何与蛋白质"握手",还量化了这次握手有多用力。
这批数据已通过Zenodo平台以CC0协议完全开放,这意味着全球任何研究人员都可以免费下载、使用,无须任何授权限制。
更重要的是,OpenBind同步发布了基准测试结果,系统评估了当前主流AI方法在这批新数据上的表现,涵盖传统对接工具如AutoDock Vina、基于机器学习的对接方法如GNINA和DiffDock,以及协同折叠模型如AlphaFold3、Boltz和OpenFold3。
结果既令人振奋,也让人清醒。在"重对接"任务中,也就是提供正确的蛋白质结构直接预测配体位姿,GNINA的成功率高达85%,表现强劲。但一旦切换到"交叉对接"场景,也就是使用未结合配体的蛋白质apo结构,所有方法的成功率都骤降至5%以下。这个失败几乎完全源于蛋白质结合位点的构象变化,一个活性位点的微小环形结构在没有配体时会发生偏移,挡住了结合口袋,让所有方法束手无策。
协同折叠方法在一定程度上绕过了这个问题,但成功率仍低于重对接。值得注意的是,一个令人意外的发现来自片段筛选数据的应用:当研究人员用片段筛选得到的结合结构对OpenFold3-p2进行微调之后,其成功率从36%跃升至76%,接近拥有"作弊优势"的重对接水平。
这说明片段筛选数据不只是药物化学的起点,它还可以是AI模型学习蛋白质结合偏好的宝贵训练材料,这恰好是OpenBind整个数据生成逻辑的核心所在。
在亲和力预测方面,结果则让人更加警醒。大多数结构化AI模型的预测表现仅比最简单的基线(分子量)强一点点,部分方法甚至还不如分子量这个朴素指标。
牛津大学的弗格斯·伊姆里博士对此直言:"高质量实验数据对于开发新型和改进型AI模型至关重要,而当前亲和力预测的困难恰恰说明,我们还需要更多、更好的数据来驱动这一领域的真正进步。"
OpenBind的计划是持续推进。未来的数据集将覆盖更多疾病靶点,包括疟疾、登革热、寨卡病毒和癌症,并将举办社区盲测挑战赛,让全球研究团队在不知道答案的情况下竞争预测新数据。
从AlphaFold2的成功可以看出,当数据积累到足够的规模和质量时,AI的突破往往只是时间问题。OpenBind这台"数据引擎"刚刚启动,但它所指向的方向,很可能是AI药物研发下一次真正飞跃的起点。
热门跟贴