近日,「德睿智药」团队发布全球最大单性质ADMET开源数据集PharmaBench。研发团队结合大语言模型多智能体技术,构建了涵盖11种关键ADMET性质共52,482个数据条目的大型数据集,该研究近期发表于Nature旗下期刊Scientific Data。
目前,「德睿智药」自研的ADMET性质预测平台ADMET Ranker™已基于大语言模型完成迭代升级,在第三方独立验证中,多个成药性指标的预测任务表现均达到当前最优。
以下为研究概况、数据与方法、技术验证与结论:
1. 研究概况
在药物发现早期阶段,准确预测并优化分子的ADMET(吸收、分布、代谢、排泄和毒性)特性至关重要,有利于提高后期临床成功率并成功研发新的治疗药物。然而现有的ADMET基准数据集普遍数据量小,且与药物研发管线中常用化合物类型区别较大,在实际工业场景应用中效用受限。公开的ADMET实验信息虽然数量众多但是由于实验条件的不统一清洗难度大,未经清洗的数据直接进行建模的预测效果差。
基于此,本研究团队研发了一种AI大语言模型驱动的多智能体数据挖掘系统,对公开数据集进行数据提取、标准化处理、数据类型过滤及严格验证,通过多智能体系统分析了14,401种不同的实验来源的信息,最终构建了一个全面可靠的ADMET性质基准数据集PharmaBench,涵盖11种关键的ADMET性质共52,482个数据条目,是当前对应性质在药物研发领域可用的最大、最具多样化的ADMET数据集。与其他数据挖掘的方法相比,「德睿智药」自研的多智能体数据挖掘系统有着准确率高、所需人力少、挖掘范围广等显著优势,可以快速完成大规模不同种类的数据挖掘工作。
2. 数据与方法
研究团队将ChEMBL数据库作为主要数据来源,从中提取并整合了来自14,401种不同实验来源测定的97,609个原始数据条目,并选取其他相关公共数据集进行扩充,累计整合共156,618个数据条目。团队随后建立了一种多智能体大语言模型数据挖掘系统,以大语言模型为核心引擎,从不同类型实验中自动识别关键的实验条件并生成示例,在最大程度上减少人工提取以及结构化的工作量。
具体而言,PharmaBench利用了三个自研大语言模型多智能体系统来提取和标准化ADMET数据:关键词提取智能体(KEA)、示例形成智能体(EFA)和数据挖掘智能体(DMA)。KEA从各种ADMET实验中识别并总结关键实验条件,EFA根据这些条件生成结构化示例,DMA则根据KEA总结的实验条件和EFA生成的示例,完成所有数据挖掘任务并进行标准化输出。
PharmaBench通过该多智能体系统分析了14,401种不同的实验信息并根据不同的ADMET实验类型确认了关键的实验信息,从而对数据进行了进一步的标准化和过滤程序,包括结构格式、实验条件和实验值的标准化,并去除异常分子和不规则实验的条目。
经过上述数据处理工作流程并结合人工智能建模,研究团队最终整合出涵盖52,482个条目的ADMET基准数据集,包含LogD、Solubility(溶解度)、BBB(血脑屏障)、PPB(血浆蛋白结合率)、CYP(细胞色素P450)、LMC(肝微粒体清除)、AMES等11种关键ADMET性质。
3. 技术验证
在数据集构建完成后,团队通过重复测试、属性分布、机器学习和深度学习模型训练等方法验证并评估了数据质量,结果显示出处理流程后数据质量的显著提高,确保了PharmaBench基准数据集的一致性和可靠性。
4. 结论
该研究利用大语言模型多智能体的数据提取和整合能力,构建了更具代表性和应用价值的ADMET数据集基准PharmaBench。
论文链接:https://doi.org/10.1038/s41597-024-03793-0
关于德睿智药
德睿智药是一家临床阶段AI驱动的创新药物研发公司。公司愿景是通过推动人工智能和新药研发领域多种前沿技术渗透融合,持续输出兼具差异化和高临床价值的候选药物,从而让更多生命重获健康。
公司AI医药解决方案曾被欧美权威机构Deep Pharma Intelligence评为“2018-2020全球最重要的11个AI药物研发突破性成就”之一。2023年入选福布斯“Forbes Asia 100 to Watch”榜单,中国大陆仅11家初创公司上榜。
更多信息请访问网站:www.mindrank.ai
合作:bd@mindrank.ai
其他:info@mindrank.ai
热门跟贴