几个世纪以来,用于科学发现的方法基本上保持不变。AI for Science(AI4S),即科学智能,为科学发现打造了一个新范式。将 AI(人工智能)融入科学发现中,可以增强和加速研究,帮助科学家提出假设、设计实验、收集和解释大型数据集,并获得仅使用传统科学方法可能无法获得的见解。

过去十年,AI 不断取得突破,包括自我监督学习和几何深度学习。生成式 AI 可以通过分析包括图像和序列在内的多种数据模式,通过更强大的人工智能方法来加速或优化人类对物理世界的模拟、洞察、新发现或控制,例如设计小分子药物和蛋白质等

为了进一步探讨科学智能领域的发展趋势和前沿技术,络绎科学现发起「科学智能50人」访谈计划,此次邀请到北京邮电大学王光宇教授来分享她在该领域的最新进展。

“AI 在处理、表征数据或者生成模型方面具备优势,能够作为科学底层探索的有力工具,加速科学发现;反过来,在这个过程中,很多物理世界的发现或者实验科学也会反哺到 AI 方面的理论研究。我认为两者构成一个闭环,且是相互促进的,可谓相辅相成。事实上,脱离其中任何一个都不会是完整的认识和发现世界的过程。”王光宇说道。

图丨王光宇

王光宇本科和博士毕业于北京大学,从事生物医学成像研究;后于清华大学计算机系&人工智能研究院,开展博士后研究工作。2020年起,她加入北京邮电大学从事教学科研工作,研究方向是智能信息处理、信息医学交叉及生物医学计算等。王光宇作为负责人承担多项国家课题,包括国家重点研发计划、国家自然科学基金,并获中国科协青年托举人才工程支持等;在Cell、Nature、Nature Medicine、Nat Biomedical Eng、Nature Comm等国际顶级期刊或 MICCAI 等顶会发表学术论文多篇。担任Nature子刊、Cell子刊等期刊审稿人。其带领团队研发的“人工智能驱动的重大疾病动态画像新技术和远程高效防治系统”入选为世界互联网大会乌镇峰会“2021世界互联网领先科技成果”。此前获北京青年五四奖章、第四届“科学探索奖”、麻省理工科技评论“35岁以下科技创新35人”(亚太地区)、中国科协青年托举人才工程。

AI4S:加速生物医学新发现

近年来,王光宇在北京邮电大学网络与交换技术全国重点实验室推动成立了“信息智能与数字健康研究所”。团队一方面开展了生物启发计算的基础理论(Science for AI,S4AI)研究,提出认知科学启发的智能语义计算方法,探索多模态感知的语义空间结构,揭示与人类专家认知的关联映射。此外,基于更强大的智能信息处理方法,构建基础大模型等来加速生物医学的新发现,并在病毒进化预测、AI 抗体药设计以及个性化用药方面取得了阶段性成果。

例如,2021年7月15日,生物学领域掀起 AI 热潮。一天之内,AlphaFold2和 RoseTTAFold 两大 AI 预测蛋白结构算法开源,分别登上Nature和Science。这意味着,研究人员可自由使用这两个模型来预测蛋白质的结构。蛋白质通过复杂的折叠过程获得其功能形式,即结构驱动功能。

除了蛋白质的结构,蛋白质相互作用(PPI)同样具有复杂性且在各种生物过程中起重要作用,包括细胞对细胞相互作用,细胞周期进展,信号转导和代谢途径。

那么,在知道蛋白质的序列和结构后,能否进一步预测蛋白质之间的相互作用?

针对这一需求,王光宇带领团队与生物医学专家合作,为预测蛋白质-蛋白质复合物的亲和力提供了一个通用的分析框架,称为 UniBind。UniBind 集成了蛋白质的三维结构和结合亲和力,能够多任务学习异构生物数据整合。相关论文以题“Deep-learning-enabled protein–protein interaction analysis for prediction of SARS-CoV-2 infectivity and variant evolution”近期发表于Nature Medicine(IF=83)。

生物数据本身的异质性很强。不同的实验手段,或者不同的实验方法都会引发较大的实验差异。关于 UniBind,王光宇等人做了很多方法学设计。

“为了更好地表征蛋白,我们利用人工智能进行表征学习(representation learning),团队提出的蛋白质功能分析新框架 UniBind,将蛋白质表示为残基和原子级别的图结构。残基是一个更大的尺度,原子是一个更小的尺度。”

“我们基于 Transformer 打造了 Bindformer 模块,去提取蛋白质-蛋白质相互作用中的几何信息或能量信息。然后,通过 Multi-task learning (MTL)把海量、异构数据融合起来,实现蛋白质间相互作用(PPI)的准确预测,再去做很多下游任务。”

王光宇表示,在测评数据集的应用中,相比于现有的其他工具,UniBind 的表现更好。

王光宇等人在对基准数据集的系统测试和进一步的实验验证中,利用 UniBind 有效且可扩展地预测了 SARS-CoV-2刺突蛋白变体对其与人 ACE2受体结合亲和力的影响,以及对 SARS-CoV-2中和单克隆抗体的影响。

“UniBind 可用于预测病毒可能的变异和进化路径,这种计算机方法有可能作为有问题的新出现的 SARS-CoV-2变体的早期预警系统,并促进对蛋白质-蛋白质相互作用的研究,例如用于未来设计一些重要的、更广谱的抗体等。我们也希望能与不同的生物学家合作,‘干湿实验’结合地去解决更多问题。”王光宇说道。

针对慢性疾病的个性化用药挑战,该团队采用海量电子病历构建了预训练模型Clinical BERT(Hugging Face 每个月下载量逾1万次),并在此基础上开发基于强化学习的智能用药决策工具。文章已被Nature Medicine接收。

王光宇还提出,“目前一个较大的挑战是,仍缺乏跨尺度整合数据和分析数据的能力。”

目前在生物医学领域内所做的工作分为宏观和微观两个层面。宏观层面如临床发现、辅助智能诊疗系统等;微观层面如蛋白或者基因组学等。“需要有一些更强大的工具去跨尺度地整合这些信息,从而加速人们对很多疾病表型机制的认识。”

王光宇等人探索利用基础大模型来解决这一问题。“团队提出了面向医疗场景的基础语言模型 ClinicalGPT ,采用数千万条高质量的医疗数据进行领域适配,基于高效指令微调、奖励模型与强化学习、模型量化压缩等技术体系,可以更好地处理多种临床任务,在医学知识问答、问诊、复杂疾病诊疗上均体现出了优越性,性能优于其他基础模型。”

需要多学科交叉,构建“世界模型”

在讨论 AI for Science 时,王光宇强调,“不能只关注 AI 本身,或者说不能仅停留在计算层,要解决底层问题。如果我们对物理世界的认识或采集不够,计算层的数据就不够充分;或者说光做大模型,但解决不了数据安全的问题,这些都是很大的隐患。”

“不能把它做成一个‘缸中之脑’,需要把 AI 计算、感知、通信和控制等融合起来,这才是真正的智能。”

在张平院士的带领下,王光宇所在的大团队在开展“感知-通信”一体化网络,信息网络安全与隐私计算的系统,从而更好地建立人工智能的“世界模型”,加速或优化人们对物理世界的模拟、洞察、新发现或控制。

王光宇告诉络绎科学,“传统的通信是分模块处理的,有发送端、接收端,以及中间不同的信道环境,如果能够通过人工智能去做一体化的设计,可以达到理论上的通信性能的最优。张院士提出的‘语义通信’相关工作,致力于挖掘通信和网络引入人工智能所带来的增益,达到熵减(信息熵和系统熵)意义下的系统性能最优。工作可用于解决极端环境下通信能力受限导致的难题等。”

“AI for Science”最大的特点是,它会辅助研究人员生成很多新的科学假设,这些假设也许是超出预知范围的。“对此我们有所期待,就自己来说,我希望做更强大的 AI 方法,并藉由它去解决很多重要的生物医学的问题,比如攻克突发的流行病或者是癌症。”

参考资料:

1.Wang, G., Liu, X., Wang, K. et al.Deep-learning-enabled protein–protein interaction analysis for prediction of SARS-CoV-2 infectivity and variant evolution. Nat Med 29, 2007–2018 (2023).

2.https://arxiv.org/abs/2306.09968