专访王光宇：科学智能需要多学科交叉，构建“世界模型”|人工智能|王光宇(1919年)|科学智能

几个世纪以来，用于科学发现的方法基本上保持不变。AI for Science（AI4S），即科学智能，为科学发现打造了一个新范式。将 AI（人工智能）融入科学发现中，可以增强和加速研究，帮助科学家提出假设、设计实验、收集和解释大型数据集，并获得仅使用传统科学方法可能无法获得的见解。

过去十年，AI 不断取得突破，包括自我监督学习和几何深度学习。生成式 AI 可以通过分析包括图像和序列在内的多种数据模式，通过更强大的人工智能方法来加速或优化人类对物理世界的模拟、洞察、新发现或控制，例如设计小分子药物和蛋白质等。

为了进一步探讨科学智能领域的发展趋势和前沿技术，络绎科学现发起「科学智能50人」访谈计划，此次邀请到北京邮电大学王光宇教授来分享她在该领域的最新进展。

“AI 在处理、表征数据或者生成模型方面具备优势，能够作为科学底层探索的有力工具，加速科学发现；反过来，在这个过程中，很多物理世界的发现或者实验科学也会反哺到 AI 方面的理论研究。我认为两者构成一个闭环，且是相互促进的，可谓相辅相成。事实上，脱离其中任何一个都不会是完整的认识和发现世界的过程。”王光宇说道。

图丨王光宇

王光宇本科和博士毕业于北京大学，从事生物医学成像研究；后于清华大学计算机系&人工智能研究院，开展博士后研究工作。2020年起，她加入北京邮电大学从事教学科研工作，研究方向是智能信息处理、信息医学交叉及生物医学计算等。王光宇作为负责人承担多项国家课题，包括国家重点研发计划、国家自然科学基金，并获中国科协青年托举人才工程支持等；在Cell、Nature、Nature Medicine、Nat Biomedical Eng、Nature Comm等国际顶级期刊或 MICCAI 等顶会发表学术论文多篇。担任Nature子刊、Cell子刊等期刊审稿人。其带领团队研发的“人工智能驱动的重大疾病动态画像新技术和远程高效防治系统”入选为世界互联网大会乌镇峰会“2021世界互联网领先科技成果”。此前获北京青年五四奖章、第四届“科学探索奖”、麻省理工科技评论“35岁以下科技创新35人”（亚太地区）、中国科协青年托举人才工程。

AI4S：加速生物医学新发现

近年来，王光宇在北京邮电大学网络与交换技术全国重点实验室推动成立了“信息智能与数字健康研究所”。团队一方面开展了生物启发计算的基础理论（Science for AI，S4AI）研究，提出认知科学启发的智能语义计算方法，探索多模态感知的语义空间结构，揭示与人类专家认知的关联映射。此外，基于更强大的智能信息处理方法，构建基础大模型等来加速生物医学的新发现，并在病毒进化预测、AI 抗体药设计以及个性化用药方面取得了阶段性成果。

例如，2021年7月15日，生物学领域掀起 AI 热潮。一天之内，AlphaFold2和 RoseTTAFold 两大 AI 预测蛋白结构算法开源，分别登上Nature和Science。这意味着，研究人员可自由使用这两个模型来预测蛋白质的结构。蛋白质通过复杂的折叠过程获得其功能形式，即结构驱动功能。

除了蛋白质的结构，蛋白质相互作用（PPI）同样具有复杂性且在各种生物过程中起重要作用，包括细胞对细胞相互作用，细胞周期进展，信号转导和代谢途径。

那么，在知道蛋白质的序列和结构后，能否进一步预测蛋白质之间的相互作用？

针对这一需求，王光宇带领团队与生物医学专家合作，为预测蛋白质-蛋白质复合物的亲和力提供了一个通用的分析框架，称为 UniBind。UniBind 集成了蛋白质的三维结构和结合亲和力，能够多任务学习异构生物数据整合。相关论文以题“Deep-learning-enabled protein–protein interaction analysis for prediction of SARS-CoV-2 infectivity and variant evolution”近期发表于Nature Medicine（IF=83）。

生物数据本身的异质性很强。不同的实验手段，或者不同的实验方法都会引发较大的实验差异。关于 UniBind，王光宇等人做了很多方法学设计。

“为了更好地表征蛋白，我们利用人工智能进行表征学习（representation learning），团队提出的蛋白质功能分析新框架 UniBind，将蛋白质表示为残基和原子级别的图结构。残基是一个更大的尺度，原子是一个更小的尺度。”

“我们基于 Transformer 打造了 Bindformer 模块，去提取蛋白质-蛋白质相互作用中的几何信息或能量信息。然后，通过 Multi-task learning (MTL)把海量、异构数据融合起来，实现蛋白质间相互作用（PPI）的准确预测，再去做很多下游任务。”

王光宇表示，在测评数据集的应用中，相比于现有的其他工具，UniBind 的表现更好。

王光宇等人在对基准数据集的系统测试和进一步的实验验证中，利用 UniBind 有效且可扩展地预测了 SARS-CoV-2刺突蛋白变体对其与人 ACE2受体结合亲和力的影响，以及对 SARS-CoV-2中和单克隆抗体的影响。

“UniBind 可用于预测病毒可能的变异和进化路径，这种计算机方法有可能作为有问题的新出现的 SARS-CoV-2变体的早期预警系统，并促进对蛋白质-蛋白质相互作用的研究，例如用于未来设计一些重要的、更广谱的抗体等。我们也希望能与不同的生物学家合作，‘干湿实验’结合地去解决更多问题。”王光宇说道。

针对慢性疾病的个性化用药挑战，该团队采用海量电子病历构建了预训练模型Clinical BERT（Hugging Face 每个月下载量逾1万次），并在此基础上开发基于强化学习的智能用药决策工具。文章已被Nature Medicine接收。

王光宇还提出，“目前一个较大的挑战是，仍缺乏跨尺度整合数据和分析数据的能力。”

目前在生物医学领域内所做的工作分为宏观和微观两个层面。宏观层面如临床发现、辅助智能诊疗系统等；微观层面如蛋白或者基因组学等。“需要有一些更强大的工具去跨尺度地整合这些信息，从而加速人们对很多疾病表型机制的认识。”

王光宇等人探索利用基础大模型来解决这一问题。“团队提出了面向医疗场景的基础语言模型 ClinicalGPT ，采用数千万条高质量的医疗数据进行领域适配，基于高效指令微调、奖励模型与强化学习、模型量化压缩等技术体系，可以更好地处理多种临床任务，在医学知识问答、问诊、复杂疾病诊疗上均体现出了优越性，性能优于其他基础模型。”

需要多学科交叉，构建“世界模型”

在讨论 AI for Science 时，王光宇强调，“不能只关注 AI 本身，或者说不能仅停留在计算层，要解决底层问题。如果我们对物理世界的认识或采集不够，计算层的数据就不够充分；或者说光做大模型，但解决不了数据安全的问题，这些都是很大的隐患。”

“不能把它做成一个‘缸中之脑’，需要把 AI 计算、感知、通信和控制等融合起来，这才是真正的智能。”

在张平院士的带领下，王光宇所在的大团队在开展“感知-通信”一体化网络，信息网络安全与隐私计算的系统，从而更好地建立人工智能的“世界模型”，加速或优化人们对物理世界的模拟、洞察、新发现或控制。

王光宇告诉络绎科学，“传统的通信是分模块处理的，有发送端、接收端，以及中间不同的信道环境，如果能够通过人工智能去做一体化的设计，可以达到理论上的通信性能的最优。张院士提出的‘语义通信’相关工作，致力于挖掘通信和网络引入人工智能所带来的增益，达到熵减（信息熵和系统熵）意义下的系统性能最优。工作可用于解决极端环境下通信能力受限导致的难题等。”

“AI for Science”最大的特点是，它会辅助研究人员生成很多新的科学假设，这些假设也许是超出预知范围的。“对此我们有所期待，就自己来说，我希望做更强大的 AI 方法，并藉由它去解决很多重要的生物医学的问题，比如攻克突发的流行病或者是癌症。”

参考资料：

1.Wang, G., Liu, X., Wang, K. et al.Deep-learning-enabled protein–protein interaction analysis for prediction of SARS-CoV-2 infectivity and variant evolution. Nat Med 29, 2007–2018 (2023).

2.https://arxiv.org/abs/2306.09968