机器之心报道

作者:闻菲

作为柯朗学派出身的应用数学家,鄂维南院士并没有纠结是数据的力量还是算法的力量,也没有囿于公式或定理,他一开始看到的,便是机器学习算法、数据、物理建模和高性能计算结合的力量,以及由此开拓的新的科学疆域。

对学者而言,受邀在学术顶会上发表报告,通常是比论文获奖来得更高的荣誉。就像奥运会一样,取得参赛资格也即接到邀请本身就是实力的证明,而在强者云集的舞台上发表主旨演讲(Keynote Speech)、特邀报告(Invited Talk)乃至全体特邀报告(Plenary Talk),更是充分表明了受邀人的学术地位和影响力,以及同行对其工作和成果的普遍关注与认可。

2022 年 7 月,北京大学国际机器学习研究中心主任、数学科学学院教授、中国科学院院士鄂维南,在四年一度的国际数学家大会(ICM)上发表了一小时的大会全体特邀报告《从数学视角看机器学习》(A Mathematical Perspective on Machine Learning),在随后召开的国际机器学习大会(ICML 2022)上,又作了开场的特邀报告《迈向机器学习的数学理论》(Towards a Mathematical Theory of Machine Learning),阐明了应用数学和机器学习发展的时代背景与共同主线。

鄂维南,中国科学院院士,北京科学智能研究院(AI for Science Institute,Beijing)院长,北京大学国际机器学习研究中心主任,美国数学学会、美国工业与应用数学学会 Fellow,北京大数据研究院院长。研究领域为应用数学。多次受邀在数学、应用数学、物理、化学、力学等领域的国际顶会上发表报告。2003 年获国际工业与应用数学协会 Collatz 奖。2009 年获美国工业与应用数学学会 Kleinman 奖。2014 年获美国工业与应用数学学会 Theodore von Karman 奖。2019 年获得美国工业与应用数学学会和 ETH 共同颁发的 Henrici奖。2020 年获 ACM Gordon Bell 奖。

同时引发国际数学界和机器学习领域高度重视的,不仅仅是机器学习和计算数学能够如何相互促进,还有鄂维南教授提供的更本质的见解:

机器学习特别是深度神经网络,是一种适用于求解高维问题的数学工具;机器学习的成熟,让很多以前难以甚至是无法计算的复杂问题能够被很好地建模,并且得出足以指导现实世界中工程实践的有效预测,从而前所未有地促进科学发现和技术创新。简单说就是:AI for Science

让人又爱又恨的深度学习

从 ResNet 到 Transformer,深度神经网络在展示强大的表示能力的同时,也令人为其黑盒性质苦恼不已。

2020 年 5 月,OpenAI 发布了拥有 1750 亿参数的 GPT-3,同时抛出一个诱人的问题:如果通过大算力和大数据构建一个足够精确的语言模型,这个模型是否能在不经过额外训练的情况下,仅靠简单的自然语言提示完成各种不同的任务?

由此,业界对 AI 大模型军备竞赛式的探索正式开启。

两年后,这个问题有了初步的结论。2022 年 5 月,DeepMind 发布了单一架构的序列大模型 Gato,参数不到 12 亿,基于此前语言大模型相关研究,融合了 CV、NLP 和 RL 三种模态,能够完成 600 多种任务,除了写作、画图、聊天、玩各种雅达利游戏,还能简单地操控机械臂。Gato 似乎对输入的数据类型没有固有观念,其灵活的架构甚至能让系统去探索如何理解输入的各种数据。

更重要的突破出现在 2021 年 7 月。DeepMind 团队和华盛顿大学 David Baker 团队在同一天,分别发布了蛋白质三维结构预测模型 AlphaFold 2 和 RoseTTAFold,很大程度上解决了困扰科学家半个世纪的蛋白质折叠问题,将计算模拟的精度提升到可供实验使用的水平,让干湿实验能够结合。

AlphaFold 2 和 RoseTTAFold 采用不同的架构,但都是基于深度学习,它们更大的意义在于证明了,通过基于纯数据驱动的计算能够取得重大的科学发现。

然而,深度学习大厦没有牢固地基的事实并没有改变——至少目前,网络不能解释它的行为,导致我们无法验证从而真正「理解」其发现。

与此同时,不少实验科学家体会到了失落感,因为自己辛苦研究的成果正越来越快地沦为 AI 的训练数据,「端到端」更像是一种讽刺,不断挑战着既有的科学世界观。

把握机理与数据融合的机遇

2021 年 4 月,鄂维南教授在《美国数学会通讯》(Notices of the American Mathematical Society)发表了观点性文章,以《应用数学新时代的曙光》(The Dawning of a New Era in Applied Mathematics)为题,指出机器学习的成熟,使应用数学终于具备了成为一门成熟学科的条件,并将在科技创新中发挥至关重要的作用。

文章总结了基于机理的计算和以机器学习为代表的数据驱动方法各自的特点:基于第一性原理的研究方法深刻而优雅,但在实践中没有多大的指导意义,尤其是解决复杂系统问题;相比之下,数据驱动的研究方法虽能有效地发现规律,却难以揭示规律形成的原因。

鄂维南教授回忆道,他还在 UCLA 读研究生的时候,应用数学领域也有类似数据与机理之争。他求学的「柯朗风格应用数学」(Courant-style applied math)阵营,推崇数值计算和严格的数学理论。柯朗学派也被称为「证明定理的人」。

和科学史上的许多争论一样,重要的不是结果,而是争论这一过程本身所推动的学科发展,包括由此催生的新的学科分支。

与 20 世纪不同,现代科学已经开始全面拥抱「复杂」。现实世界中复杂系统无处不在。举例来说,药物在人体内的代谢过程,可能涉及上万的生化和物理反应,而准确评估一款药物的疗效,需要考虑其在基因、细胞、器官、免疫系统乃至整个人体这些不同尺度的系统中所发挥的作用,以及这些作用彼此之间的相互作用。

要刻画复杂系统的机理,就必须理解高维空间。如果我们想通过微分方程理解细胞生物学,就需要用公式解开这些方程,但既有的计算做不到这一点。因此,对于 21 世纪的科学家而言,无论身处哪个领域,想要取得如前人般卓绝的成就,仅凭人类的洞见与灵感,虽不是绝无可能,但势必困难重重。

上世纪 80 年代起,鄂维南教授便开始发展多尺度模型框架,尝试解决多体问题、湍流和非牛顿流体力学等难题。2017 年,他带领团队提出深度势能(Deep Potential)分子动力学方法,用深度学习方法计算上亿个原子之间相互作用的势能函数。

2017 年圣诞节前,在普林斯顿高等研究院,鄂维南教授将所有组员召集到一起,犹如找到最后一块拼图般,敦促学生不要错过眼下这个历史性的机遇。他当时大致是这样说的:

我做研究 30 多年了,看起来也小有成就。但我可以告诉大家,过去 30 年的研究生涯里,我从来没有遇到过像现在一样的机会。我一直苦苦思考科学计算的未来。2011 年写完多尺度建模这本书我觉得我的老本行里能做的东西差不多了。那会儿我成为大数据最早的推动者。我很早呼吁数据科学的重要性,但推的还是不够好,于是我只能逼自己边学边上,也踩了不少坑。

现在,机器学习、人工智能这些领域的发展和物理建模、科学计算彻彻底底地交织在了一起,我过去 30 年的经验第一次组合到了一起。在这个方向上,咱们组是独一无二的,已经做了不少奠基性的工作,下一步需要努力的地方也很多。

没有纠结是数据的力量还是算法的力量,也没有陷入计算机科学家可能会陷入的可计算性理论困境,鄂维南教授一开始看到的,便是机器学习算法、数据、物理建模和高性能计算结合的力量。

机器学习也催生了一个新的分支——高维分析,这里有大量尚待解决的问题,也意味着大量机遇。

AI for Science

2020 年,鄂维南和学生组成的深度势能团队,利用机器学习与物理建模相结合的方法(DeePMD)成功模拟了包含 1 亿个原子的量子分子动力学系统,并获得了当年的国际高性能计算应用领域的最高奖戈登贝尔奖。

不同于经典分子动力学,量子分子动力学采用含时薛定谔方程为理论框架,每一步都需要使用考虑电子作用的量子力学方法计算能量和力,对每个原子都实现精确的测量和描述,因此需要极其巨大的计算量,一般只能模拟几个到几十个原子。

深度势能分子动力学的开源项目 DeePMD-kit,通过将第一性原理建模、以机器学习为代表的数据驱动方法和高性能计算紧密结合,能够以第一性原理的精度处理超大规模的分子动力学问题。也就是说,DeePMD-kit 能够在全新的尺度上建立精确的分子动力学模型,帮助研究人员更好地理解制药、材料、能源、环境等领域的核心问题。

尽管实验是检验科学假说最重要的判据,但很多时候很难或根本无法进行实验。20 世纪最重要的一些科学突破,比如狄拉克的电子方程,爱因斯坦的广义相对论,都已经实质性地推动了人类对宇宙的理解,但至今依然缺乏相关的实验数据,甚至无法确定实验的可行性。这也是「计算」成为继「实验」和「理论」之后,又一公认的科研范式的重要原因。

如今「数据」作为第四种科研范式的观点得到越来越多人的认可,但鄂维南教授对此持保留意见。在他看来,什么是新的科研范式,是第几种范式,其实没那么重要,重要的是如何利用更强大的计算能力和数据处理能力,解决更多实际问题。

人工智能正在协助突破人类固有的认知局限。人脑无法想象在 5 维、10 维、100 维的高维空间里会发生什么,人脑甚至无法想象出四维空间。但从应用数学的角度看,基于机理的计算和基于数据的计算正在发展成为一种新的融合计算,这种融合计算能够让我们更好地处理更多不同类型的数据,更好地求解更高维度的问题。

随着计算的发展,我们能够对基本定律和复杂方程进行更好的计算,加深对自然现象的理解,而这种理解将促进我们设计出更好的计算机,然后进行更好的计算,如此循环,实现螺旋式的上升。

鄂维南教授正在带领团队构建下一代机器学习算法,通过新的融合计算的方式,并且结合物理模型,将来在解决物理问题时,或许只需要几个噪声数据点就可以得到对一个现象的完美描述,因为输入的是已知的物理原理。

在火热的领域保持冷静

足够强大的通用学习算法能够解决算法设计者本人所不知道的问题。随着世界上各种问题变得更加极端和复杂,我们应该利用所有能够解决这些问题的有效工具。

或许可以参考 DeepMind 的思路:现阶段的机器学习更多是工程,先把解决特定问题的系统做出来,然后看其中哪些部分对于解决问题真正有效,再把有效的部分拿出来,在此基础上构建更通用的模型。这也是他们如何从 AlphaGo 走到 AlphaZero。

在构建模型的过程当中,如何将领域知识有效融入模型,并且确保这样做不会对模型的学习造成影响,这方面的实践则有助于深度神经网络的理论研究。

在 AI 领域之外,机器学习或将拥有更广阔的天地,作为一种被证明可靠的数学工具,在基础学科和不断涌现的新的交叉领域,求解各种复杂问题。一个新的科学发现和技术创新的时代已经来临。

2021 年 9 月,鄂维南教授推动成立了北京科学智能研究院(AI for Science Institute, Beijing,简称 AISI),积极倡导 AI for Science 的同时,也强调要理性看待和支持,在一个火热的领域保持冷静。

2022 年 8 月 8 日至 11 日,由北京科学智能研究院主办、深势科技承办的 2022 中关村论坛系列活动——科学智能峰会将于线上召开,鄂维南院士将在峰会首日的主论坛发表报告《发生在当下的科技革命》,欢迎关注。

感谢北京科学智能研究院副院长李鑫宇的审阅。

题图:Photo by DeepMind on Unsplash