打开网易新闻 查看精彩图片

2024年10月的第二个星期,诺贝尔奖的归属陆续揭晓。其中,诺贝尔物理学奖和化学奖相继颁发给了在人工智能与基础科学交叉领域取得重大突破的科学家们。

一时间,互联网上段子齐飞——

“物理学真的不存在了吗?”

“Physics应该写成PhysiCS!”

但很快,最初的惊讶便平息下来,大众渐渐意识到,包括物理学、数学在内的基础学科一直在为AI的发展提供理论基础与方法论支持,而AI强大的数据处理能力和模式识别能力也在越来越深入地应用于科研中。当低垂的果实都被采摘殆尽,AI正帮助科学家解决更具挑战性的难题。

AI for Science(简称AI4S)已成为常态,而诺奖更像是一个明确的信号——人类再一次站到了科研范式的转折点上。

在本文中,我们将主要探讨以下几个话题:

  • 人类的科研范式经历了哪些变迁?

  • GPT目前仍是会出错的猜测机器,用来辅助科学研究靠谱吗?

  • 什么是AI4S,为什么是现在?

  • 科研全流程主要分几步,AI如何被嵌入其中?

  • 为什么说AI4S已经驱动AI制药进入2.0时代了?AI制药1.0时代和2.0时代有什么不同?

  • AI4S的应用前景如何?以化学、生物、材料等领域为例。

希望能带来新的思考角度,如果你是AI4S领域的研究者、从业者或者创业者,欢迎与本文作者峰瑞资本合伙人马睿(marui@freesvc.com)联系。

打开网易新闻 查看精彩图片

互动福利

你如何看待AI for science?欢迎在评论区和我们聊聊。我们将随机挑选5位读者,分别送出峰瑞行研手册一份。

/ 01 /

为什么AI能极大地助力科学研究?

科研的第五范式

人类科研范式的发展是一个螺旋式上升的过程——最初是基于观测数据归纳的经验范式,以开普勒为代表,他通过观察和简单的数学计算,发现了行星运动的定律;接着是第一性原理驱动的理论范式,代表人物是牛顿,即从事物的本质出发,发现事物的规律,并用方程来描述;随着数据量越来越大,再回到计算范式、数据驱动范式。

数据驱动的方法尽管可以有效地通过数据发现事实,但是不能很好地帮助人们找到事实背后的原因。基于第一性原理列出的数学方程,则往往不好解。AI4S这种融合第一性原理驱动和数据驱动的第五范式应运而生。

打开网易新闻 查看精彩图片

一个简单的方程可以帮助你理解第五范式。

蓝色的()是某个描述物理世界的理论方程,但基于实验观测列出的理论方程必然存在能力边界,无法完全精准地还原物理世界(即绿色的X),所以会存在一个,代表理论和实际间的残差。

这就到了AI大放异彩的地方。简单来说,AI不仅可以帮助计算残差,还能帮助求解理论方程()。

可能有人会说,我用过ChatGPT,有时它说出来的话很不靠谱 ,AI诚然有强大的生成和输出能力,但它本质还是一个猜测机器。ChatGPT的语言生成都是按照一定的概率计算出来,猜测机器往往会出错,用于科研难道没问题么?

没错,但问题也能解决。我们在使用AI工具增强科学研究能力的同时,只要结合科学验证,就能把“垃圾”过滤掉,留下有用的部分。

事实上,当前AI已经被广泛应用于科学的各个领域。基于AI的算法,可以极大地提高第一性原理进行建模的效率和准确性。通过提供新的实验设计、更准确和高效的实验表征算法,甚至新的实验设备,AI还可以改进我们做实验的方式。

比如在数学领域,数学家会利用计算机辅助计算、提出猜想和进行数学证明;比如在物理领域,AI可以在量子力学和经典的粗粒度模型之间架起一座桥梁,将不同尺度的物理模型有效连接起来;比如在化学领域,AI被用于设计化学分子或化学反应;又比如在生物领域,AI被用于设计生物分子或药物;在材料领域,对AI的使用加速了新材料的探索、设计、合成与优化……

可以说,AI4S正成为推动科技革命和新质生产力发展的核心之一。

下一次科技革命,将是数字和原子世界的深度融合

如果我们回看人类此前经历的工业革命和电气革命,二者的创新进展大都是随牛顿力学体系、热力学理论、麦克斯韦电磁场理论等宏观物理定律的建立而催生的。

然而进入微观世界后,一切都不一样了,宏观物理定律或许不再好用。于是,专门用于解释微观世界物理规律的量子力学应运而生,开启了第三次科技革命。可以说,量子力学诞生后,人类正式进入了微观范式。此后,半导体技术飞速发展,计算机越来越普及,互联网和移动互联网技术日新月异,AI技术不断突破,科技创新从物理世界逐渐转向到数字世界。

然而,按照康波周期,或者螺旋式上升的发展规律,下一次科技革命可能会从数字世界回到物理世界,当然最有可能的,还是数字世界和物理世界的深度融合。一旦要在物理世界实现创新,对微观粒子(电子、原子、分子)的测量、计算、调控和制造就变得至关重要。

这正是AI可以大显身手的领域,从狭义角度来看,AI4S可以研究微观粒子和其之间的相互作用,也就是研究微观世界的底层规律,这也是物理世界的重要基础。AI4S将推动下一次科技革命。

打开网易新闻 查看精彩图片

何谓微观世界?

微观与宏观相对,一般指肉眼看不到的尺度。物理学里的微观,是指原子尺度小于零点几纳米;生命科学里的微观,一般是匹配生物大分子的尺度,例如几个纳米到几十个纳米;材料科学里的微观,则是指材料直径小于10个纳米(1纳米等于一百万分之一毫米)。

打开网易新闻 查看精彩图片

举个例子。

如果碳原子按照蜂巢晶格的片状结构排列,就是石墨烯。如果按照呈正四面体连接成无限的三维骨架,就是金刚石。同样是碳原子,但因为排列和相互作用方式不同,就会有不同的性能。而在碳的基础上,继续加上氢、氧、氮,并以一定形式排列,就组成了双螺旋结构的DNA,即整个生物学的构成基础。

所以我们会说,研究微观就是在研究不同物质的分子组成(或者是序列)。我们关心分子的结构、动态,以及由结构和动态形成的功能。

如果用传统物理计算的方式来算分子模拟,会面临“维度灾难”,即随着变量的增加,问题的复杂度会呈指数级增长。特别是面对大系统和长时间尺度的模拟,不仅耗时高、模拟成本高,也很难算准。

在量子力学建立之时,英国物理学家狄拉克就曾乐观地预言,寻求基本原理的任务已大体完成,但因为其数学问题太复杂,变量函数太多,当变量个数增加时,计算量呈指数级增加,故而用基本原理来解决实际问题会非常困难。

例如各类多体问题,药物和材料设计、蛋白质折叠、湍流、塑性力学和非牛顿流体力学等,即便用上超级计算机也非常难以精确求解。所以,很长一段时间,人们会认为科学里有些问题就是没法算的,因为维度真的会高到爆炸。

AI特别擅长解决高维的数学问题。就像鄂维南院士2022年5月在《再谈AI for Science》报告中提到的,解决高维的数学问题,恰恰是深度学习或者说AI擅长的,深度神经网络对高维函数提供了有效的逼近方法。因为当利用神经网络逼近函数时,模型需要的参数和维度无关。

举个简单的例子。AI擅长图像识别,图像识别就是一个高维的问题。比如一个分辨率为32×32的图像,它的维度就是32×32像素,每个像素有三种颜色,那就大概是一个32×32×3=3072的维度。与之形成对比的是,人类能解的经典方程式是波尔兹曼方程,它在形式上是一个维度为7的微分积分方程,其涉及到七个独立变量:三个空间坐标、三个速度坐标以及时间。

/ 02 /

AI的突破性发展,驱动AI4S

为什么我们最近越来越感觉到AI4S的重要性?这主要得益于近几年AI的突破和溢出效应。

基础设施(infra)革命

作为AI基础设施的领导者,这些年英伟达GPU的迭代速度逐渐突破摩尔定律的限制,推动了计算的蓬勃发展。2024年6月,英伟达CEO黄仁勋在computex 大会上讲到,过去八年来,AI的运算速度增长了1000倍,能耗降至原来的1/350。AI的发展,极大地拓宽了科技创新的边界。

▎算法革命

  • 自监督学习:自监督学习标志着AI学习方式的一个重要进步。上一代的AI在进行许多学习任务时,是需要做数据标注的,但也正是受限于此,无法真正处理大数据,得到大模型。相比之下,自监督学习无需人类专家提供标签或答案,可以自主学习海量的未标注数据。通过利用数据自身的结构和属性,自监督学习可以提取数据特征,作为监督信号来训练模型。

  • Transformer: Transformer是一种广泛应用于自然语言处理中的特征提取器,通过引入注意力机制,能够并行地处理序列数据。作为性能最佳的特征提取器,Transformer已经成为深度学习模型的首选架构。

  • 大模型/预训练:利用大量未标注数据进行预训练,然后根据不同的任务和场景,在有标注的数据上进行有监督的学习,根据特定任务和场景调整和优化。

  • 生成式AI:分析现有数据的分布,基于此生成多样性的设计,例如可以被用于生成小分子或者蛋白

  • 几何深度学习:特别适用于处理带有几何形状的图(graph)或者流形(manifold),例如原子和分子。这类深度学习方法在特征提取过程中,能够保持对象的拓扑特征(即几何不变性),从而更好地捕捉数据的几何结构。

  • 强化学习:在奖励函数的驱动下,agent(智能体)通过与环境的交互来学习最优的行为策略,以实现奖励最大化。

  • 基于物理的AI:将物理模型作为先验知识,代入到AI算法中。这是一种深度融合物理模型与AI算法的方法。

  • 主动学习:主动学习是指对需要标记的数据进行优先排序,对于需要优先探索的点,会升高优先级的一种策略。这样可以确定哪些数据对训练监督模型会产生最大的影响。

综上,在当下这个时间点,AI4S能发展起来的重要前提是算法和算力都实现了巨大的突破。在此基础上,越来越多的科研人员开始将AI用于科研的各个环节。

/ 03 /

AI怎样被嵌入科研全流程?

打开网易新闻 查看精彩图片

一般情况下,科研的全流程主要包括几步:首先,提出一个科学假设;接着,通过实验获取数据,对数据进行分析,看是否符合此前提出的假设。如不符,就修改科学假设,继续实验、分析、调整,直到完成对假设的验证。

打开网易新闻 查看精彩图片

这个过程中的每一步,AI都能发挥重要作用。AI已经被广泛用于学习实验数据中的表征、精修测量结果、生成科学假设、指导实验和利用agent(智能体)实现自动化、探索理论空间等。

AI4S可以解决不少领域的问题。它可以用于天气预报、电池设计、制药领域的高通量虚拟筛选等等,既可以解决极其宏观的问题,也可以解决非常微观的问题,例子见下图。

打开网易新闻 查看精彩图片

AI4S大概可以分为三种类型。

数据驱动为主 (AI+数据)

代表案例是DeepMind公司开发的蛋白质结构预测算法AlphaFold2。AlphaFold2完全是数据驱动的,没有用到任何物理模型,输入蛋白的序列(更准确的说是Multiple Sequence Alignment,简称MSA,多序列比对),就能得到蛋白的结构。

当今年诺贝尔物理奖颁给研究人工智能的科学家时,在峰瑞内部,我们开玩笑地猜,AlphaFold2会得诺贝尔化学奖。

为什么?一方面,因为结构决定功能,结构极其重要,而蛋白的结构预测是结构生物学、药物研发等领域的圣杯。

另一方面,因为这是第一次通过计算方法达到了实验的精度。此外,过去60年间,人类通过实验手段测得了20万个蛋白的结构,AlphaFold2在不到3年时间里就成功预测了数亿个蛋白质结构,这意味着实现了万倍以上的效率提升。

打开网易新闻 查看精彩图片

AlphaFold2之所以能够成功并准确预测,原因之一是引入了多序列比对(MSA)的数据。过去数十年间,随着生物技术的不断发展,人类已经积累了巨量的宏基因组数据。这使得我们可以对某个蛋白去做蛋白质序列的多序列比对,即分析和比较同一蛋白在不同物种(人、猪、鸡、鱼、真菌、细菌等)中序列的异同。也就是说,结构比序列更保守,序列的变化模式也提示了结构信息。

某种程度上可以说,AlphaFold2是一个完全基于数据的、以多序列比对为条件约束的蛋白结构生成模型。具体而言,用户只需输入蛋白质序列的数据,AlphaFold2就能通过其强大的算法和模型,计算出高度准确的三维结构,就如同借助了先进的统计机器来高效地完成蛋白质结构预测。

此前,大家经常有个疑问:AI驱动的各种模型到底能不能精准地解决问题。在我看来,AlphaFold2给了我们很大的信心,因为它就是一个用AI把蛋白质结构预测做得特别好的例子。

模型驱动为主 (AI+物理模型)

模型驱动为主的AI4S,是用AI来连接、处理各种尺度的物理模型或者基本原理。

这些物理模型和基本原理通过常规方法往往难以求解,或者说当前的数据量不足以来实现有效观测和计算的,例如薛定谔方程、波尔茲曼方程、密度泛函、分子动力学、量子力学等等。

打开网易新闻 查看精彩图片

我们在上面提到过,数据驱动的AlphaFold2能够成功的一个前提,是有相关的海量数据。然而在很多领域,一个典型的难题恰恰在于数据的匮乏。此时,AI4S的任务是,帮助求解物理模型,从而解决问题。

以深势科技的深度势能面计算来举例:

打开网易新闻 查看精彩图片

利用密度泛函或者量化计算来计算势能,是一个复杂度为O(N³)的问题,其计算量和复杂度随着粒子数量的增加迅速变得无法承受。深势科技利用AI对高维势能面进行高效采样,AI结合量化计算,把复杂度降到了O(N)。

具体而言,上图左下三个蓝色的球,代表势能面上的3个点,可以用物理基本原理的方法分别较为准确地算出势能面上3个点的能量,然后让神经网络去学习精准物理计算的结果,得到一个深度势能的神经网络。那么下一次如果还需要计算势能面上某个点的能量时,就无需再调用量化计算,AI已经可以自行完成计算并直接输出答案,实现量化计算的精度+经验力场的速度,既准又快。

模型和数据深度融合 (AI+物理模型+数据)

第三种类型是将观测、测量的数据和(物理+AI)模型深度融合,常被用于药物设计、天气预报、受控热核反应等领域。

以我们峰瑞投资的创新企业剂泰医药为例。

剂泰医药利用AI设计LNP(即脂质纳米颗粒)。LNP是一种具有均匀脂质核心的脂质囊泡,用于递送核酸药物,避免其在递送过程中的降解和提前释放。新冠的mRNA疫苗就是采用LNP递送的。

LNP将活性分子以适当的浓度,在适当的时间,递送到正确的位置。这是一个跨尺度的复杂过程。这个过程涉及多个不同的尺度范围:分子和纳米尺度、细胞尺度、器官尺度。

在分子和纳米尺度,要考虑阳离子脂质的成分,以及数以万计的分子如何组装成LNP颗粒;在细胞尺度,要考虑LNP如何进入细胞,以及在胞内是否会发生内涵体逃逸,避免药物发生降解而失效;在器官尺度,需要对LNP和血浆蛋白的相互作用进行模拟,预测血管外渗和器官靶向性质等。

在对这个过程进行研究和分析时,AI可以快速生成分子设计用的百万量级的脂质库;AI也可以预测递送效果,为实验设计提供指导;而物理模型可以提供微观层面的物理机制解释,例如,预测某种LNP能否发生内涵体逃逸;真实的实验数据成为模型最终的判据和迭代的根据,来不断完善和优化模型。AI+物理模型+数据共同推动LNP递送技术的发展。

打开网易新闻 查看精彩图片

/ 04/

AI4S在化学、生物、材料领域的具体应用

在数学和物理学领域,AI4S主要适用于解决基础问题;在化学、生物和材料领域,利用AI来发现新药、发明新材料、生成新分子,则有着强大的产业前景和商业潜力。

AI制药,已进入2.0阶段

AI制药是AI4S的重要应用领域与分支。它是指利用AI技术对药物研发、药物设计、药物筛选、临床试验和药物生产等各个环节进行创新和优化。我们认为,经过近十年的发展,AI制药已经迈进了2.0时代。

2016年起,“IT+BT(生物计算)”就是峰瑞资本的投资主题之一,我们也因此完整地参与了国内AI制药1.0时代的投资热潮与行业发展。

AI制药1.0时代和2.0时代有什么区别?

主要还是以算法的变革来划分。AI1.0是判别式AI,AI2.0则是生成式AI。对照到AI制药领域,我们可以不太严谨地划一条线,2022年以前成立的AI制药公司主要基于判别式AI,属于AI制药1.0时代的公司;2022年后成立的AI制药公司,则主要基于生成式AI,属于AI制药2.0时代的企业。

1.0时代的公司大多瞄准药物研发的临床前阶段,并集中在小分子药物发现领域。在生物医学领域,小分子通常指的是分子量小于500道尔顿的有机化合物,例如由苯环、羧基和乙酰基等部分组成的阿司匹林分子;而大分子通常指的是分子量超过1000道尔顿的生物分子,包括蛋白质、核酸、多糖等。

其实,用AI做小分子药物研发算是挑了一个极具挑战的题。在10的-10次方米的尺度下,要精准刻画小分子和蛋白的相互作用是非常困难的。既没有足够多高质量的数据,AI还属于初代的判别式AI,很多团队其实是用“物理+AI”的方法来弥补相对薄弱的技术底层。

不成熟的工具,加上最难的命题,确实是“Hard”模式。

从“Hard”模式起步,不止发生在AI制药领域。类似的,AI在医疗影像领域的应用一开始是奔着直接替代医生去的,初代自动驾驶目标也都定在L4级别(汽车能够实现完全自动驾驶)……但做着做着,经过非常多年的发展,期间也会经历泡沫破裂,在技术越来越成熟的同时,大家设定的目标反而会越来越收敛。

回到AI制药。1.0时代的公司的主流商业变现路径包括软件服务、CRO、药物管线开发。整个AI制药行业在2022年达到融资高峰后开始遇冷。不过,头部公司仍然活得不错。除了企业家精神与团队能力,这些头部公司还受益于上一轮资本周期中流动性相对充足,巨额的资金集中流向了它们,比如晶泰科技在IPO前累计融资额高达7.32亿美元,英矽智能融资额超过4亿美元。

如果资本退潮延续下去,80%的公司可能都会因融不到足够的资金而倒下。可就在大家觉得行业正在面临价值重估的时候,新的技术突破可能会再一次带领我们杀出了重围。

过去两年内,技术发展日新月异:

  • 先是2020年12月,AlphaFold2在CASP14(蛋白质结构预测关键评估)中表现出了足以媲美实验室水平的蛋白质结构预测能力;

  • 2022年11月,ChatGPT横空出世;

  • 2023 年7月,David Baker团队公布了RF diffusion,蛋白设计从物理计算转向AI,在成功率与设计效率上有了显著提升;

  • 2024年5月,AlphaFold3发布,不同于AlphaFold2只能预测蛋白质结构,AlphaFold 3能以前所未有的准确度预测包括蛋白、多肽、核酸等所有生命分子的结构和相互作用;

  • 2024年6月,可以实现新型蛋白质生成的ESM3发布,这是由初创公司 Evolutionary Scale开发的生命科学领域的大模型……

我们有一个有意思的观察,过去几年AI制药公司的PMF(product-market-fit)按照小分子-大分子-小分子的方向在发生变化,这也是一个螺旋式上升的过程。

1.0时代的公司很多是在研究小分子,而上述我们提到的这些技术进步主要发生在大分子。以人类能够利用AI预测单体蛋白结构和进行从头蛋白设计为标志,AlphaFold3的诞生,利用diffusion在全原子尺度去学习生物分子间的相互作用,特别是小分子和蛋白的结合,又让关注点重新回到小分子。

此外,技术的进展也从研究分子的结构,延展到研究生物分子之间是如何相互作用、组成分子机器,并产生功能。这也正是结构生物学关注的核心。

打开网易新闻 查看精彩图片

如今,AI制药企业可及中的工具显然比1.0时代要更多和更好了。做个粗略和激进的估计,1.0时代的底层技术可能也就相当于当下的1/5至1/10?且技术还在快速迭代中,这怎能让人不对未来十年充满期待?

据不完全统计,目前国内大概有一百来家AI制药企业,估计最后能够上市或者有机会走向市场的是极少数。其中,峰瑞早期参与投资的晶泰科技于2024年6月在港交所上市,是港股18C,也是AI制药第一股。晶泰科技还被纳入香港恒生指数成份股。

假若这批公司里最终能有5-10家企业成功上市,那么,按照当前技术发展日新月异的程度,未来十年应该会有更多诞生于AI2.0时代的AI制药公司能上市,或许会是一个三到五倍的数量。

这也是峰瑞一直在持续关注这个领域的原因。因为技术的大变化,往往会带来商业机会。我们看好AI制药1.0时代的公司把最新的模型用到其有积累、有优势的应用场景里,也看好乘着AI2.0浪潮而起的制药公司们依托更前沿的技术来做创新。

AI 在生物领域的应用机遇

整体而言,AI在Biotech中的应用,可以分为三个层次:

一是GPT驱动的自然语言处理的进步,直接应用于生物医疗知识的提取。我们有大量生物和药物研发相关的知识,BioGPT、BioLLM这类擅长理解生物学概念的大语言模型,可以非常有效地从科学数据和文献中提取出知识和关键点。比如我们可以让大语言模型阅读3000万篇文献的摘要,然后从中发现一些此前未被发现的知识连接。

二是聚焦于计算生物大分子本身,沿着DNA-RNA-Protein的路径,来预测和设计这些生物分子的序列-结构-功能。

三是生物分子相互作用的计算,包括蛋白和蛋白的相互作用,蛋白和小分子的相互作用,或者蛋白的折叠过程。这也正是AF3在解决的问题。

在明确了要解决的问题之后,再来看AI for bio的三个主要技术前沿——以David Baker为代表的蛋白设计RF diffusion、Deepmind的AlphaFold2与AlphaFold3、多模态生成大模型ESM3。整体而言,这三条技术路线都是从只能做结构预测,到最后能够设计生物分子。

打开网易新闻 查看精彩图片

接下来,我们来逐一解释。

  • 以美国生物化学家、2024年诺贝尔化学奖得主David Baker为代表:基于扩散模型的蛋白质设计工具RoseTTAFold Diffusion(下简称 RF diffusion)

简单来讲,RF diffusion是使用去噪扩散概率模型,通过逐步降噪的方式来设计蛋白质。

去噪扩散概率模型最初是用于音频或图片的生成。如下图,通过在猫的图像上不断添加高斯噪声,使得图像最终变成一个高斯分布的纯噪声。训练AI去预测降噪的结果,当AI学会了逐步降噪,你就可以输入一个纯噪音,利用逐步降噪,生成类似图像的数据分布。

打开网易新闻 查看精彩图片

有趣的是,去噪扩散概率模型是受非平衡热力学的启发。

举个例子,将一滴墨水滴入水中,墨水会在水中形成一个斑点,渐渐散开。想要直接模拟墨水刚滴到水里未扩散前的初始状态的概率密度分布,是十分困难的。但随着墨水逐渐在水中完全扩散开来,分布变得均匀,其概率密度分布是好算的。非平衡热力学的作用在于,它能将墨水扩散过程中每一步的概率分布都描述出来。

由于扩散过程的每一步都可逆,所以只要“步子”足够小,就可以从简单的分布倒着推断出最初复杂的分布。

去噪扩散概率模型非常适合蛋白设计。David Baker团队将原有的折叠算法RoseTTAFold,巧妙地用扩散模型的方式进行训练微调,通过蛋白数据库(PDB)中大量真实的蛋白质结构数据加以训练。最初,RFdiffusion会产生许多“噪声”,接着通过反向的渐进式“去噪”,可以生成多种类似于已有,实则全新的蛋白质。

这就是AI4S奇妙的地方:物理学中的热扩散原理启发了AI中的Diffusion model,然后这个算法又被用于做蛋白分子的设计。AI和科学互为上升的引擎。

打开网易新闻 查看精彩图片

蛋白设计的工作流程,包括主链设计-序列设计-计算筛选-实验验证等,每一步都有不同的计算工具。

David Baker组做出了一系列突破,除了上述的用RF diffusion进行主链设计外,还发明了利用MPNN进行序列设计的算法,利用AlphaFold2或者RoseTTAfold进行计算过滤后再来进行实验筛选。经过AlphaFold2筛选的设计,通过实验验证的概率大增,这极大地提高了蛋白设计的效率。

下图都是RF diffusion和RoseTTAFold设计出来的一些在癌症免疫和病毒等领域非常重要的靶点。如果不使用这样的工具,可能费很大功夫还无法找到这些能够执行特定任务的蛋白质,而这些蛋白质都是潜在的成药分子。

打开网易新闻 查看精彩图片

正是凭着RF diffusion和ProteinMPNN,David Baker在2023年启动了创业公司Xaira Therapeutics,还请来了有着“生物产业科技起点”之称的基因泰克公司的首席科学官、斯坦福大学前校长Marc Tessier-Lavigne担任CEO。Xaira在种子轮就拿到10亿美元的融资,也是整个生物技术领域有史以来最大的融资之一。

  • Deepmind的AlphaFold2与AlphaFold3:从只能计算蛋白,到可以预测所有生命分子的结构和相互作用,AlphaFold3很大程度上扩展了AlphaFold2的能力,向商业化应用迈出了一大步。

打开网易新闻 查看精彩图片

AlphaFold2的架构: MSA + Transformer

在大语言模型中,我们会用到RAG(检索增强生成)技术。它是一个为大模型提供外部知识源的概念,使大语言模型(LLM)能够生成准确且符合上下文的答案,同时能够减少模型幻觉。当我们向模型提出一个问题时,虽然检索的是这句话,但模型会从数据源中检索相关信息,得到一系列跟这句话相关的信息,然后把这些全部作为给大语言模型的提示,相当于给模型喂了更多的知识,帮助它更好地输出答案。

MSA(多序列比对)与RAG类似,模型会把同源蛋白的序列比对,作为模型的附加输入。

此外,Alphafold2还利用这一波AI里最大的创新,即transformer架构,实现了端到端的预测,并能更好地处理长序列中隐含的序列和结构的关联。

AlphaFold3: AlphaFold2 + diffusion

AlphaFold3在AlphaFold2的基础上,增加了Diffusion模块,取代AlphaFold2中的结构模块。

所以,我们可以说AlphaFold3就是一个以序列(MSA)为条件的结构生成模型,同时使用了Transformer、RAG和diffusion。

打开网易新闻 查看精彩图片

AlphaFold3的出现之所以让大家特别激动,是因为人们发现在预测蛋白-小分子复合物结构的性能上,可能比基于物理的分子对接的方法更准。

在AI制药1.0时代,大家通常认为AI是不靠谱的,用物理的方法更准确。即便到现在,找与某个靶点结合的小分子的主流的做法是分子对接。但AlphaFold3可能会改变这种状况。当你输入蛋白的序列和小分子的SMILES文件后,模型可以在几秒的时间里给出共折叠的结构。

也正因为如此,AlphaFold3表现出了非常强大的商业潜力。2024年初,Isomorphic Labs(Deepmind孵化的以制药为目标的新公司)宣布与礼来和诺华签署了两笔总价值近30亿美元的大额订单。

  • 多模态生成大模型:从只能做预测,到能做设计和生成。

第三个前沿是直接用多模态的生成大模型“暴力”地进行计算。代表是EvolutionaryScale公司推出的蛋白质语言模型ESM3。

ESM3能够灵活地选择在序列、结构、功能上做提示(prompt),从而实现蛋白分子的生成。ESM3的训练数据集非常庞大,包含超过27.8亿种天然蛋白质,并通过合成数据增强到31.5亿个序列,还包含2.36亿个结构(实验测定再加上AlphaFold2预测),以及5.39亿个带有功能注释的蛋白质,token总数达到7710亿。

开发团队在三个规模上训练了ESM3模型:分别为14亿、70亿和980亿参数。他们发现,随着模型参数规模的增大,模型的性能越好,证明了scaling law的有效性。

这也说明了数据化是至关重要的。其实AlphaFold能做成,一个前提是因为测序技术的进步,我们积累了巨量的测序数据来做多序列比对,补足了我们在结构信息上的不足。此外,AI输出的结果,也需要通过实验来验证。

综上,这三种技术路线每条都在快速迭代中,三者都是在互相竞争中互相启发,共同进步。RF diffusion是在AlphaFold2(Rosettafold)的基础上,用扩散训练的方式微调而来,AlphaFold3是在AlphaFold2的基础上,加入了diffusion的模块,减少了对MSA的依赖。最终,它们可能都会收敛到一条相似的路径,一个生物大模型。

峰瑞在生物医药+生成式AI领域也有投资布局。其中,衡昱生物就致力于利用生成式AI来设计RNA分子。2024年6月,衡昱生物公布了其开发的全球首个生成式AI设计mRNA药物的技术平台GEMORNA。相关文章在Science审稿中。衡昱生物也是国内首个在Nature正刊上发表mRNA文章的公司。

AI在材料领域的应用

材料是物理世界的基础。每次大的科技革命,都离不开材料的革新。过去,重要的材料包括铁、铜、水泥、和钢;现在的支柱材料则包括硅、C-H、N等元素组成的各种半导体和高分子材料,以及生物分子。未来,纳米、生物基高分子、量子材料也有机会成为重要的材料。

新材料的发现和模拟,离不开AI。以GNoME为例。

2023年底,谷歌DeepMind的AI工具GNoME结合图神经网络和主动学习,成功预测了220万种晶体结构。其中38万个稳定的晶体结构有望成为实验合成的候选材料,为超导体、超级计算机供电等一系列未来技术的革新和发展助力。

和生物分子由序列表征不同,材料或晶体适合用图来表征。GNoME采用了一种先进的图神经网络(GNN)模型。在对材料进行了有效的表征后,利用DFT+主动学习的方式来进行筛选。与此同时,使用密度泛函理论(DFT)来量化计算晶体的能量,在这个过程中,AI可以帮忙简化计算,最终显著提高发现速度和效率。

得益于GNoME的强大能力,人类已知稳定材料的数量增长了近10倍,达到42.1万种。

打开网易新闻 查看精彩图片

DeepMind还称,GNoME已发现了528 种有应用前景的锂离子导体,其中一些可能有助于提高电动车电池的效率。

从新能源汽车电池到太阳能电池,再到计算机芯片等众多领域,新材料的发现将极大地加速技术层面的突破。

新材料自主发现合成系统(无人实验室)是材料领域当前发展的重要方向。无人实验室致力于达到科学工作流程自动化的效果。它将机器人技术与从头计算的数据库、机器学习驱动的数据解读、从文本挖掘的文献数据中学习得到的合成启发式方法,以及主动学习相结合,以优化粉末形态新型无机材料的合成。

比如美国劳伦斯伯克利国家实验室与谷歌DeepMind团队合作开发自主实验室系统A-Lab,由人工智能指导机器人制造新材料,在17天里连续开展355次实验,合成了58个目标化合物中的41个,成功率达到71%,远高于人工实验的成功率。

AI在化学领域的应用

代表案例是ChemCrow。

此前我们提到过大语言模型本身缺乏外部知识来源,所以RAG(检索增强生成)技术能发挥价值,当我们向模型提出一个问题时,虽然检索的是这句话,但模型会从数据源检索相关信息,得到一堆跟这句话相关的话,然后把这些话全部作为给大语言模型的提示,相当于给模型喂了更多的知识,帮助它更好地输出。

基于类似的逻辑,来自洛桑联邦理工学院(EPFL)和美国罗切斯特大学的研究团队开发了一款能够完成有机合成、药物发现和材料设计等多种化学任务的语言模型代理ChemCrow。

ChemCrow在大型语言模型GPT4的基础上,集成了13种专家设计的工具,有的是做合成的,有的是做规划的,有的是做测量的……。从结果看,GPT4+专家工具的组合拳,不仅增强了大语言模型在化学方面的表现,还可以自主执行化学合成任务,极大加快了化学和材料科学领域的研究进展。该团队也获得了Google前CEO Eric Schmidt的资助。

我们可以看到,AI正如火如荼地运用于生物、材料、化学等诸多领域,但总体来看,AI在生物领域的应用步伐是遥遥领先的——已经有第一代商业公司完成了上市,后起之秀也在前赴后继。

最后,当人类再次站在科研范式的转折点,新浪潮汹涌而至,这背后挑战将与机会并存。拥抱变化、融入变化、推动变化、定义变化,未来可期,吾辈努力。

互动福利

你如何看待AI for science?欢迎在评论区和我们聊聊。我们将随机挑选5位读者,分别送出峰瑞行研手册一份。

打开网易新闻 查看精彩图片

星标峰瑞资本微信公众号

一手商业思考及时送达