近日,在梵蒂冈罗马教廷教皇科学院(Pontifical Academy of Sciences)——这个致力于推动自然科学进步的学术机构中,DeepMind CEO、2024年诺贝尔化学奖得主 Demis Hassabis 发表了重要演讲。
他指出,众多科学难题都可以通过创新思维进行重新建模。其中最具代表性的就是困扰他二十余年的生物学"大挑战"——蛋白质折叠问题。这个问题的核心是:如何通过蛋白质的氨基酸序列(即其遗传密码),准确预测其在生物体内的三维结构。通过理解蛋白质的三维结构,科学家们可以推断其在生物体内的具体作用,这对生物学研究和新药开发具有重大意义。这个困扰科学界数十年的难题,在人工智能技术的协助下,终于迎来了突破性进展。
Hassabis 强调,人工智能能够帮助人类应对医疗和气候等重大挑战,但其发展必须以负责任和安全的方式进行,真正服务于全人类。"考虑到 AI 技术的重要性和深远影响,我们不能采用'快速迭代、快速失败'的开发模式。"
演讲文稿
非常感谢,很高兴能来到这里。今天,我会尽量多覆盖一些内容。同时,我也准备了一个有点争议性的话题作为结尾,那就是量子计算和人工智能可能的关系,但我们得看时间是否允许。这次我的演讲主题是“利用人工智能加速科学发现”。我们在 2010 年创立了 DeepMind。可以说,这是一种“阿波罗计划”式的努力,目标是构建通用人工智能(Artificial General Intelligence,简称 AGI。
AGI 的定义
我们对 AGI 的定义是:具备普通人类所有认知能力的通用 AI 系统。我认为,如果能实现这一点,将是 AI 研究史上的一个巨大里程碑。DeepMind 的使命(现已成为 Google DeepMind 的一部分)是以负责任的方式构建人工智能,造福全人类。我们的起点其实是从游戏开始的。很多人可能知道,我们第一个重要的里程碑成果是在 2015 年和 2016 年推出的 AlphaGo。这是一款通过自我学习掌握围棋的系统,它还激发了现代许多 AI 领域的研究。
为什么围棋在人工智能领域如此重要?围棋的重要性在于它的复杂性。大家可能知道,早在 90 年代,国际象棋的顶尖棋手卡斯帕罗夫(Gary Kasparov)就被 IBM 的深蓝(Deep Blue)击败了。但围棋的突破却整整晚了 20 年。这是因为围棋的复杂性远高于国际象棋。
举个例子,围棋的可能局面数是 (10^{170})。远远超过宇宙中的原子数量。所以,围棋不可能通过穷举所有可能的局面来决定最佳下一步。此外,当时的普遍看法是,围棋程序至少需要 10 年甚至更久才能达到职业选手的水平,更别提击败世界冠军了。然而在 2016 年,我们在韩国举办了一场著名的百万美元挑战赛。全球有超过 2 亿人观看了这场比赛。AlphaGo 最终以 4:1 的成绩战胜了李世石。这不仅是一场胜利,它还展现了许多创新的策略,比如在第二局中出现的第 37 手棋。这一手棋被认为是超越人类想象的。围棋已经有超过 3000 年的历史,且有数百年的职业比赛传统。尽管如此,AlphaGo 依然能够提出全新的战略,比如第 37 手棋,这让许多人感到震撼。
AlphaGo 工作原理
AlphaGo 的训练方法对于理解现代 AI 的前沿发展非常重要。我们首先使用一个随机初始化的神经网络,让它与自己对弈 10 万局,从中生成一个数据集。随后,我们用这个数据集训练第二版系统,让它预测第一版系统在特定局面下的可能落子,并预测最终哪一方会赢。如果第二版系统的表现比第一版更好(比如达到 55% 的胜率),我们就用它替代第一版,生成下一轮的数据集。
这种自学习的过程是一个迭代的闭环。每次版本迭代后,新的版本会与前一版对弈 10 万局,生成更高质量的数据。这一循环经过 17 次迭代后,从最初的随机状态出发,我们便能训练出一款超越人类历史上任何围棋选手的系统。令人惊讶的是,利用现代计算机,这一过程可以在不到 8 小时内完成。整个迭代和进化的过程可以实时观察,非常令人震撼。
这个自学习模型不仅适用于围棋,还可以推广到其他复杂领域。比如,如果把围棋中每个局面看作搜索树中的一个节点,从当前局面开始探索,尽管可能的路径数量非常巨大,但通过这种方法,我们可以有效地缩小搜索范围,使问题变得可以解决。这就是 AI 在多个复杂领域中大展身手的基础。你在进行搜索时,只有很有限的时间可以探索这些巨大的分支树中的一小部分,比如这里标为蓝色的分支。当时间耗尽,比如只有一分钟或一定的计算时间后,你需要输出一个最优解,也就是一个最可能的最佳选择,比如这里标为粉色的分支。这种模型可以高效地引导搜索过程。稍后我会再回到这个非常通用的系统。
我们最初使用游戏作为试验场,因为在 DeepMind 早期阶段,游戏是验证算法想法的完美测试平台。通过游戏可以快速高效地判断是否有进展。游戏有明确的评价标准,比如赢得比赛或获得积分,因此很容易评估算法的表现是否在提高。
但当然,这只是一个手段,而不是最终目标。我们的目标是开发可以迁移到现实问题的通用算法,而不仅仅是擅长游戏的系统。因此,我们在不同类型的游戏中取得了许多里程碑式的成果,从非常简单的 Atari 游戏,到如今计算机上最复杂的实时战略游戏,以及 AlphaZero 这样的程序,能够在围棋、国际象棋等任何两人完美信息博弈中达到超过世界冠军的水平。
AI加速科学发现
从 2016 年或 2017 年开始,我们开始将这些技术应用于更严肃的问题。实际上,这是我从事人工智能研究的初衷——利用 AI 作为工具,加速科学发现。当我们选择适合这些方法的问题时,我通常会看三个标准:
是否能够将问题描述为在一个庞大的组合搜索空间或解空间中的搜索问题;
是否有一个明确的目标函数或评价指标,可以用来优化和不断改进;
是否拥有大量的数据,或者至少是一个高效准确的模拟器,可以生成来自正确分布的合成数据。
科学中很多问题实际上都可以用这种方式来重新思考和建模。第一个符合这些标准的问题,也是我个人思考了超过 20 年的问题,就是生物学中著名的“大挑战”——蛋白质折叠问题。简单来说,这个问题就是根据蛋白质的氨基酸序列预测其三维结构。对于那些不熟悉这个问题的人来说,蛋白质折叠问题可以简化为:给定一个氨基酸序列,比如左图的序列(可以大致理解为蛋白质的遗传密码),我们需要预测出它在体内的三维形态,也就是右图的精美结构。蛋白质的三维结构在很大程度上决定了它的功能,尽管它不是唯一的决定因素。通过了解蛋白质的三维结构,我们可以推断出它在体内的作用,这对理解生物学和开发新药物都有巨大的意义。这是一个科学界几十年来未解的难题,但借助 AI,我们现在已经取得了重要的突破。
蛋白质折叠问题的解决对科学界有什么实际意义?如果我们能够破解蛋白质折叠问题,它将对药物研发以及生物机制的基本理解具有巨大的帮助。我们在 2020 年推出的 AlphaFold 2,被计算生物学领域的专家认为是这一长期难题的解决方案。AlphaFold 2 能够将蛋白质结构预测的精度控制在平均误差小于 1 埃(Å),这意味着它的精确度已经达到了与实验误差竞争的水平。只有达到这个标准,结果才会对生物学家有用。由于 AlphaFold 2 不仅准确,而且速度极快,我们在接下来的一年里完成了对所有已知 2 亿种蛋白质的折叠预测。目前,每年新发现的蛋白质序列也会被加入这一过程。我们将所有这些预测数据免费开放,放在由 EMBL-EBI(欧洲分子生物学实验室)维护的开源数据库中。这个数据库已经被超过 200 万名生物研究人员和医学工作者使用,相关研究获得了超过 25,000 次引用。这对结构生物学领域的影响是巨大的。
AlphaFold 应用
AlphaFold 2 与许多项目开展了合作,尤其是在忽视性疾病领域。比如,我们与世界卫生组织 (WHO) 的 DND 部门合作,专注于全球南方和其他较贫困地区的被忽视疾病。通过提供病毒或细菌中蛋白质的结构,我们能够帮助这些地区加速药物研发,而这些领域通常因为缺乏商业利益而得不到大型制药公司的投资。这些合作非常有意义,因为它直接影响了许多被忽视疾病的研究和治疗。AlphaFold 2 提供了蛋白质结构的静态快照,但生物学系统本质上是动态的。真正重要的是这些蛋白质结构如何彼此相互作用。AlphaFold 3 是朝着这一方向迈出的下一步。它不仅可以预测单个蛋白质的结构,还能够预测蛋白质与蛋白质之间的相互作用。通过这样的改进,我们希望进一步揭示生物系统的动态特性,从而为科学研究提供更有力的工具。生物学是一个动态变化的系统,而 AlphaFold 3 正在帮助我们向这一复杂领域深入探索。
AlphaFold 3 不仅可以预测蛋白质之间的相互作用,还可以处理蛋白质与小分子(如药物分子)、蛋白质与 RNA、蛋白质与 DNA 的交互。这是迈向更复杂系统模拟的重要一步。我们可以想象,或许在未来 10 年内,我们将能够模拟一个“虚拟细胞”,对整个细胞的动态行为进行预测。这可能会彻底改变生物学研究的方式。
除了 AlphaFold,我们的研究范围已经远远超越了 AI 和生物学的结合。以下是我们在科学、数学以及医学领域的一些成果:
在医学领域,我们开发了用于诊断眼底疾病的人工智能模型,可以通过视网膜扫描快速识别病变。
在气候领域,我们与瑞士联邦理工学院 (EPFL) 合作研究了用于约束核聚变反应堆等离子体的方法。此外,我们还开发了一个名为 GraphCast 的最先进-- 天气预报系统,能够比传统的 Navier-Stokes 方法更快速、更准确地预测未来 10 天的天气。
我们也在设计具有新特性的材料,尝试预测这些新材料的性能,这对材料科学具有重要意义。
创意AI工具
除了科学研究,我们也在开发创意和生产力工具。以下是一些相关工作:在生成式 AI 领域,我们开发了图像、视频和音乐生成的顶尖模型。这些模型能够从简单的文本提示生成逼真的图片、视频以及创意音乐。回想 5 到 10 年前,这种技术还不可想象,现在却已成为现实。当前,许多关注点集中在多模态基础模型上。这些模型比传统的大型语言模型更加通用,例如我们的 Gemini 项目。这是下一代的多模态模型,能够综合处理文本、图像、音频、视频以及代码。
多模态模型在未来会带来哪些可能性?多模态模型之所以重要,是因为它能整合我们人类使用的各种交互模式。一个真正有用的 AI 系统需要理解我们所在的完整上下文。例如,Gemini 能够从文字推理跨越到视觉、听觉甚至程序代码中。这种整合能力将使 AI 系统变得更加智能和实用,从而更贴近人类的实际需求。我相信,这是通往通用人工智能(AGI)必不可少的一步。
Project Astra 是一个我们今年推出的原型项目,非常令人兴奋。它的目标是构建一个通用的 AI 助手,可以帮助人们处理日常生活中的各种事务,例如推荐内容、处理行政琐事,甚至在科学领域充当研究助手。我这里有一个两分钟的视频,展示了这个系统的一些能力。虽然这是一个非常早期的原型,但它基于 Gemini 模型,能够在现实场景中发挥作用。
代理系统
未来几年,我们正在努力开发的方向是基于“代理系统”(Agent-Based Systems)。这些系统不仅仅是简单的问答工具,它们可以主动地为用户执行任务。这些系统能够计划、推理,并在现实世界中执行操作,帮助用户解决目标。我们正在结合 AlphaGo 系统的规划能力与 Gemini 模型的多模态能力。与 AlphaGo 在游戏模型中的规划不同,这些系统将在语言和多模态模型上进行规划,从而能够适应更加复杂和真实的场景。
经典计算系统的潜力与限制。这让我想起自 AlphaGo 以来的一个思考:经典计算系统的潜力究竟有多大,以及它的限制在哪里。许多人认为,要模拟一个量子系统,必须通过穷举的方法来实现,但我认为,可以通过更优雅的方式来建模系统的底层结构。除非所有状态都是完全随机和独立的,否则自然系统中几乎总能找到某种底层结构,而这些结构是可以通过经典算法高效发现和建模的。如果这一假设成立,那么它可能会对复杂性理论(比如 P 是否等于 NP)、物理学基本定律(如信息与熵的定义)等方面产生深远影响。同时,我认为目前的神经网络模型通过在训练阶段进行大量预计算,在测试阶段以高效的方式解决问题,这实际上绕过了一些传统计算中的瓶颈。
AI 是一项令人难以置信的技术,可以帮助解决人类面临的最大挑战,比如医学和气候问题。但它必须以负责任和安全的方式开发,并为全人类服务。正如我昨天提到的,AI 技术太重要,影响太深远,我们不能以 “快速迭代、快速失败” 的方式对待它。相反,我们需要以科学方法为基础,以极大的谨慎和敬畏来开发 AGI。同时,我们也需要有胆识,去探索 AI 可以带来的全部潜力。通过这种负责任且大胆的态度,我们可以让 AI 真正为社会的最大挑战带来解决方案。
最后研究人员展望:Evo有望成为下一代序列搜索算法的基础,将生物工程和设计的范围扩展到整个基因组的尺度。
参考资料:
https://www.science.org/doi/10.1126/science.ado9336
阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。
截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告
热门跟贴