AI+物质科学机遇与挑战

科技创新是点燃火种,产业创新是星火燎原,而真正改变世界的是让这两股力量汇聚在一起。2026中关村论坛年会主题为“科技创新与产业创新深度融合”,汇集知名专家和企业代表,分享他们在这条融合之路上的实践洞察与真知灼见。中国科学院院士、中国科学院物理研究所所长方忠发表主题演讲——《AI+物质科学机遇与挑战》。

打开网易新闻 查看精彩图片

方忠院士

演讲实录

尊敬的各位领导,各位嘉宾,大家上午好,我今天和大家分享的题目是《AI+物质科学机遇与挑战》。

我从以下三个方面和大家分享,首先介绍一下物质科学,然后谈谈AI+物质科学目前主要的问题和机遇,最后讲讲在物质科学AI实践中数据的核心作用。

首先是物质科学的简介。20世纪物质科学起到了非常重要的作用。大家可以纵观整个20世纪的发展,从1910年开始有低温物理,一直到后来的金属物理、量子磁性物理、晶体管集成电路等等,今天的晶体管、集成电路、激光器都得益于物质科学的发展,彻底改变了人类的生活状态,也造福了人类。

但是我们也应该知道,物质科学是非常复杂的一门研究领域。人类曾经尝试过想要搞清楚物质科学是不是可以回归到最底层逻辑——比如,把单个个体、一个个原子都研究清楚之后,是否就能够得到整个物质所有的状态呢?事实恰恰不是这样!物质科学中最难的一件事情是它的衍生现象,哪怕搞清楚了单个原子的性质,当把多个原子放在一起的时候,会呈现出完全不同的性质。我们物质科学的研究恰恰不能用还原论来简单地研究,这也是为什么物质科学研究产生了丰富多彩的性质。

物质科学面临的巨大挑战是什么?即便存在衍生现象,也并非无法通过还原论进行研究,也应该可以尽可能做到。但很麻烦的事情,就是我们面对的物质科学有巨大的鸿沟,从空间尺度来讲,从飞米10⁻¹⁵的基本粒子到纳米10⁻⁹ 一直到微米分子尺度,一直到宏观的米级材料器件,跨度跨越了15个量级。物质现象的时间尺度也从阿秒(10-18秒)一直到数年的腐蚀过程,研究的温度范围也是从10-9K到上千度的高温合金,所以跨尺度的现象严重阻碍了物质科学的研究。

20世纪初期,奠定了物质科学的基础,即量子力学。从当时开始,很多著名的物理学家包括狄拉克曾经说过:只要给我足够大的计算机,就可以完全计算清楚物质的性质。

沿着这条思路,我们(科学家们)曾经尝试过很久。从1965年就建立了一套简化的密度泛函理论计算体系,尽管经过了简化,但是基于严格的量子力学,所以当时取了一个名字:从头计算。就是希望我们通过全量子力学的计算,能够解决物质科学全部的问题。但事实上,从1965年发展到2020年,到今天为止,不仅没有人(能彻底)解决物质科学问题,而且离实际需求越来越远。

到2020年已经进入了AI世界,很多事情都不可能用现在基于全部量子力学的方法来完全解释,怎么办?人工智能给我们带来的机遇,也就是基于数据的物质科学研究给我们带来全新的领域——AI+物质科学。

整个的物质科学研究可以说核心就一件事情,给定材料,怎么能马上知道它的性质,其实这是最简单的事情。但是最核心的是反过来的,我希望达到什么性质,你马上告诉我应该怎么做,用什么材料、做什么结构,反向设计是我们的终极目标。

前面做的很多事情是从材料到性质,这时候基于量子力学的方法做计算,量子力学太麻烦,算不了怎么办?做简化或者用人工智能的方式加速计算,这是一条路径,叫代理模型,核心是做计算,但通过人工智能或其他手段加速这个计算。

有没有办法完全不做任何计算,直接通过足够多的数据生成描述符形成准确的预测?这就是今天谈到的生成模型,完全不需要任何计算。当然速度会很快,前提是要求数据足够好。生成模型也给我们一个机会,唯一可能进行反向设计的,有(目标)性质,马上就需要知道什么样的材料。

这个领域面临的问题比我们想象的多得多,最核心的问题是在底层没有足够多可用的数据,很多量子力学的基本问题都还没有解决,甚至没有严格解,误差近似到什么程度都不知道的话,很难解。所以这里有很多办法,比如今天可以做到“量超融合”,就是用传统大规模并行计算机,我们用GPU可以加速并行计算机,但是现在已经有了简单的原型量子计算机QPU,是否可以用它来解决量子力学的问题,和现在超算融合,能够形成“CPU+QPU”的模式。现在这也是一种有效的办法,能够解决底层的数据问题,即严格、准确的数据的需求。

还有很多,比如现在AI for Science之间很多结果都是违反物理规律的,怎么在这个过程中增加物理规律,形成一定受限的体系,同时提升外推的能力等等,都是我们需要解决的问题。核心是数据,没有足够好的数据,不可能做到这件事情。

未来的物质科学是什么样的状态?是万物互联的状态,数据是关键。整个社会的运行,由央行到交易市场、公司机构,中间核心的纽带是什么?钱可以作为一般的等价物,可以在这几个中间流通,形成非常好的整体。未来的物质科学我个人认为数据就起到了一般等价物的作用,是连接数据中心、人工智能和实验仪器的纽带,数据中心相当于数据的央行,而人工智能相当于数据的交易市场,各种实验仪器设备相当于公司机构。

在这个过程中就要解决数据的很多问题,比如数据的平台问题、资源问题、应用问题、生态问题等等。很多人不愿意做数据,恰恰也是不敢、不会、不便做数据,因为数据很复杂,没有共同的标准,怎么做?我们进行了尝试。前期做了四个平台,数据的汇聚平台、融合平台、应用平台、社区平台。

数据汇聚平台最核心就是要解决怎么在那么多实验仪器中获得有效的数据。以前很多实验数据是浪费在实验室,没有形成有效的汇聚,在未来物质科学研究中,我们必须把这些数据有效汇聚,特别不是正式发表在刊物上的数据,甚至尝试过程中失败的数据,往往对人工智能更有用。

数据的融合不是简单原来数据库的概念,而是强调数据的对齐,数据交叉互检,这中间人工智能起到非常大的作用。

数据应用、数据赋能,在未来研究中,数据会起到非常大的作用。举例,虽然高温超导机理尚未突破,我们无法通过计算来预测材料,但提升性能依然有路可循。我们搭建了一个多智能体系统,基于一千篇文献的投喂数据,让AI自主生成新的高温超导钉扎组分方案。结果显示,这些新材料在高场低温和低温高场环境下,性能已接近目前的最好的商业带材。

还有数据生态,怎么构建一个科学的评测体系,也是未来AI for Science非常重要的一环。

未来物质科学的研究有几件事情:从还原论到衍生论,不是简单局域的事情,而是要逐步描写物质的整体,从基础研究一直延伸到新质生产力。未来AI+物质科学是发展必然的选择,但还存在很多基本问题需要解决,数据是核心的要素。数据核心的要素需要国家整体布局,才能够解决这样的难题。

谢谢各位!(以上内容来自中关村论坛)

打开网易新闻 查看精彩图片

中国科学院物理研究所凝聚态物质科学数据中心(以下简称“数据中心”)面向凝聚态物理与材料科学的重大前沿问题,聚焦“数据—模型—计算—实验—验证”一体化的新范式,围绕AI for Science(AI4S)与AI for Materials(AI4Materials)开展系统布局。数据中心以高质量、可复用、可演化的数据基础设施为牵引,发展面向材料和量子物态的多模态数据采集、知识表示、模型训练与推理、性质预测与反演、以及自动化实验闭环与高通量工作流,旨在建设具有国际影响力的凝聚态与材料数据科学研究高地。

数据中心致力于打造覆盖“计算—实验—文献—知识图谱”的综合数据体系与开放工具链:在数据维度,形成标准化采集、清洗、标注、质量控制与版本管理的全流程治理;在AI维度,发展材料与物态相关的基础模型(Foundation Models)、生成模型,以及物理约束学习、可解释性、不确定性量化(UQ)、多目标优化、主动学习等方法;在实验维度,推动高通量合成与表征、仪器自动化与电子实验记录本(ELN)体系建设,实现从“发现规律”到“设计材料/物态”的加速闭环,为高温超导、拓扑量子计算、低功耗器件、能源与极端条件材料等方向提供核心支撑。

正如方忠所长所讲的未来的物质科学,是一种万“物”互联的生态,数据是关键,很多人不愿意做数据,恰恰也是不敢、不会、不便做数据,因为数据很复杂,没有共同的标准,数据中心大胆尝试、勇于开拓,前期做了四个平台,数据的汇聚平台、融合平台、应用平台、社区平台,如下图所示:

打开网易新闻 查看精彩图片

数据的汇聚平台

打开网易新闻 查看精彩图片

数据的融合平台

打开网易新闻 查看精彩图片

数据的应用平台

打开网易新闻 查看精彩图片

数智生态

在人工智能与物质科学深度融合的时代,数据已不再是简单的记录,而是驱动科学发现的核心要素。构建贯通数据汇聚、融合、应用与生态的完整闭环,连接实验仪器、人工智能与科研人员,通过建立统一的数据标准、推动开放共享、赋能智能应用,着力解决“不愿、不敢、不会、不便”共享数据的难题是数据中心的使命。唯有以高质量、高价值的数据为基石,才能真正实现人工智能赋能物质科学的跨越式发展。数据中心定当全力以赴,为物质科学领域的数智化发展贡献自己的力量。

数据中心微信公众号




文章转载自“物质科学数据中心”公众号