2011年,美国能源部劳伦斯伯克利国家实验室(伯克利实验室)的一个小团队启动了后来成为世界引用最多的材料数据库的项目。如今,材料项目服务超过65万用户,已被引用超过32,000次——但其真正的影响可能才刚刚开始。
当著名计算材料科学家Kristin Persson及其团队首次创建材料项目(Materials Project)时,他们构想了一个自动化筛选工具,能够帮助工业界和学术界的研究人员加速设计用于电池和其他能源技术的新材料。一个用户友好的界面将研究人员免费连接到最大的材料属性集合。其开源框架——由伯克利实验室能源部用户设施国家能源研究科学计算中心(NERSC)的超级计算机支持——将有助于普及材料知识并促进跨学科合作。另一个优势则是无需编程经验。
这个开创性数据库的消息很快在材料科学界传开,材料项目迅速成为世界上最受欢迎的材料数据提供商之一。到2020年初,多达120,000人——从国家实验室科学家和工业创新者到好奇的高中生——加入了材料项目社区。现在,材料项目达到了另一个重大里程碑:注册用户超过65万。
这种指数级增长反映了对经过策划的、可用于机器学习的数据集的激增需求,这些数据集可以立即为AI应用提供动力,而无需大量预处理。数据巨头和机器学习革命在其14年的运营中,材料项目及其软件工具已被同行评审的科学期刊发表的研究引用超过32,000次,推动了电池、量子计算、微电子、工业制造催化剂等方面的进步。其计算材料数据库现在包括超过200,000种材料——从普通金属到稀有化合物——以及超过577,000种分子。
在过去两年中,它向用户交付了465TB的数据——相当于大约1亿张高分辨率照片或100,000部电影大片的高清版本。“机器学习对材料发现来说是革命性的,因为它使科学家免于在实验室中测试新化学品和制造新材料时一遍又一遍地重复相同的过程,”材料项目主任兼联合创始人Persson说。“要取得成功,机器学习程序需要访问大量高质量、经过精心策划的数据。凭借其庞大的策划数据存储库,材料项目已准备好为AI服务。”
从一开始,伯克利实验室的材料项目领导团队——由Persson(她还担任伯克利实验室材料科学系高级科学家和加州大学伯克利分校材料科学与工程教授)、伯克利实验室科学家和材料项目副主任Anubhav Jain,以及伯克利实验室高级计算工程师和材料项目技术主管Patrick Huck组成——一直与来自工业界、国家实验室和学术界的众多贡献者密切合作,其中许多人被列为Persson和团队最近在Nature Materials期刊发表的视角文章的共同作者。
材料项目主任Kristin Persson
他们共同改进了材料项目,增加了更多材料、更好的算法和搜索能力,以及更多样化的属性覆盖。以用户友好性为指导原则,他们具有远见,早在AI兴起之前的数年就将最先进的机器学习算法构建到系统中,帮助研究人员理解和识别功能材料。“材料项目一直处于促进材料科学机器学习革命的前沿。”Jain说。“许多机器学习公司——从初创公司到成熟公司——都依赖材料项目来训练其预测材料属性的机器学习模型,他们的工程师和科学家随后使用这些模型来开发产品。”
AI就绪:策划数据的力量
研究人员目前正在寻找新的电池材料,以更有效地为电网或交通储能,或寻找新的催化剂来帮助提高化学工业的效率。但开放科学文献中只有不到1%的化合物有实验数据可用,这限制了对新材料及其属性的理解。这就是数据驱动的材料科学可以提供帮助的地方。“加速材料发现是解锁新能源技术的关键,”Jain说。“材料项目在过去十年中实现的是,研究人员通过使用高保真计算模拟,可以了解数十万种材料的属性。这反过来又使他们能够更快地设计材料,并开发机器学习模型来预测他们感兴趣的任何应用的材料行为。”
材料项目平台在国家能源研究科学计算中心(NERSC)使用高通量计算建模来筛选大型材料库以用于特定目的。属性使用先进的计算方法计算,并根据现实世界的实验进行验证。这种方法允许研究人员快速测试和评估许多不同的材料,加速发现过程。
该平台还提供标准化数据集,格式化用于训练机器学习系统,包括关于材料电子密度的详细信息。这种经过策划的数据允许研究人员根据性能基准验证新的AI模型。这种广泛准备工作消除了通常需要数月来组装和清理材料数据集的时间,使研究人员能够专注于开发新的AI算法和进行科学发现。在疫情期间,材料项目的AI就绪能力使材料研究得以继续,尽管实验研究实验室的现场访问受到限制。“传统上进行动手实验室实验的实验材料科学家转向数字工具来分析数据并运行模拟,同时远程工作。
如今,像材料项目这样的现代平台现在被期望全天候运营,以“支持自2022年5月以来增长了2.5倍的用户社区。”Huck说。为了支持这一不断增长的需求,Huck及其团队与MongoDB(现代应用程序的领先数据库)、可观测性平台Datadog和云计算提供商亚马逊(Amazon Web Services)等工业合作伙伴合作,将材料项目迁移到基于云的基础设施,该基础设施支持从快速属性搜索到大规模数据下载的所有内容,以及允许实时探索不同材料之间关系的交互式工具。这种创新的云基础设施确保了99.98%的正常运行时间,这是高可用性的行业标准。
从数据库到发现材料项目已被全球大学、研究实验室和公司采用,服务于电池、半导体、催化剂和结构材料的研究。长期用户丰田研究院(TRI)总部位于加利福尼亚州洛斯阿尔托斯,在马萨诸塞州剑桥市和密歇根州安娜堡设有设施,一直依赖材料项目的开源工具和数据来开发新材料。TRI是丰田汽车公司的研发和科学开发子公司,专注于开发人工智能、车辆自动化、材料科学和机器人技术。
“材料项目通过为整个研究社区提供透明开发的开源工具,成为工业界和学术界的强大桥梁。几乎每一项专注于材料发现AI的工业工作——无论是在成熟公司还是初创公司——都由在材料项目受过训练的众多才华横溢的年轻科学家中的一员领导。他们的印记无处不在,”丰田研究院副总裁Brian Storey说。
微软公司也使用材料项目来训练材料科学模型,最近开发了一种称为MatterGen的工具,这是一种用于无机材料设计的生成模型。微软Azure量子使用材料项目的数据开发了一种新的电池电解质。其他著名研究使用材料项目成功设计用于有前途的新应用的功能材料。2020年,加州大学圣塔芭芭拉分校、阿贡国家实验室和伯克利实验室的研究人员合成了Mn1+xSb,这是一种对电子、汽车、航空航天和能源应用中的热冷却有前景的磁性化合物。研究人员通过材料项目对超过5,000种候选化合物的筛选发现了这种磁热材料。
除了访问庞大的数据库外,材料界还可以通过一个称为MPContribs的平台向材料项目贡献新数据。这允许国家实验室设施、学术机构、公司和其他已经生成大量材料数据集的组织与更广泛的研究社区共享这些数据。其他社区贡献通过新材料预测和实验验证扩展到了以前未探索的领域。例如,谷歌Deepmind——谷歌的人工智能实验室——使用材料项目训练了初始GNoME(用于材料探索的图网络)模型来预测晶体的总能量,这是材料稳定性的一个关键指标。通过2023年在Nature期刊上发表的工作,谷歌Deepmind向材料项目贡献了近400,000种新化合物,扩展了平台庞大的材料属性和模拟工具包。材料项目贡献或管理的注册到能源部科学与技术信息办公室(OSTI)数据ID服务的数据集比任何其他平台都多,这标志着其在开放科学和数据共享方面的领导地位,并通过谷歌数据集搜索等搜索引擎设定了数据管理和可访问性标准。如今,它只是能源部科学办公室的七个公共可重用数据资源之一,这些资源使策划的数据公开可用,以进一步科学发现和技术知识。该平台庞大的材料数据库不仅有助于激发新能源技术,还激发了下一代材料科学家。
“公立和私立大学的研究生、博士后和教授依靠材料项目24/7作为他们研究的资源。我们现在平均每天被研究论文引用超过六次这一事实表明,材料项目在短短十年中已成为多少教育资源,”Huck说。连接到自主实验室随着材料科学拥抱数据驱动的发现,材料项目的经过策划的数据集使其成为AI驱动的材料设计的重要基础设施。该平台正在继续发展其机器学习能力,计划增强计算方法和改进对复杂材料行为的处理。“我们一直在工作的一个令人兴奋的领域是将这个模拟管道与伯克利实验室A-Lab进行的自主实验连接起来。我们不仅在计算机中模拟事物,而且还将新材料带入现实,”Jain说。
A-Lab是一个全自动实验室,使用由人工智能引导的机器人来加速材料科学发现。自2023年推出以来,A-Lab与材料项目合作,合成了对未来技术有前景的新材料。这种全面数据覆盖、严格质量标准和社区驱动扩展的组合创造了加速具有特定期望属性的新材料发现时间表的基础,Jain补充说。
热门跟贴