大语言模型加速材料发现，普林斯顿大学团队准确预测晶体特性|光学|加速材料|原子|大语言|带隙|普林斯顿大学|晶体特性

编辑| X

晶体特性的预测在晶体设计过程中起着至关重要的作用。当前预测晶体特性的方法主要集中于使用图神经网络（GNN）对晶体结构进行建模。尽管 GNN 很强大，但准确模拟晶体内原子和分子之间的复杂相互作用仍然是一个挑战。

文本数据提供了丰富的信息和表现力，但从晶体文本描述预测晶体特性的研究还不够。主要原因之一是缺乏该任务的公开数据。

普林斯顿大学的研究人员创建了一种 AI 工具来预测晶体材料的行为。新方法依赖于大型语言模型（LLM）。通过综合文本描述中的信息（包括原子之间键的长度和角度以及电子和光学特性的测量等细节），新方法可以比现有模拟更准确、更彻底地预测新材料的特性，并有可能加快设计和测试新技术的过程。

研究人员开发并公开了一个基准数据集（称为 TextEdge），其中包含来自Materials Project的 140,000 多个晶体的描述，然后，提出了 LLM-Prop，一种利用 LLM 的通用学习能力从文本描述中预测晶体的物理和电子特性的方法。

研究人员测试了该工具预测先前研究的晶体结构（从普通食盐到硅半导体）特性的能力。已经证明了 LLM-Prop 预测能力，正在努力将该工具应用于新晶体材料的设计。

论文一作、普林斯顿大学计算机科学助理教授 Adji Bousso Dieng 表示，「该方法代表了一个新的基准，可以帮助加速材料的广泛应用。我们是第一个使用大型语言模型来解决这个问题的团队。」

该方法于 2023 年 11 月 29 日，在波士顿举行的 the Materials Research Society's Fall Meeting 上提出。

相关研究以「LLM-Prop: Predicting Physical And Electronic Properties Of Crystalline Solids From Their Text Descriptions」为题，发布到arXiv预印平台。

GitHub 地址：https://github.com/vertaix/LLM-Prop

论文链接：https://doi.org/10.48550/arXiv.2310.14029

现有的基于人工智能的晶体特性预测工具依赖于图神经网络的方法，但这些方法的计算能力有限，无法充分捕捉晶体中原子之间的几何形状和键长的细微差别，以及由这些结构产生的电子和光学性质。

「我们在计算机视觉和自然语言方面取得了巨大进步，」Dieng 说，「但在处理 AI 图方面，我们还不是很先进。所以，我想从图转移到我们已经有了很好的工具的领域。如果我们有文本，那么我们就可以在文本上利用所有这些强大的大型语言模型。」

该研究的合著者、普林斯顿大学机械与航空航天工程教授兼负责创新的副院长 Craig Arnold 表示，基于语言模型的方法「为我们提供了一种全新的方式来看待材料设计问题。这实际上是关于，我如何获取人类已经开发的所有这些知识，以及如何处理这些知识以向前发展？它与我们当前的方法有本质上的不同，我认为这赋予了它很大的力量。」

研究的主要贡献概述如下：