网状材料(包括金属有机框架、共价有机框架和沸石咪唑酯框架)的结晶对于构建有序多孔结构至关重要,这些结构在水收集和CO2捕获等社会重要应用中发挥着关键作用。此外,结晶还使得通过单晶X射线衍射(SCXRD)实现原子级精确结构解析成为可能,从而深化了对结构-性能关系的理解,指导材料的进一步开发。然而,尽管网状化学已发展数十年,新框架的结晶过程仍主要依赖试错法。尽管可以基于网状合成的几何原理理性设计构建单元,但确定哪些组合能在何种特定条件下结晶,仍然高度依赖于经验性探索。这种低效性导致大量化学空间未被探索,不仅可能错失具有变革潜力的材料,也限制了对结晶景观的基础理解,阻碍了人类直觉和针对性机器学习预测模型的发展。系统性地探索这一空间,以在有限实验资源下最大化发现,构成了与传统合成优化截然不同的根本性挑战。
鉴于此,加州大学伯克利分校Zichao Rong与Omar Yaghi教授提出了名为“算法迭代网状合成”(AIRES)的循环系统,该体系整合了自动化合成、图像识别、单晶X射线衍射以及定制化算法决策,旨在最大化不同晶体的发现数量,而非优化单一目标。在沸石咪唑酯框架(ZIFs)上的实验表明,AIRES的发现效率是随机探索的两倍,成功将10种新连接体结晶为多样化的ZIF拓扑结构,并将单连接体Zn-ZIF材料库扩大了三分之一。通过将网状合成从经验性过程转变为系统性探索,AIRES为加速材料发现提供了可扩展且高效的蓝图。相关研究成果以题为“Algorithmic iterative reticular synthesis of zeolitic imidazolate framework crystals”发表在最新一期《nature synthesis》上。
值得一提的是,荣子超(Zichao Rong)是Prof. Omar Yaghi课题组的四年级博士生。他毕业于北京大学材料化学专业,期间从事电催化剂和电池电极新材料开发的研究。目前研究重点是通过高通量实验与机器学习的集成,加速新网状材料的发现。
【初始ZIF合成数据集的构建】
在AIRES系统中,首先通过自动化平台收集并标注了初始数据集。具体而言,反应在机器人平台上进行,产物经过光学成像以识别晶体,随后进行SCXRD分析和数据标注(图1a–d)。研究聚焦于由单一连接体构成的Zn-ZIFs,选用了8种起始连接体(包括IM、2mIM、2nIM等),它们在咪唑环上具有不同位置和类型的官能团。每种连接体与六水合硝酸锌在N,N-二甲基甲酰胺(DMF)中反应,参数空间包括总浓度、连接体与金属的对数比值和反应温度,共生成336组反应条件 per linker,总计2,688组反应。高通量实验平台包含反应/结晶和表征两个阶段:机器人液体处理系统制备反应混合物,在恒温烘箱中加热5天;初步筛选采用自动光学显微镜,识别出澄清溶液、沉淀或单晶三种结果。晶体识别基于几何形状、颜色均匀性和尺寸(最短维度约20 μm)等标准。
图 1. AIRES 循环及其组成部分的示意图
研究人员首先对光学图像进行二分类(晶体 vs 非晶体),随后使用EfficientNetV2-S卷积神经网络训练模型,其晶体检测召回率达到0.88,显示出高可靠性。尽管模型通过过滤无意义图像提高了筛选效率,专家仍需对模型识别的晶体候选进行SCXRD验证。例如,在bIM连接体案例中,SCXRD揭示了两种不同晶体形态:已知的ZIF-7和一种新的二维结构 Zn 3 (bIm) 6 (HCOO) 4 (DMF) 2 (图2b)。为高效整合SCXRD至高通量实验,研究采用了两种实用假设:形态相似的晶体来自同一连接体时结构相同;晶胞参数与已知ZIF匹配即归类为ZIF。最终,反应结果被标注为二值标签:“1”代表成功形成ZIF单晶,“0”代表其他结果。通过将二值结果投影至二维参数空间(图2c),可视化了各连接体复杂且各异的结晶区域,显示出非单调关系,突显了机器学习方法捕捉这些复杂规律的必要性。
图 2. 初始 ZIF 合成数据集
【机器学习引导的发现方法】
AIRES的发现方法将机器学习预测模型与自动化实验迭代结合(图1)。每一轮迭代包括三个步骤:模型引导选择有前景的候选、自动化合成与表征、整合新结果以优化预测。为评估该方法,研究从48种新连接体中筛选出符合条件的候选,排除了具有配位官能团或溶解性差的连接体。连接体结构通过四类特征进行编码:官能团数量、连接体尺寸、中性/去质子化连接体的量子力学性质,以及预核物种(Zn(II)与两个中性连接体和两个硝酸根配位)的量子力学性质(图3a)。主成分分析显示,咪唑类和苯并咪唑类连接体有一定聚类趋势,但前两个主成分仅解释50.8%的方差,表明化学空间复杂性高(图3b)。研究方法将结晶视为二值结果,结合预测模型(随机森林分类RFC和高斯过程分类GPC)与贪婪选择策略,始终选择预测成功概率最高的实验。一旦某连接体成功结晶,算法即排除其后续实验,将资源集中于未探索候选。理论分析和实证验证表明,该贪婪策略在晶体发现中优于传统优化方法。为充分利用高通量能力,研究还开发了批量选择算法,通过条件概率估计考虑实验间依赖关系,避免冗余。与随机搜索(RS)相比,AIRES(RFC)仅需约700次实验即发现所有新ZIF晶体,而RS需1,400次,效率提升一倍(图3c)。批量实验设置下,AIRES(RFC)同样保持高效,仅需RS一半实验即可达成相同发现数量(图3d)。对各成功连接体的发现实验分布分析显示,AIRES(RFC)通过模式识别加速了挑战性目标(如6mbIM)的发现,而2pIM因结构独特成为例外,RS表现更优(图3e)。
图 3. AIRES 在加速 ZIF 发现方面的表现
【发现的ZIF结构描述】
尽管ZIFs共享四面体构建单元几何,其网络拓扑多样,由三字母代码表示。通过AIRES,10种成功连接体产生了11种新晶体,分属7种不同拓扑(图4a)。其中包括前所未有的双fcs拓扑(ZIF-A6)以及此前仅能通过混合连接体方法获得的yth拓扑。AIRES的系统探索将过去20年发展的单连接体Zn-ZIF库扩大了三分之一,打破了长达十年的发现停滞。此外,RFC还识别出四种新连接体(2cbIM、2mbIM等),在发现所有ZIF晶体前生成了其他类型晶体,这些结构虽保持四面体锌配位,但配体竞争导致形成层状ZIFs(LZIFs)而非三维框架(图4b),表明机器学习捕捉了基本配位原理。
图 4. AIRES 通过新连接体发现的 ZIFs 和 LZIFs 的拓扑分类及晶体结构
【总结与展望】
AIRES展示了超越单连接体Zn-ZIFs的广泛潜力,可扩展至多连接体体系及其他结晶系统。其核心的贪婪算法具有通用性,但反应编码需领域定制。随着系统复杂化,需辅以PXRD等多模态表征以维持严谨性。在更广的发现生态中,AIRES兼具双重价值:其验证的结构是构建结构-性能关系模型的宝贵数据源;其输出成果可作为下游材料规模化开发的结构锚点。例如,它将发现的初始条件与模拟PXRD谱图结合,能助力相识别与纯度评估,进而驱动优化循环以提升结晶度,从而在材料发现与后续工艺优化之间建立起无缝桥梁。
热门跟贴