色谱技术自20世纪初提出以来,已成为化合物分离与分析的核心方法。其基于不同组分在流动相与固定相间的亲和力差异实现有效分离。从最初的纸色谱到如今的高效液相色谱(HPLC)和气相色谱(GC),色谱技术的每一次进步都极大促进了化学、生物学及环境科学等多领域的研究发展。同时,人工智能(AI)尤其是机器学习(ML),在化学领域展现出强大的数据处理和分析能力,被广泛应用于逆合成分析、反应产率预测、化学动力学机理解析等方面。
色谱分析的核心挑战在于准确预测和确定色谱条件。传统方法通常依赖于经验判断及反复试验,通过试错过程逐步积累分析知识。然而,AI的引入为这一领域带来了创新性解决方案,因为它拥有基于数据学习的模型预测能力,可以快速进行色谱条件的虚拟筛选,从而有效降低试错的频率和成本。此外,AI在提升分析的准确性和效率方面展现了明显的优势,特别是在处理传统色谱技术难以应对的复杂样本时,其价值更加显著。在色谱技术领域,ML的应用主要集中在数据的高效处理和精确解析上,包括优化色谱峰的识别、提升分离效率以及精确预测色谱条件等方面。色谱技术的高分辨率与AI的数据处理能力的结合,不仅开辟了实现更快、更准确、成本效益更高分析方法的新路径,也满足了日益增长的复杂化合物分析需求。
保留值是由分子与色谱柱固定相及流动相之间的相互作用决定的,因此可以依据分子结构和实验条件来预测保留值,从而辅助分子鉴定和色谱条件优化。近十年来,基于ML的保留值预测模型得到广泛报道,这些模型通常被称为定量结构保留关系(quantitative structure-retention relationship,QSRR)模型,开发QSRR模型是AI4Chromatography研究的核心所在。
本文将重点介绍AI4Chromatography研究工作流,并通过详述AI算法在各种色谱问题中的典型应用案例,帮助读者深入了解这一领域。
PART.01
AI4Chromatography研究的工作流
在AI4Chromatography研究中,研究要素涵盖数据、计算支持及硬件自动化支持三个方面。其研究流程如 图1 所示。首先进行色谱数据的收集,然后对分子及色谱实验条件进行详尽的特征工程处理。接着,使用机器学习框架构建并训练模型。最后,通过特征重要性分析和相关性分析等方法进行模型的可解释性研究,以提出新的化学见解。
图1 AI4Chromatography研究流程示意图
PART.02
AI在色谱研究中的应用
2.1
AI在TLC中的应用
薄层色谱法(thin layer chromatography,TLC)是一种分离混合物中各组分的有效技术。在此方法中,待分离组分在流动相(即溶剂)的作用下,沿固定相表面移动。由于组分与固定相的亲和力差异,各组分的移动速度不同,进而实现分离。
图2 结合机器人技术和ML模型进行Rf值预测. (a) 开发的自动化TLC平台有助于高通量实验从而产生标准化的TLC数据; (b) 使用分子指纹、分子描述符和溶剂特征来表示TLC 过程; (c) Ensemble模型在训练集未见化合物上预测的R2为0.887,通过特征重要性分析发现对Rf值影响最大的分子描述符为TPSA
2.2
AI在液相色谱中的应用
液相色谱法(LC)是利用液态流动相在固定相中的流动来分析和分离化合物的技术,适用于极性和非极性化合物的鉴定与定量。
图3 使用 QGeoGNN 预测 HPLC的RT. (a)通过NLP 批量提取 644 篇论文的RT数据,以及分子信息和色谱条件; (b) 将分子表示为原子-键图和键-角图,并且嵌入实验条件和MD,用以全面表示分子的三维信息,从而实现对手性对映体的区分. (c) 手性固定相填充物的粒径、基体、取代基和连接类型(固定化或涂覆)都会影响HPLC柱的手性识别能力,需在ML建模过程中考虑。内径和柱长也会影响手性识别能力,但在商业HPLC柱中这些参数是保持不变的
2.3
AI在气相色谱中的应用
GC是一种用于分析和分离易挥发化合物的色谱技术,其通过控制气体流动相在固定相(即色谱柱)内的流动实现分离。
图4 RI预测模型的架构. (a)模型示意图 首先将分子的SMILES表示为one-hot矩阵,其次使用CNN进行特征提取,池化后的特征输入到全连接层进行RI预测; (b)模型参数设定方案
2.4
AI在其他色谱中的应用
疏水相互作用色谱(hydrophobic interaction chromatography,HIC)是一种基于分析物与色谱介质疏水性区域的相互作用进行分离的技术。固定相通常含有疏水基团,流动相则为水溶性缓冲液。通过调整流动相的离子强度或加入有机溶剂,可控制分析物与固定相的相互作用,进而调节分析物的RT。
凝胶渗透色谱(gel permeation chromatography,GPC)是一种专门用于测定高分子物质分子量分布的技术。其工作原理依赖于分子尺寸的分离,而非分子间的相互作用力。Nagy等人开发了两种ANN模型,成功地从GPC数据中提取共聚物的详细信息,包括分子量和组成。
离子交换色谱技术(ion exchange chromatography,IEC)基于分析物离子与色谱柱填料上离子交换基团之间的亲和力差异进行分离,被广泛应用于蛋白质、肽、核酸等生物大分子的分离与纯化。Giese等人应用线性回归(linear regression,LR)、ANN等模型预测亲水性强阴离子交换色谱中肽的RT,并通过特征重要性分析发现带电残基是RT的主要影响因素。Nikita等人采用强化学习(reinforcement learning,RL)优化阳离子交换色谱的工艺流速,设定奖励函数后,RL能推荐最优流速以实现产量最大化。
PART.03
展望
尽管AI4Chromatography研究已得到了初步的发展,但仍然存在着许多问题亟待解决,下面将从3个方面分析AI4Chromatography研究的挑战与未来发展方向:
(1)数据困境. 高质量、大数据是AI4Chromatography研究的根本。目前,大部分QSRR研究依赖于数据库和文献,但部分数据库的不开源性和文献中色谱条件描述的不一致性,加之数据分布的不均匀性,给ML研究带来了困难。因此,未来应当着力推进实验室自动化技术,以实现高通量的标准化数据采集。例如,我们课题组已在自动化TLC分析平台结合AI应用方面进行了初步研究。同时,亦应致力于开发课题组色谱数据共享平台,建设AI4Chromatography研究社区和开源色谱数据库,以形成健康的研究生态环境,汇聚众智。
(2)AI4Chromatography模型的发展方向. AI4Chromatography研究已逐渐发展为硬编码与软编码相结合的方式。硬编码即在模型中直接应用预设的固定特征,如MD计算就属于此范畴。目前,主流特征筛选算法包括卡方/方差过滤、PCA、GA、蒙特卡洛方法等,未来需开发更高效的特征筛选算法。软编码则指模型训练过程中自动从数据学习和提取特征的方法,例如CNN自动提取SMILES特征、GNN提取图特征等。当前,随着ChatGPT的发展,基于注意力机制的Transformer模型已经吸引了化学研究者的关注,它是一种软编码解决方案,在处理序列数据方面展现出显著优势。然而,利用Transformer的AI4Chromatography研究尚少,这将是未来重点发展方向之一,目标是开发适用于色谱领域的大模型。此外,未来的主要发展方向还应包括半监督学习(如伪标记技术等)、多模态学习、迁移学习,这些方法可最大限度地利用有限的色谱数据,并实现模型在不同色谱系统中的有效应用。
(3)应大力发展色谱知识嵌入和知识发现技术. 目前的AI4Chromatography算法普遍缺少对物理概念的整合,主要依赖于从数据中识别模式或规律。这种方法可能导致得出的结果违背物理定律,进而影响模型的收敛性和稳定性。因此,如何将色谱领域知识嵌入到AI算法中,构建物理合理、数学精确、计算高效的模型,是未来的重大挑战。例如,我们课题组构建了一个物理约束神经网络(physics-informed neural network,PINN),将TLC的单调规则纳入损失函数,同时还构建了一个硬约束,通过 sigmoid 激活函数将输出限制为 (0,1),使得与Rf 值的现实世界行为保持一致。
另外,AI4Chromatography研究的最终目标是通过QSRR模型学习新知识和规则,以促进科学发现。然而,神经网络因其“黑箱”特性而经常受到诟病,其模型可解释性方面的研究仍然不足。未来研究的重点应是发展基于AI算法的知识发现技术,从数据中挖掘尚未被发现的知识,以突破现有的认知限制。其中主要的策略包括稀疏回归、符号数学等。例如,Jiang等人利用SISSO方法获得了谱构效关系的简明数学公式,该公式具有较强的可解释性,实现了跨不同系统的知识迁移。
我们对未来的愿景是:通过实验室自动化快速获取色谱数据,研究人员利用这些高质量的数据构建具有知识嵌入的AI算法,并通过知识发现技术,发现新的色谱知识和规则,进而进一步指导算法设计,形成闭环。AI4Chromatography研究领域蕴含着丰富的探索潜力,我们期望本文分享的洞见与观点能激发研究人员的灵感,共同推动该领域的进步与发展。
林京龙, 莫凡洋*. 人工智能赋能色谱技术研究. 科学通报, 2025, 70(4-5): 481–491
https://doi.org/10.1360/TB-2024-0184
转载、投稿请留言
| 关注科学通报 | 了解科学前沿
热门跟贴