打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

第一作者:江思远、周玥榕

通讯作者:程修文教授

通讯单位:兰州大学资源环境学院

论文DOI:https://doi.org/10.1016/j.cej.2024.150297

全文速览

近日,兰州大学程修文团队利用XGBoost(XGB)和CatBoost(CB)模型,探讨了双金属催化剂在活化PMS以去除水中氟喹诺酮类抗生素的实验优化与应用。针对XGB模型使用了SHAP分析以提供模型的可解释性,识别了对模型预测具有重要影响的特征。结合粒子群优化(PSO)和差分进化(DE),成功确定了XGB模型的最佳特征参数组合,为降解实验提供了准确的指导。在设计的实验条件下,两组材料能在30分钟和27分钟内分别降解93%的诺氟沙星和92%的环丙沙星,与模型预测结果的差异均在3%以内。与此同时,通过EPR和淬灭实验,探索了降解机制,验证了CB模型的预测结果。实验结果显示出了机器学习在环境功能材料优化设计中的巨大潜力。

背景介绍

氟喹诺酮类抗生素是一组广谱抗生素,由于其显著的抗菌效果,广泛应用于治疗由细菌引发的多种疾病。然而,氟喹诺酮类抗生素的过度使用给环境,特别是水环境,带来了不容忽视的负面影响。近年来的研究成果突显了PMS和各种无机金属催化剂在去除氟喹诺酮类抗生素方面的潜力和效率。但是不论从催化剂的选择还是实验最优条件的确定都非常耗时耗力,需要通过精细的大量的优化以实现最大的处理效率。随着计算机的发展,机器学习技术已逐步崭露头角,成为科研领域的强有力工具,尤其在处理大数据和解析复杂系统的底层机制方面展现出无可比拟的优势。在氟喹诺酮类抗生素的水处理研究领域,机器学习不仅是一个强大的辅助工具,更是研究者从大量历史研究数据中提取宝贵洞见的重要手段。

本文亮点

1. 在XGB模型和优化算法指导下进行的两组实验,降解率分别为93%和92%。

2. 预测的降解率与实验结果仅相差3%。

3. 分类模型(CB)精确预测了降解机制。

4. 回归模型(XGB)和优化算法有效地预测了最优实验条件。

5. 应用XGB模型和CB模型可以显著地减少优化实验条件所需的时间。

图文解析

首先,本研究从已发表的学术文献中整理并收集数据,并进行数据清洗以及填补缺失值。完成数据预处理后,通过探索性数据分析(EDA)来深入探查数据的分布特性、异常情况以及各变量之间的关联性。紧接着,我们针对“降解机制(自由基或非自由基过程)”展开分类预测,同时,还对“”去除率”进行了回归预测。为了深入探究模型每个特征值对预测的贡献,本研究引入了SHAP来对回归模型进行解析。接下来,本研究使用优化算法从全部原始特征数据中筛选出一组子集,该子集能够使模型的预测结果最大化。这些选定的数据将用于后续实验,以验证模型的有效性。最后,为确保本次研究所选策略的实际应用价值,我们采取了一系列的实验验证,其中包括XRD分析、降解实验、EPR以及淬灭实验。实验流程可参见图1。

打开网易新闻 查看精彩图片

图1 研究流程图

随后,开展了对降解机制的预测,经过K-fold交叉验证,选取出了评价指标最优的两种模型SVC模型和CB模型。SVC模型的准确率为0.9,精确度为0.98,F1分数为0.94,这3项评价指标均为所有模型中最高的,以及最佳的混淆矩阵(在50个正类样本中预测准确45个,13个负类样本中预测准确12个),由于后续需要模型对数据集以外的数据进行预测,所以AUC成为了我们关注的关键指标,但是SVC模型的AUC值仅为0.88,而CB模型则是最高的0.96。因此SVC模型和CB模型都会用于后续的研究并通过实验来验证出最佳模型。

打开网易新闻 查看精彩图片

图2 (a)和(b)分别为SVM和CB模型的混淆矩阵。(c-h)显示各种分类模型的评估指标的雷达图,子图标题指定每个指标的最佳性能模型及其值。

在经过数据预处理、Optuna调参以及K-fold交叉验证后,选取出了对“去除率”预测效果最好的回归模型,XGB模型。XGB模型在交叉验证集上的R2值为0.91,同时还有最低的RMSE,数值为1.10。模型的预测性能越好,则代表模型学习到的规律越接近实际规律。

打开网易新闻 查看精彩图片

图3 XGB模型的回归预测结果,图中的注释对应交叉验证集中的R2和RMSE值。

从平均SHAP值图(图4a)中可以识别每个特征对模型预测的平均影响。显然,煅烧温度对模型预测造成了最大的影响,其平均SHAP值最大。其后分别是催化剂投加量和抗生素分子质量,这三者被视为模型中最具影响力的特征。在SHAP部分依赖图中对这三个特征进行了着重分析。

打开网易新闻 查看精彩图片

图4 显示了SHAP分析的结果,其中(a)为SHAP平均值的柱状图;图(b-d)为SHAP部分依赖散点图。

最后一步是基于先前优化算法(PSO和DE)得到的结果,进行了实验验证。验证的核心目标是探索两种不同材料的性能并验证机器学习预测的准确性。实验流程描述如下:首先,将第一组实验合成的材料命名为CF1,第二组则为CF2。完成材料合成后,我们采用了X-射线衍射(XRD)技术以确定这两种材料的晶体结构和相组成。此后,按照优化算法设计的反应条件,进行了降解实验。为了探索反应机制,进行了EPR测试和淬灭实验,目的是探究不同ROS对降解实验的影响。

总结与展望

本研究成功开发了高度准确的分类模型(CB)与回归模型(XGB)。其中分类模型成功预测了两组材料的降解机制,回归模型的预测值与实际实验的结果相差均在3%以内。借助于分类模型,可以快速且精确地识别降解机制,从而避免耗费大量资源进行EPR和淬灭试验。同样地,通过回归模型和优化算法,可以显著减少寻找合适材料、确定合成方法和优化实验条件所需的时间。本研究的成果不仅为科研工作者提供了极大便利,而且为双金属材料在环境管理方面的应用,特别是在面临具有挑战性的抗生素废水处理问题时,带来了新的启示。

作者介绍

江思远,兰州大学程修文教授课题组博士生,研究方向为机器学习与污染控制。目前以第一作者在Separation and Purification Technology和Chemical Engineering Journal发表论文两篇。

周玥榕,兰州大学程修文教授课题组博士生,研究方向为基于过硫酸盐的高级氧化工艺在水深度处理中的应用,目前以第一作者在Chemical Engineering Journal发表论文两篇。

程修文,兰州大学资源环境学院教授/博士生导师,博士毕业于哈尔滨工业大学,入选甘肃省领军人才(二层次)、甘肃省飞天学者青年学者;兼任Chinese Chemical Letters编委、中国环境科学学会水处理与回用专业委员会委员、中国城镇供水排水协会青年工作者委员会委员等;主持国家自然科学基金项目2项、甘肃省杰出青年基金项目1项,青海省重点研发项目1项,以及政府、企事业单位委托项目数10项等;发表SCI论文100余篇(其中影响因子大于8以上论文80余篇)。

声明

本文仅用于学术分享,如有侵权,请联系后台小编删除

欢迎关注我们,订阅更多最新消息

“邃瞳科学云”直播服务

“邃瞳科学云”推出专业的自然科学直播服务啦!不仅 直播团队专业,直播画面出色,而且传播渠道多,宣传效果佳。

“邃瞳科学云"平台正在收集、整理各类学术会议信息,欢迎学会、期刊、会议组织方择优在邃瞳平台上进行线上直播,希望藉此帮助广大科研人员跨越时空的限制,实现自由、畅通地交流互动。欢迎老师同学们提供会议信息(会有礼品赠送),学会、期刊、会议组织方商谈合作,均请联系王女士:18612651915(微信同)。

 兰州大学程修文团队CEJ:机器学习驱动的双金属催化剂在PMS活化降解氟喹诺酮类抗生素中的优化应用
打开网易新闻 查看更多视频
兰州大学程修文团队CEJ:机器学习驱动的双金属催化剂在PMS活化降解氟喹诺酮类抗生素中的优化应用

投稿、荐稿、爆料:Editor@scisight.cn

邃瞳科学云APP