精度提20%，中科院、南京理工AI方法光电子能谱高维数据精细解析|中科院|光电子|动量|南京理工|算法|聚类|能带|高维数据

编辑丨ScienceAI

无监督聚类算法在划分 Nano-ARPES（ARPES：角分辨光电子能谱）空间映射数据集方面表现出强大的能力。然而，在区分细微的能带差异方面则表现欠佳。

在最新的研究中，中国科学院高能物理研究所的研究团队与南京理工大学的科研人员合作开发了一种多阶段无监督聚类算法(Multi-Stage Clustering Algorithm，MSCA)。

相较于传统的聚类算法，该算法在聚类精度上提升了约 20%，通过自动提取能带在表面的一致性从而清晰地划分出 MoS2/BN异质结中不同衬底或层数 MoS2的分布，并实现了细微能带差异的抓取。

该研究以「Automatic extraction of fine structural information in angle-resolved photoemission spectroscopy by multi-stage clustering algorithm」为题，于 2024 年 12 月 6 日发布在《Communications Physics》。

在固体材料科学领域，ARPES 技术因其对电子动量和能量同时分辨的能力而被广泛用于量子材料的电子结构表征。传统的ARPES 技术受限于毫米级的光斑尺寸而往往仅能对均质的完美单晶开展研究，高能同步辐射光源（HEPS）上的 Nano-ARPES 线站通过聚焦X射线光斑至纳米量级，使得研究电子结构在表面微纳尺度的分布成为可能。然而，样品表面的复杂性以及高维度的庞大数据量给 Nano-ARPES 的数据分析带来了挑战。

近年来，利用无监督聚类算法划分样品表面不同电子结构区域的研究取得了一定的进展。虽然传统的无监督聚类算法能够针对能带结构在秒量级完成对不同材料的区域划分，但在区分细微的能带差异方面则表现欠佳，比如传统聚类算法难以区分MoS2/BN 异质结中由不同衬底或层数造成的MoS2价带劈裂。

然而这些由于某种诱导因素导致的细微能带变化往往蕴含着丰富的物理机制并且是研究人员所关注的信息。针对这一问题，作者开发了一种多阶段无监督聚类算法(Multi-Stage Clustering Algorithm，MSCA)，该方法在 Nano-ARPES数据集中同时实现了实空间和动量空间的聚类分析。此外，MSCA 能够指出一些细微的能带差异，如能带的移动或分裂，显著提高了聚类的准确性和识别限度。

样品介绍与K-means算法结果

本研究基于的数据来自样品 MoS2/BN/Au，三种材料叠放在一起，由上至下分别是 MoS2，BN 和 Au，样品的 Truth Table 由图 1 所示，Truth Table 用来计算算法的性能指标。目前应用广泛的 K-means 算法只能区分出具有较大差异的 Au，BN 和 MoS2三种材料，但对于不同类型 MoS2的区分表现欠佳，如图 2 所示。

图 1 ：样品的Truth Table：Au，BN，基于衬底 Au 的 MoS2，基于衬底 BN 的单层MoS2和基于衬底 BN 的多层 MoS2的像素值分别是 0，1，2，3 和 4，不确定区域的像素值为 5。

图 2 ：K-means 算法将 Nano-ARPES 数据集分为 3/6 类的结果。

Multi-Stage Clustering Algorithm（MSCA）

作者认为，不同类型 MoS2的区分重点在于捕捉到细微的能带差异，而传统的K-means 算法将整个动量空间的能谱作为输入，会削弱特定能带的分辨能力，因此，实现精细聚类的关键在于捕捉到动量空间中特定的能带，基于能带区域的聚类将极大提升聚类精度，该过程可以通过多阶段聚类算法(MSCA)来解决， MSCA 的分析流程如图 3 所示。

图 3 ：多阶段聚类算法(MSCA)分析流程。

MSCA 将 K-means 算法应用于三个阶段的数据处理。在不同的能量-动量窗口中，实空间的 K-means聚类结果被视为第二轮动量空间 K-means聚类的输入。通过这种方式，可以捕获到在实空间表现出不均匀的能量-动量窗口，从而准确区分具有细微差异的单/多层以及不同衬底的 MoS2，如图 4 所示。

图 4 ：多阶段聚类算法(MSCA)动量空间及实空间的聚类结果。

为了评估各算法的精度，研究人员使用 Accuracy、Recall、Precision 和 F1 score 等指标评估了 K-means 与 MSCA 算法的性能。鉴于本研究中数据集的不平衡特性，研究人员通过计算 macro averages，对算法的整体聚类正确性提供了更平衡和全面的评估，确保性能不会受到实例数量较多的类别的影响（表1/2）。

相较于 K-means 算法，MSCA 的 Macro Accuracy，Precision，Recall 和 F1 Score 分别提升了 2%，6%，20% 和 18%。另外，每一类 MoS2的 Precision 和 Recall 数值都更加的平衡，表明 MSCA 在正确识别正实例的同时能够有效避免将负实例错误分类为正实例，这种平衡的性能通常被认为是算法的理想特征。

未来展望

MSCA 作为一种高效的数据处理方法，特别适用于处理具有复杂能带色散的样品，能够精确捕捉到细微的能带差异，对于高维科学数据分析具有重要的实用价值。MSCA 能够像经验丰富的研究人员一样，自动搜索空间中的不均匀能带结构，并突出显示这些能带，无需依赖以往的研究知识。

随着 MSCA 的引入，Nano- ARPES 的应用将变得更加强大。与人工提取能带信息的方式相比，MSCA 的表现更佳，尤其是在信噪比低的二维 ARPES 图像中，这将帮助研究人员基于更短的采集时间快速找到感兴趣的区域。此外，系统稳定性是 Nano-ARPES 的关键因素，MSCA 可以通过监控每次独立采集之间的相似性来去除偏差数据，从而提高 Nano-ARPES 系统对低频波动的鲁棒性。

未来，MSCA 算法将集成到 HEPS 的 Nano-ARPES 数据采集系统（MAMBA），实现在线精细聚类和能带结构提取，进行高效的 ARPES 实验数据采集，加速各类基础科研成果的产出。

论文链接：https://www.nature.com/articles/s42005-024-01878-1

代码链接：https://github.com/lbian94/FineClustering

图片均来自论文或网络。