使用AI检测有缺陷的压接|压接|拟合|算法

CFM 可以可靠地检测许多缺陷，包括剥线长度错误、绞合缺失和压接中的绝缘照片由 Partex Marking Systems 提供

压接力监控（CFM）长期以来一直是电线组件故障检测的标准。该技术可以可靠地检测许多缺陷，包括错误的剥线长度、缺失的绞线、错误的导线横截面、错误的端子、不一致的端子材料、压接中的绝缘、错误的插入深度和错误的压接高度。

在 CFM 中，压电传感器测量施加在端子组件上的力以及随后的材料位移。在进行几次参考压接后，将每次后续压接与已知良好的参考进行比较。如果力和位移在规定的公差范围内，则压接良好。如果超出这些容忍度，那就很糟糕了。

尽管 CFM 简单且准确，但它也有一些缺点。首先，这项技术很昂贵。每台压接机都需要自己的监视器。

研究人员从线束制造工厂运行的压接机中收集了数据。该机器每天分多班次运行。它配备了 CFM 系统资料来源：东国大学

另一个问题是设置公差范围。生成参考样品和收集数据需要大量的时间和技能，并且必须对每根新电线和端子重复该过程。这在很大程度上取决于技术人员的技能。

可扩展性是另一个挑战。如果产量和品种增加，CFM 系统可能难以保持效率和准确性。

为了应对这些挑战，CFM 系统可以通过人工智能（AI）进行增强。AI 不断从实时数据中学习和适应，使其能够适应广泛的制造流程和外部条件。这种适应性大大降低了频繁重新校准系统的需求。此外，基于 AI 的系统不需要数据处理方面的专业知识，使其更易于访问。

AI 还可以通过有效管理来自多条生产线的数据并适应产品类型的变化而无需进行大量重新配置来增强制造运营的可扩展性。这种灵活性可以帮助制造商快速响应市场需求和产品多样化。

此图显示了在压接操作期间使用 AI 模型进行故障检测的过程。最初，参考数据是手动收集的。然后，对数据应用 RSDS，通过对特定区域进行升容或降容，生成合成异常数据。然后使用拉普拉斯分布来增强数据，以增加数据集的数量并提高模型的训练鲁棒性。最后，使用增强的数据集来训练使用 MLP 的 AI 模型资料来源：东国大学

然而，在将 AI 引入压接系统之前，必须解决几个挑战。首先，由于数据刻度的变化，压接过程的变化可能会使现有的 AI 模型过时。例如，更改导线类型可能会改变整体数据比例，从而使以前建立的模型无效。

另一个挑战是缺乏有缺陷的压接数据点。这些数据对于训练 AI 模型非常重要。可能会出现不可预测的缺陷，因此模型拥有的缺陷数据越多，它就越准确。有一些异常检测算法（例如 Isolation Forest）可以单独使用正常数据进行训练，以检测未知缺陷。但是，这可能无法保证对所有潜在故障的检测准确性都足够。这使得此类算法不太适用于实际制造中的质量控制。

为了应对这些挑战，提出了一种故障检测系统，该系统采用具有区域选择性数据缩放（RSDS）的 AI。RSDS 通过对数据的特定区域执行放大或缩小，从参考数据中生成合成异常数据。这使得故障检测系统能够使用完全由正常操作数据组成的数据集有效地训练 AI 模型，并且仍然在检测故障方面实现高准确性。

在这项研究中，多层感知器（MLP）分类模型完全在正常数据上进行训练，能够有效区分正常和异常情况。为了验证该系统，从真实世界的线束制造设施中收集了 15 个独特的原始数据集，并使用四种异常检测算法进行了测试：隔离森林、单类自动编码器、k-means 和基于直方图的异常值分数（HBOS）。

此图显示了研究人员用于生成合成异常数据的 RSDS。当缺乏有关缺陷的实际数据时，这些数据可以帮助训练 AI 模型。这种方法不是统一缩放整个区域，而是将区域划分为较小的部分，然后有选择地应用缩放资料来源：东国大学

面向制造数据的 AI

监督学习已被用于检测不同工业过程中的故障。它能够从标记数据中学习并预测结果，这使其成为故障检测和分类的强大工具，尤其是在复杂的制造过程中。这种方法已用于半导体制造等行业，在这些领域中，早期检测故障可以节省大量时间和成本。该技术还已应用于电动机制造，以优化发夹式绕组等工艺。

然而，监督式学习需要大量的标记数据来训练模型，而收集和标记数据的过程既耗时又昂贵。

为了处理此类问题，可以考虑使用无监督学习和异常值分析方法。这些方法可以从原始数据中提取有意义的特征，并有效地处理大量未标记的数据。它们有助于解决制造环境的复杂性，提供无需预定义标签的有效诊断工具。

然而，这些无监督学习方法的效用并非没有限制。通常，特征选择过程可能包括噪声或不相关的特征，这可能会对精度产生不利影响。它还需要大量未标记的数据才能达到令人满意的性能水平。

为了补充这些缺点，可以使用半监督学习技术。这些技术通过选择性地将来自不确定的未标记数据池的标记数据合并到训练过程中，结合了监督学习和无监督学习的优势。这种方法有效地优化了从有限数据中的学习，同时通过集成各种分类器进一步加强故障诊断，这有助于降低合并噪声或不相关特征的风险。这可以增加学习过程的多样性和稳健性。

此图描述了制造过程，其中故障检测系统按顺序分析每个数据集资料来源：东国大学

尽管取得了这些进步，但训练模型过程中仍然存在一个关键挑战。对于故障检测，这些模型需要来自正常类和异常类的数据才能进行有效训练。然而，在实际的制造过程中，由于缺陷的不可预测性，获取异常数据是一项挑战。

异常检测算法可以通过仅使用正常数据训练模型来解决这些问题。已经提出了许多异常检测技术来对正常数据中的异常值进行分类。通常，现有的机器学习算法用于异常值检测。例如，决策树提供了一种简单的、基于规则的方法，通过检测与典型模式的偏差来识别异常。这些算法通过从以正常为主的数据集中学习普通类的边界和特征来实现单类训练。

神经网络还可用于异常检测，因为它们能够理解复杂的关系。例如，自动编码器可以有效地利用其重建误差来区分异常状态和正常数据。聚类分析技术对于异常检测仍然很强大，例如 k-means，它可以对相似数据进行分组，并突出显示填充较少的聚类中的异常值。

建议的方法

为了解决机器学习的局限性，已经提出了异常检测算法来仅使用单类数据来训练模型。然而，在实际制造中，可用于训练 AI 模型的参考数据集很少。仅使用少量正常数据训练的模型在面对各种以前未见过的异常时将显示出较差的性能。此外，这些算法可能会受到过度拟合的影响，尤其是当正常数据不能代表所有可能的正常行为时。

设置适当的阈值来对异常进行分类是另一个挑战。实现高精度故障检测需要在模型的灵敏度和特异性之间取得谨慎的平衡。

要开发实用的故障检测系统，必须从实际制造过程中收集原始数据，而不是理论模拟。在我们的研究中，我们从线束制造工厂运行的压接机中收集了数据。

该机器每天多班运行，专门用于生产用于各种电子组件的线束。它配备了 CFM 系统。

研究人员的 AI 系统（最右边）比其他著名的 AI 模型更擅长检测有缺陷的压接资料来源：东国大学

在 2023 年 4 月 19 日至 5 月 8 日期间收集了 15 个数据集。总共收集了 23,383 条单独的压接记录。CFM 系统为每次压接提供时间戳，以及质量标签（“好”或“坏”）。每次压接大约 200 个数据点，每 5 毫秒收集一个数据点。根据 CFM 系统，23286 个条目被标记为良好，97 个条目被标记为不良。不良压接主要归因于绝缘损坏等问题，这会导致电线裸露，以及压接不当，导致电气连接薄弱，从而损害线束的整体功能。

数据集的规模，即使是在同一天收集的数据集，也存在显著差异，这对开发用于缺陷检测的通用 AI 模型构成了重大挑战。4 月 19 日、4 月 26 日和 5 月 4 日收集的数据显示出明显的差异。这种不一致不仅是由于产品的可变性，也是由于传感器灵敏度问题和环境条件的波动引起的。鉴于这些可变和不一致的尺度，为每个独特的制造设置重置 AI 模型至关重要，以确保在这些不同和可变的条件下准确检测缺陷。

这些图表显示了六个具有代表性的预测结果，所有结果都进行了准确分类。研究人员的模型准确地识别了不同大小和形状的缺陷。蓝线代表研究人员的合成数据。绿色区域是真正的压接缺陷。红线是真正的良好压接资料来源：东国大学

建议的故障检测系统

考虑到传统 CFM 的限制并认识到将传统 AI 应用于故障检测的挑战，本文提出了一种新的范式：基于 AI 和 RSDS 的故障检测系统。此范式通过使用基于异常检测的算法解决了由有限的训练数据和不可预测的缺陷带来的挑战。

在流程中，初始参考数据由操作员手动收集。然后，对数据进行 RSDS，通过对数据的特定区域进行升容或降容，生成合成异常数据。然后使用拉普拉斯分布来增强数据，以增加数据集的数量并提高模型的训练鲁棒性。之后，使用增强数据集来训练系统的 AI 模型，该模型利用 MLP。

MLP 由三层组成：输入层接收初始数据，隐藏层通过各种计算处理和转换这些数据，输出层根据处理后的信息提供最终结果或预测。一旦模型经过训练，它就会开始检测剩余即将到来的压接数据中的故障。

人工智能模型

在实际制造场景中，故障检测系统通常会在没有事先了解缺陷的情况下对缺陷进行分类。例如，CFM 系统只需使用正常制造操作中的 30 个数据点即可准确检测故障，而无需任何缺陷数据。但是，仅使用 30 个数据点训练任何 AI 模型都具有挑战性。造成这种情况的原因是过度拟合，即模型变得过度定制于有限的训练数据，从而降低了其检测看不见的缺陷的能力。此外，初始集中没有异常数据可能会阻碍 AI 识别和区分异常模式与标准模式的能力。

QpLite2 是一种可扩展的 CFM 设备，用于确保每次压接的质量。它可以与单通道或双通道台式压接机集成照片由 Komax 提供

考虑到这些挑战，MLP 是一个合适且技术合理的选择，原因有几个。首先，由于其多方面的方法，MLP 通过其结构化的神经元层对线性和非线性关系进行建模，表现出对不同数据模式的高度适应性。这些层中的每个神经元都处理输入数据。

一个 MLP 至少需要两个类进行训练，因此需要创建合成异常数据来有效地训练模型。生成和集成合成异常数据可能会给训练过程带来额外的复杂性和潜在偏差，需要一种谨慎和战略性的方法来确保真实和有意义的学习。

一种可行的方法可能涉及放大和缩小原始数据以创建合成故障数据。对原始数据随机实施放大和缩小似乎是检测意外缺陷的可行解决方案。但是，这种技术需要集成许多故障数据类，从而使模型复杂化。这增加了模型的结构复杂性，同时延长了训练时间。

相比之下，统一应用缩放可以一致地调整整个数据集，通过系统地偏离原始“正常”制造数据，可能模拟各种缺陷场景。但是，整个数据集的统一缩放可能会阻碍分类性能，因为它会抵消 MLP 的内在学习机制。

鉴于 MLP 主要通过在反向传播过程中调整权重来学习，统一缩放（本质上减少了数据的差异）可能会对模型有效区分和调整权重的能力产生不利影响，从而可能损害其预测准确性和分类能力。

因此，这种均匀的增量可能会扭曲每个输入特征之间的相对差异，从而对 MLP 的分类性能和预测准确性产生不利影响。

区域选择性数据扩展解决了这些问题。生成的合成异常数据有助于泛化参考数据点较少的 AI 模型。这种方法不是均匀缩放整个区域，而是将区域划分为较小的部分，然后有选择地应用缩放。通过这种方式，这种方法解决了与均匀缩放相关的挑战，同时还允许对各种缺陷场景进行更系统的仿真。RSDS 在创建综合异常数据方面起着至关重要的作用，允许模型学习和适应不同的缺陷类型，即使最初无法获得实际的缺陷数据。

鉴于合成异常数据生成策略，解决固有的数据不平衡问题，尤其是异常数据方面的不平衡问题，至关重要。仅复制合成异常数据可能会扩大数据集大小，但不会为 MLP 学习过程引入必要的可变性。这可能会在训练期间中断模型的学习。

因此，必须对训练数据集施加复杂性，确保数据的数量、质量和多样性，以促进更复杂的学习机制。为了满足这一要求，通过引入来自拉普拉斯分布的噪声来实现数据增强技术。这会产生范围更广、多样化且具有挑战性的样品。

许多全自动切割、剥线和压接机都配备了 CFM 技术照片由 Schleuniger 提供

结果和分析

为了验证提出的故障检测系统，对 15 个制造数据集进行了测试。数据集是从实际的线束制造工厂获得的，收集时间为 2023 年 4 月 19 日至 5 月 8 日。该数据集由 24,249 个条目组成，即 24,152 个良好压接和 97 个不良压接。

需要强调的是，虽然我们的 AI 模型的结果没有直接与 CFM 的结果进行比较，但事实证明，CFM 注释的数据对于测试我们的 AI 模型非常有价值。CFM 系统表现出值得称道的准确性水平。但是，它不能免除错误。从 CFM 获得的标签可以被认为是可靠的，置信度为 99%，允许最少 1% 的不一致可能性。

实验在特定场景中进行，以模拟真实世界的制造。首先，系统从初始数据集开始，并评估至少 10 个参考数据点的可用性。假设参考数据的收集和评估由操作员手动执行。然而，在实验设置中，来自正常标签的前 10 个数据点用于简化实验过程。

从参考数据生成合成异常数据后，建立 AI 模型。如果系统处理了所有剩余数据，它将重置 AI 模型并继续处理下一个数据集，直到处理最后一个数据集。这种方法可确保每个数据集都与一个专用的 AI 模型配对，该模型经过仔细校准以匹配其独特特性。

从 10 个参考数据点生成了大约 60 个数据集。这些数据集随后使用数据增强技术扩展到 700 个数据集。从创建六种缺陷类型开始，相应地建立了七类标签，包括普通类别。训练数据总共由 770 个完全标记的数据集组成，每个数据集分为七类之一。

值得注意的是，在 770 个数据集中，只有 10 个是原始参考数据。为了保持归一化的一致性，采用了 MinMax 洁牙机。

缩放后，数据用于训练具有 200 个输入神经元和两个分别由 64 个和 32 个神经元组成的隐藏层的 MLP 模型。该模型利用了 ReLU 激活函数和 “adam” 优化算法。采用了 “自适应” 学习率，最大迭代设置为 500。在评估中，把准确性和真阴性率（TNR）作为主要指标。准确性提供了对模型性能的全面评估，而 TNR 专门评估系统识别有缺陷物品的熟练程度，这是制造质量控制领域的一个关键方面。

为了评估此方法检测缺陷的有效性，针对四种著名的异常检测算法对其进行了测试：Isolation Forest、autoencoder、k-means 和基于直方图的异常值分数（HBOS）。

与正常实例相比，Isolation Forest 算法利用树结构通过关注更短的路径来有效识别异常。为了优化 Isolation Forest 算法的性能，进行了网格搜索以确定最合适的超参数。

k-means 聚类算法是数据分析中常用的一种无监督方法，用于将数据集划分为不同的聚类。在这种方法中，如果数据点到集群中心的距离超过在第 95 个百分位数处设置的预定阈值，则数据点将被标记为异常。

端子必须以适当的力连接到电线上照片由 Partex Marking Systems 提供

此外，还实现了一个自动编码器，这是一种以执行降维能力而闻名的神经网络架构。通过评估明显高于训练误差第 95 个百分位数设定的阈值的重建误差来检测异常。

最后，该研究利用了 HBOS，这是一种方便的无监督技术，可根据多维空间中的数据分布计算异常值分数。我们的选择包括一系列方法，这些方法因其广泛使用、有效性和包含各种异常检测技术而被选中。为了维护受控环境，使用带有正常标签的前 10 个数据点作为所有算法的参考数据。

提出的系统以其 99.95% 的出色平均准确率而著称。其 TNR 为 85.72%，表明其在检测异常方面的高度敏感性。

HBOS 表现出令人印象深刻的 99.56% 的准确率。但是，所有数据集的 TNR 为 0% 表明可能存在过拟合，并且在检测异常方面缺乏有效性。

k-means 算法具有 95.39% 的准确率和 93.44% 的 TNR，在制造环境中存在问题。4.5 个百分点的差异可能看起来不多，但这意味着存在大量错误分类。此外，虽然 k-means 的 TNR 似乎优于系统的 85.72% 的 TNR，但真阴性和假阴性的小样本量表明，明显的优势可能并不显著。

Isolation Forest 和 autoencoder 算法的结果表明存在反拟合的情况。具体来说，Isolation Forest 的平均准确率为 40.42%，TNR 为 96%，而自动编码器的平均准确率为 68.92%，TNR 为 100%。

研究提出了一种具体而系统的方法，通过将 RSDS 与 AI 集成来改善线束压接制造的质量控制。这种方法利用 RSDS 的独特功能来生成合成异常数据，有效地解决了只有有限的标记数据集可用于稳健 AI 训练的挑战。在真实的工业数据集上进行的实验证明了 CFM 的有前途的替代方案及其相对于传统异常检测算法的优势。这表明 AI 的集成可以帮助改善制造质量控制。