从机器学习算法到“丑小鸭”痣的识别与临床应用|丑小鸭|治疗|皮肤病|皮肤癌

在皮肤科诊断的世界里，有一个古老而独特的概念——＂丑小鸭＂痣。这种与周围痣明显不同的皮肤病变，往往是黑色素瘤的警示信号。黑色素瘤虽仅占皮肤癌的4%，却导致了约75%的皮肤癌死亡病例。当这种致命的癌症悄然出现在皮肤表面时，即使经验丰富的皮肤科医生，其诊断准确率也难以超过80%。而现在，一场静默的革命正在医学影像领域展开——人工智能算法正以惊人的速度和准确率，挑战并超越人类专家的诊断能力。从简单的图像分类到复杂的病变特征提取，深度学习网络展现出了前所未有的潜力。让我们揭开这场技术革命的面纱，探索机器如何成为皮肤癌诊断的新力量。

皮肤癌的隐形杀手

黑色素瘤是一种源自皮肤黑色素细胞的恶性肿瘤，可能出现在身体的任何部位。虽然它在所有皮肤癌中的占比不高，但致死率却极高，约占皮肤癌相关死亡的75%。这主要是因为黑色素瘤具有迅速扩散的特性，如果没有及时发现和治疗，癌细胞可能通过血液或淋巴系统迅速扩散到身体其他部位。

皮肤上的痣，医学上称为黑色素细胞痣，表现为皮肤表面的小棕色、褐色或粉色斑点。这些痣在形态特征上有很大差异，包括形状、大小和颜色各不相同。多个研究表明，身体上痣的数量是预测黑色素瘤风险的最强表型指标之一。痣的数量越多，患黑色素瘤的风险就越高。

传统上，医生们通过ABCD法则来识别潜在的黑色素瘤：不对称（Asymmetry）、边缘不规则（Border）、颜色不均匀（Color）、直径大于6毫米（Diameter），以及演变（Evolution）——即观察痣是否随时间变化。然而，这种方法存在局限性。即使是受过专业训练并使用皮肤镜的皮肤科医生，在检测黑色素瘤方面的敏感性很少超过80%，而全科医生的敏感性则更低。

这种诊断困境催生了对＂丑小鸭＂概念的关注。＂丑小鸭＂痣是指在监测黑色素瘤时，一个具有独特特征的痣，它与周围其他痣明显不同。由于同一个人体内的痣通常具有相似性并遵循可预测的模式，一个＂丑小鸭＂痣显得异常，可能表明存在癌变的黑色素瘤。

早期发现黑色素瘤至关重要，若能及时识别并适当治疗，治愈率可高达95%。这一数据凸显了提高诊断准确率的重要性，也为机器学习和人工智能技术在皮肤癌诊断领域的应用提供了强大动力。

计算机辅助诊断（CAD）系统在医学领域，尤其是影像学诊断方面已经取得了显著成果。这些系统结合了机器学习技术与患者分析方法，利用图像数据或结合临床数据进行分析，旨在提高准确性并简化决策过程，同时应对专业医师短缺的问题。

在皮肤科领域，自动化系统尤为重要，特别是在皮肤科专家资源有限的地区。通过使用CAD系统，医疗服务提供者可以获得挽救生命的益处，同时降低医疗成本。随着机器学习和深度学习技术在皮肤癌分类中的广泛应用，它们已经显示出有效应对挑战并产生令人满意结果的能力。

人工智能在医疗领域的应用正在迅速扩展。它代表了一个全面概念，包括使用计算机系统模拟智能行为，同时最小化人类干预。AI已在医疗行业的各个应用中广泛使用，包括皮肤科学领域。虽然AI在皮肤癌检测方面已经做出了重要贡献，但其在皮肤科实践中的整合仍落后于放射学。不过，随着技术的不断进步和AI技术采用率的提高，其可及性正在扩大，甚至已经触及普通民众。

深度学习，作为机器学习的一个子集，受到人脑信息处理机制的启发。与依赖预定规则的传统机器学习技术不同，深度学习利用大量数据建立输入与相关标签之间的关联。这种方法能够自动学习多种面向任务的特征集，从而显著提高了处理大数据的效率和准确性。

深度学习改变诊断

深度学习技术，尤其是卷积神经网络（CNN），已经在皮肤病变分类和黑色素瘤检测中展现出巨大潜力。CNN是一种精心设计用于图像分析的深度神经网络，通常通过监督学习进行训练，涉及带标签的数据如皮肤镜图像及其相应的诊断结果。这种训练使CNN能够建立输入数据与标签之间的关联，使它们能够应用所学操作到未见过的图像上，并根据提取的特征对它们进行分类。

在实际应用中，深度学习模型已经取得了令人瞩目的成就。例如，Pham等人的研究提出了一种结合数据增强的分类模型，以提高使用深度CNN进行皮肤病变分类的性能。该研究在包含6，162张训练图像和600张测试图像的皮肤病变数据集上评估了所提出的分类系统，取得了比传统方法更高的AUC、AP和ACC得分。这项研究的发现表明，应用数据增强可以生成更多样本，并提高皮肤癌分类和其他医学图像分类任务中诊断的准确性和可靠性。

另一项创新方法由Jojoa Acosta等人提出，他们开发了一种两阶段分类方法。第一阶段使用Mask R-CNN在皮肤病变周围创建边界框，同时最小化视觉噪声。这一阶段的输出是一个包含皮肤病变的裁剪边界框。在第二阶段，研究人员使用ResNet152对裁剪后的病变进行分类。这种方法在黑色素瘤检测中取得了高精度，优于其他最先进的方法。通过同时利用对象检测和分类模型，研究人员能够减少视觉噪声的影响，提高结果的准确性。

Alwakid等人的研究则专注于如何准确提取皮肤病变图像中的病变区域。他们提出的方法包括使用增强型超分辨率生成对抗网络（ESRGAN）进行图像增强，分割从完整图像中提取感兴趣区域（ROI），数据增强纠正数据不平衡，以及使用卷积神经网络（CNN）和修改版的Resnet-50进行分类。研究表明，所提出的基于CNN的模型显著优于早期研究的结果，准确率达到0.86，精确度为0.84，召回率为0.86，F值为0.86。

Li和Shen则致力于通过实施三个任务来早期检测黑色素瘤：病变分割、病变皮肤镜特征提取和病变分类。研究人员提出了两个主要网络，病变索引网络（LIN）和病变特征网络（LFN），以实现这些任务。LIN由两个非常深的全卷积残差网络（FCRN-88）和一个病变索引单元（LICU）组成。FCRN使用各种训练集进行训练，以产生分割和粗略分类。LICU通过使用测量每个像素重要性的距离图来增强FCRN的粗略皮肤病变可能性图，以细化粗略病变分类。LFN设计用于处理皮肤镜特征提取任务，是一个使用从皮肤镜图像中提取的补丁进行训练的卷积神经网络。这种综合方法在早期检测黑色素瘤方面取得了显著成果。

Yu等人的研究采用了非常深的网络（超过50层）来提取更有用的特征并实现更好的识别准确率。研究人员构建了一个全卷积残差网络（FCRN）来准确分割皮肤病变，并结合了多尺度上下文信息集成方案以增强其能力。为了建立用于分割和分类的两阶段网络结构，他们将用于分割的FCRN与用于分类的非常深的残差网络相结合。这种深度网络在早期检测黑色素瘤方面表现出色，证明了在两阶段网络结构中结合分割和分类是一种成功的方法。

除了上述方法外，Kumar等人利用深度学习和支持向量机（SVM）相结合的方法对良性和恶性皮肤病变进行分类。他们利用国际皮肤图像协作（ISIC）档案中的2637张训练图像和660张测试图像，以及PH2数据集。研究包括三个主要阶段：病变分割、特征提取和分类。在病变分割中，他们采用了专为生物医学图像分割设计的U-Net架构。此外，他们使用五种预训练的卷积神经网络模型（AlexNet、VGG16、ResNet-50、InceptionV3和DenseNet201）从分割后的病变中提取相关特征。在这些模型中，DenseNet201与SVM结合时表现最佳，准确率达到89%。

在ABCD评分系统的应用方面，Kasmi和Mokrani实施了一个自动ABCD评分系统，区分恶性和良性皮肤病变。预处理阶段包括应用中值滤波器移除气泡和细毛等伪影，通过Gabor滤波器自动检测毛发，然后使用测地线活动轮廓（GAC）方法分割病变。研究人员开发了算法来提取与ABCD属性相关的特征，并计算总皮肤镜得分（TDS）来分类病变。实验评估使用了200张皮肤镜图像，包括80个恶性黑色素瘤和120个良性病变，取得了91.25%的敏感性和95.83%的特异性，总体准确率达到94.0%。

这些研究不仅展示了深度学习在皮肤癌诊断中的巨大潜力，也为临床医生提供了新的工具，有望显著提高黑色素瘤早期检测率，从而改善患者预后。随着技术的不断进步和数据集的扩大，未来的AI系统有望进一步提高诊断准确率，甚至可能在某些方面超越人类专家的判断能力。

人机智慧对决

当人工智能与皮肤科医生在同一赛道上竞争时，结果令人瞠目。Esteva等人2017年的开创性研究展示了一个单一CNN在皮肤病变分类中的惊人表现。他们训练的CNN仅使用像素数据和疾病标签作为输入，通过端到端方式在包含129，450张临床图像的大型数据集上进行训练，规模比之前的数据集大两个数量级。

为评估这一模型的性能，研究团队进行了全面测试，邀请21位专业皮肤科医生参与两项关键的二元分类任务：区分角质形成细胞癌与良性脂溢性角化病，以及识别恶性黑色素瘤与良性痣。前者涉及最常见的皮肤癌，后者涉及最致命的皮肤癌类型。令人惊讶的是，CNN在这两项任务中都表现出与所有受测专家相当的水平，证明了人工智能系统在皮肤癌分类方面达到了与皮肤科医生相当的能力。

这一突破性成就对皮肤科学的未来意义深远。将深度神经网络部署在移动设备上，有可能将皮肤科医生的专业知识扩展到传统临床环境之外，让更多人获得专业级别的皮肤癌筛查服务。

P. Tschand等人的研究进一步验证了这一潜力。他们利用InceptionV3和ResNet50两种CNN架构评估皮肤病变图像。数据集包括7，895张皮肤镜图像和5，829张近距离病变图像，这些图像来自一家皮肤癌诊所，收集时间从2008年1月1日至2017年7月13日。研究团队随后在2，072个独立案例样本上评估了组合CNN模型的表现，并与95位医务人员（包括62位拥有不同皮肤镜使用经验的认证皮肤科医生）的评估结果进行比较。

接受者操作特征曲线下面积的评估结果显示，组合CNN模型总体诊断能力优于人类评估者，当特异性固定在人类评估者的平均水平（51.3%）时，其敏感性更高（80.5%；95%置信区间：79.0%-82.1%）。不过，在特定诊断准确性方面，组合CNN与专家评估者之间没有显著差异（37.3%；置信区间：35.7%-38.8% vs. 40%；置信区间：37%-43%）。这些发现提供了实证证据，表明CNN在二元分类和多类任务中区分良性和恶性病变的性能可以达到与人类相当的水平。

另一项重要研究利用谷歌的Inception v4架构在深度学习CNN中训练、验证和测试黑色素瘤病变的皮肤镜图像进行诊断分类。研究人员评估了CNN与拥有不同专业水平的皮肤科医生组成的大型队列的性能比较。研究使用100张图像的测试集进行比较性横断面读者研究，皮肤科医生在两个级别上评估图像：一级仅涉及皮肤镜检查，二级包括补充临床信息和图像。

在一级评估中，皮肤科医生团队在病变分类中达到了平均86.6%的敏感性和71.3%的特异性。随后，在二级评估中加入临床数据，敏感性提高到88.9%，特异性提高到75.7%。而CNN生成的ROC曲线显示出比皮肤科医生在一级（71.3%）和二级（75.7%）评估中更高的特异性（82.5%），且敏感性相当。此外，CNN的AUC高于皮肤科医生的平均AUC（0.86对0.79）。研究结果表明，无论专业水平如何，皮肤科医生都可以利用CNN的帮助进行图像分类任务。

Pham等人的研究则专注于解决黑色素瘤预测中的数据集不平衡问题。他们提出了一种适当的CNN架构，包括自定义损失函数、小批量逻辑和改革的全连接层。该方法在包含17，302张黑色素瘤和痣图像的训练数据集上进行测试，这是迄今为止用于黑色素瘤预测的最大数据集。研究将模型性能与来自德国12家大学医院的157位皮肤科医生的表现进行比较，这些医生使用相同的数据集进行评估。

结果显示，所提出的方法优于所有157位皮肤科医生，并且比目前最先进的方法表现更佳，曲线下面积达到94.4%，敏感性为85.0%，特异性为95.0%。此外，使用最佳阈值提供了与其他研究相比最平衡的测量结果，敏感性为90.0%，特异性为93.8%。这些结果表明，所提出的方法在医学诊断方面具有重大潜力。

这些研究不仅证明了人工智能在皮肤癌诊断中的强大能力，还显示了人机协作模式可能带来的巨大价值。通过将人工智能系统作为辅助工具，皮肤科医生可以提高诊断的准确性和效率，特别是在专业人员稀缺的地区。这种协作模式有望在未来改变皮肤癌诊断的临床实践，使更多患者能够获得及时、准确的诊断和治疗。

寻找皮肤上的异类

在黑色素瘤诊断领域，有一个特殊而重要的概念——＂丑小鸭＂痣。这一术语源自于安徒生的童话，用来比喻那些与一个人身体上其他痣明显不同的病变。正如故事中的丑小鸭与其兄弟姐妹不同，这类痣在形态、颜色或大小上与周围的痣存在明显差异，可能预示着黑色素瘤的风险。

传统上，医生通过ABCDE法则（不对称、边缘不规则、颜色不均、直径大、演变）来评估皮肤病变。但＂丑小鸭＂概念提供了另一种视角，关注的是一个人身体上痣的整体模式，而非单个痣的特征。如果一个痣明显不同于周围的痣，即使它本身不符合典型的黑色素瘤特征，也应引起警惕。

在机器学习领域，虽然黑色素瘤检测取得了显著进展，但针对＂丑小鸭＂痣识别的研究相对有限。这部分是因为目前没有专门用＂丑小鸭＂标签标注的公共数据集。大多数广泛使用的皮肤病变数据集，如ISIC、HAM10000和PH2，包含的是黑色素瘤和良性标签，而非＂丑小鸭＂标签。除了ISIC 2020数据集外，大多数数据集侧重于收集单个病变图像，而检测＂丑小鸭＂痣需要每个人的多个图像，以纳入个人内部的上下文信息。

Birkenfeld等人的研究是最早关注全身图像用于＂丑小鸭＂识别的工作之一。他们使用逻辑回归构建了一个计算机辅助分类系统。对于133名患者，研究人员从不同身体部位的全视野图像中裁剪出直径大于3毫米的单个病变。这些病变图像由一位认证的皮肤科医生根据ABCD标准中的399个特征手动标记为可疑或非可疑。然后，研究人员训练了一个优化的L2惩罚逻辑回归模型，作为裁剪病变的分类器，结果AUC达到0.89，对可疑病变的敏感性为84%，对非可疑病变的特异性为72.1%。

Mohseni等人则提出了一种离群点检测方法，用于识别应该引起医生更多关注的＂丑小鸭＂。他们首先使用Single Shot Detector （SSD）网络检测全视野图像中的所有病变，然后通过U-Net变体进行分割提取。这些图像中的＂丑小鸭＂病变由一位认证的皮肤科医生标记。对于每个全视野图像中收集的病变，通过训练变分自编码器执行离群点检测。他们还通过为每个病变生成嵌入并计算它们之间的L2距离，创建了一个病变排名系统。通过计算每个全视野图像中病变的阈值，决定一个病变是否为＂丑小鸭＂。该系统的敏感性约为72%，特异性约为94%，总体准确率约为94%。

Useini等人提出了类似的方法，采用自监督离群点检测来识别＂丑小鸭＂病变。他们首先使用YOLOR模型检测和提取患者背部区域全视野图像中的病变。然后使用DINO模型进行自监督学习，识别病变之间的距离阈值，作为＂丑小鸭＂分数。这些研究表明，对全视野图像进行患者级分析对于准确识别＂丑小鸭＂更为有利。

最近，Garcia等人评估了使用无监督自编码器通过离群点检测来检测可疑皮肤病变的方法。他们从全视野图像中手动提取约1800张病变图像，标记为良性或恶性。用90%的良性病变训练自编码器离群点检测器，并在包含180个良性病变和20个手选黑色素瘤的测试集上评估。在这20个黑色素瘤中，5个没有明显区别特征，更具挑战性；15个是可明显识别的黑色素瘤，用于定义自编码器中可接受的重建误差，从而定义离群点检测阈值。评估结果显示，训练好的自编码器能够正确识别5个具有挑战性的黑色素瘤案例中的2个，而剩下的3个因没有明显的特征而未能识别。

在分析单个病变图像以识别＂丑小鸭＂方面，Yu等人的工作独树一帜。他们使用来自SIIM-ISIC2020黑色素瘤分类挑战的数据集，包含来自约2000名患者的约30，000张单个病变图像，标记为黑色素瘤或良性。该研究认识到仅在病变层面分析图像对于＂丑小鸭＂识别没有用处，采取了重要步骤纳入更多上下文信息。首先，使用深度神经网络为每位患者的所有病变提取多尺度特征。然后，这些特征用于通过建模病变之间的依赖关系来学习患者特定的上下文嵌入。这些上下文嵌入随后用于同时执行患者级别和病变级别的预测。为了优化预测并解决数据不平衡问题，他们还提出了基于外观相似性对个体病变进行排名的组对比学习策略。优化后的模型AUC达到约90%，敏感性和特异性均约为82%。

来自美国的一个研究团队实施了＂丑小鸭痣＂概念，区分可疑和非可疑色素性病变。他们的方法涉及在包含来自西班牙马德里格雷戈里奥马拉宁医院133名患者的135张全视野临床图像中的38，283个病变的数据集上使用深度卷积神经网络。该算法首先应用于全视野尺度的参与者图像，然后进行斑点检测并随后裁剪检测到的斑点。裁剪后的病变输入分类模型。深度卷积网络用于基于皮肤科医生提供的标签识别可疑病变。此外，网络通过提取深度特征并采用热图技术进行可视化，帮助检测＂丑小鸭＂痣。模型在区分可疑病变与非可疑病变，以及与正常皮肤和复杂背景的区分方面，敏感性超过90.3%，特异性达到89.9%。

研究人员将识别＂丑小鸭＂痣的标准定义为每个病变相对于全视野图像中其他可观察病变的可疑性患者相关概率。这一定义使他们能够使用病变来自深度卷积神经网络的输出特征向量与所有可观察病变的平均几何特征中心之间的余弦距离计算＂丑小鸭＂分数。这些分数用于创建病变排名系统，与三位认证皮肤科医生执行的排名进行比较，以评估一致性。这项研究的结果明确表明，经过良好优化的深度学习方法可以有效用于准确评估色素性病变的可疑性。

Al Zegair等人的研究旨在调查可疑和非可疑痣共享的常见视觉特征，目标是加强对使其分类到各自组别的关键可见属性的识别和理解。研究包括两个主要阶段：痣特征提取和随后将痣分类为可疑和非可疑类别。采用各种机器学习方法，包括主成分分析（PCA）和卷积自编码器（CAE）进行特征提取，随后实施随机森林（RF）和人工神经网络（ANN）算法进行痣分类。

用于评估这些模型的数据集由来自59名研究参与者的33，368张皮肤镜皮肤病变图像组成。这些图像在多个时间点拍摄，并按访问编号标记。每张图像由认证的黑色素瘤专家手动标记，共计26，606张非可疑痣图像和1，616张可疑痣图像。数据集按患者分区，14名患者用于测试，45名患者用于训练。通过利用CAE提取的特征，ANN取得令人印象深刻的平均准确率、特异性、敏感性、精确度和曲线下面积（AUC）值，分别为95.62%、91.24%、100%、91.95%和95.6%。此外，RF分析表明，基于PCA和CAE的方法的总体准确率均为88.46%。RF算法还用于对特征进行排名，有助于选择对痣分类有用的最重要特征。

这些研究显示，虽然＂丑小鸭＂痣识别面临数据集标注和上下文信息整合的挑战，但机器学习方法已经展现出解决这些挑战的潜力。通过结合全视野图像分析、自监督学习和患者特定的上下文信息，这些方法有望在未来为临床医生提供有价值的辅助工具，帮助他们更准确地识别需要进一步评估的可疑病变。

参考资料

Al Zegair， F.， et al. （2023）. Application of Machine Learning in Melanoma Detection and the Identification of ＇Ugly Duckling＇ and Suspicious Naevi: A Review.
Esteva， A.， et al. （2017）. Dermatologist-level classification of skin cancer with deep neural networks.
Haenssle， H. A.， et al. （2018）. Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists.
Mohseni， S.， et al. （2019）. A deep learning approach to Dermoscopic Feature Extraction for Full Resolution Skin Lesion Classification.
Birkenfeld， J.， et al. （2011）. Computer-aided detection of melanoma with emphasis on interaction between clinical and dermoscopic features.