Towards Universal Unsupervised Anomaly Detection in Medical Imaging

医学成像中的通用无监督异常检测

https://arxiv.org/pdf/2401.10637

摘要

随着医学影像数据的复杂性不断增加,迫切需要先进的异常检测方法来自动识别各种病理。当前的方法在捕捉异常的广泛范围方面面临挑战,通常仅限于特定类型的脑部扫描病变。为了应对这一挑战,我们引入了一种新颖的无监督方法,称为反向自编码器(Reversed Auto-Encoders, RA),旨在创建逼真的伪健康重建图像,从而能够检测更广泛的病理。我们在多种成像模式上评估了所提出的方法,包括脑部磁共振成像(MRI)、儿科手腕X光和胸部X光,并展示了其在检测异常方面优于现有最先进方法的性能。我们的无监督异常检测方法可能通过识别更广泛的未知病理来提高医学影像的诊断准确性。我们的代码公开发布在:https://github.com/ci-ber/RA。

关键词:生成式AI,无监督异常检测,医学影像

  1. 引言

影像学在医学诊断、治疗决策和疾病监测中起着至关重要的作用。成像技术的快速发展导致了影像数据量和复杂性的指数级增长,这需要更复杂的方法来进行分析(https://data.oecd.org/healthcare/magnetic-resonance-imaging-mri-exams.htm)。异常检测作为一种识别异常模式或结构的关键技术,突显了潜在的病理,从而在诊断流程中协助病理检测这一关键步骤。

历史上,医学影像中的异常检测主要依赖于监督方法,这些方法旨在识别特定的、定义明确的病理,如肿瘤(Menze et al., 2014)、中风(Liew et al., 2022)或白质高信号(Kuijf et al., 2019)。尽管在这些特定场景中有效,但这些方法本质上受到预期异常分布的偏见,并且在超出其设计检测的特定病理范围时受到限制。这一限制具有重要意义,因为它缩小了可检测病理的范围,并忽略了医学影像中广泛的潜在异常。

无监督异常检测(UAD)提供了一种有前景的替代方案,旨在在不依赖预定义标签的情况下检测异常。然而,UAD中的一个重大挑战是其倾向于使用单一或有限数量的条件进行评估,或采用自监督或弱监督方法(Wolleb et al., 2022; Kascenas et al., 2022)来估计异常检测中的“未知”。这可能会潜在地损害无监督学习的基本原则,即以广泛、无偏的方式检测异常。

鉴于疾病(异常)检测是诊断过程中的核心第一步,并且在放射学中代表了显著的错误来源(Kim and Mansfield, 2014),开发无偏异常检测方法的重要性显而易见。我们的无偏异常检测方法提出了一种新颖的生成式AI方法,仅在正常解剖样本上进行训练。这种方法旨在恢复病理输入的伪健康版本,从而促进对异常的细致和普遍检测。我们已经在多种模式上严格评估了我们的方法,如图1所示,包括脑部MRI、儿科手腕X光和胸部X光图像。结果一致表明,所提出的方法在检测不同解剖结构和成像技术中的广泛异常方面具有有效性。我们的方法在医学影像无监督异常检测领域迈出了重要一步,为医疗专业人员提供了一个更准确、无偏和全面的工具。总之,我们的贡献包括:

- **反向自编码器(RA)的引入**:我们提出了一种新颖的生成式AI方法,称为“反向自编码器”(RA),旨在重建病理输入的伪健康版本。

- **对最先进方法的广泛评估**:我们的研究全面评估了各种最先进(SOTA)异常检测方法在多种病理、解剖结构和模式上的表现。

- **高准确性和异常检测的鲁棒性**:RA方法在所有测试的病理、解剖结构和成像模式中一致优于现有的SOTA方法,突显了RA在广泛临床场景中的鲁棒性和有效性,显著推动了异常检测技术的发展。

2. 医学影像中的异常检测

医学影像中的异常检测从根本上关注于揭示未知——一个旨在识别与已建立的规范模式偏离的统计过程。它基于离群点检测的原理,其中显著不同于数据集多数的数据点被标记为异常。异常检测算法必须设计为对特定病理无偏,能够在多样化的数据集上进行泛化,并擅长识别未见和多样的异常。这要求算法在广泛的正常变异数据集上进行训练,以有效识别离群点,而不依赖于特定条件的标签数据。

自监督方法(Li et al., 2021; Zhao et al., 2021a; Schlüter et al., 2022; Tan et al., 2022; Jiang et al., 2023)利用数据增强或前置任务生成代理监督信号。这些方法利用数据内在特征和有限注释来识别异常,这有望实现一种能够适应未见异常的检测机制。然而,它们可能在无意中在预期的异常分布中引入偏见,特别是在噪声或人工修改作为真实病理特征的代理时。例如,去噪自编码器(DAEs)(Kascenas et al., 2022)提出学习消除合成添加的粗高斯噪声。尽管这种方法在特定异常如脑肿瘤检测中可能显示出有希望的结果,但其适用性在更一般的异常检测场景中受到限制,因为它依赖于合成噪声的分布(Bercea et al., 2023c)。另一方面,弱监督方法(Tardy and Mateus, 2021; Wang et al., 2021; Yu et al., 2022; Hibi et al., 2023; Wargnier-Dauchelle et al., 2023)利用部分或噪声标签来指导异常检测过程。例如,Wolleb et al.(2022)提出了一种基于扩散的异常检测方法,该方法利用专门训练用于脑肿瘤分割的监督分类器的指导。尽管这种方法在检测脑肿瘤方面取得了有希望的结果,但它本质上依赖于监督分类器的性能及其在扩散过程中提供有效指导的能力。因此,其适用性在更一般的异常检测任务中可能受到限制。

无监督异常检测旨在从正常人群中学习规范分布,并随后将这一知识应用于异常检测。这种方法需要对医学图像中构成“正常”的基线有坚实的理解,以便识别偏差。知识蒸馏在这一背景下已成为一项关键技术,促进了从在广泛数据集上训练的复杂模型向在正常数据子集上训练的简单模型转移复杂模式和洞察力。这通过利用教师(较大模型)和学生(简单模型)预测之间的差异来实现异常检测(Salehi et al., 2021; Bergmann et al., 2020)。然而,将这一技术适应于医学影像数据集的复杂和高维特性带来了显著挑战(Bercea et al., 2023c)。

传统的自编码器(AEs)在建立基于重建的异常检测方法中发挥了基础作用(Zimmerer et al., 2018)。采用编码-解码架构,AEs旨在捕捉和重建输入数据,假设异常将表现为显著的重建误差。然而,AEs在学习和泛化病理方面往往难以学习详细的正常解剖特征(Bercea et al., 2023b)。变分自编码器(VAEs)(Kingma and Welling, 2013)通过解决传统AEs固有的一些限制,显著推动了异常检测的进步。这是通过正则化潜在空间并将其概念化为概率分布来实现的。这种正则化允许更受约束的学习过程,使VAEs更接近规范分布。这在医学影像中至关重要,因为精确的正常解剖特征对于有效的异常检测是必不可少的(Zimmerer et al., 2019)。然而,尽管有益,正则化经常导致生成更模糊的重建图像。当细节对于识别微妙异常至关重要时,这种模糊可能是一个缺点(Bercea et al., 2023b)。

似然模型专注于表征正常数据的似然性,并评估新样本与学习到的正常分布的符合程度。这一领域的一个重要进展是归一化流(Kobyzev et al., 2020)的引入。这些提供了将简单概率分布转化为更复杂分布的精细机制,增强了估计数据样本似然性的精度。然而,当应用于医学影像数据的高维和复杂特性时,归一化流面临挑战,特别是在保持重建准确性方面(Zhao et al., 2023)。潜在变换模型(LTMs)作为似然模型中的一个显著创新出现(Pinaya et al., 2022)。LTMs在模型的潜在空间内结合变换网络,有效识别和修改潜在异常实例。

掩码自编码器(MAEs)也利用了先进神经网络架构的优势,但它们从不同的角度处理异常检测问题。MAEs采用选择性掩码输入数据部分并让模型预测这些遮挡部分的策略。通过预测图像的掩码部分,MAEs本质上学习了正常解剖结构的全面表示(He et al., 2022; Schwartz et al., 2022; Lang et al., 2023)。

生成对抗网络(GANs)引入了对抗训练方法,使得生成高度逼真的图像成为可能,标志着图像合成和异常检测能力的新纪元(Goodfellow et al., 2014; Schlegl et al., 2019)。然而,它们可能遭受模式崩溃或生成不代表输入数据的图像。为了应对这些挑战,像软内省变分自编码器(SI-VAEs)这样的进展已经出现(Daniel and Tamar, 2021)。它们结合了VAEs和GANs,旨在克服GANs在异常检测中的特定限制。

偏离对受限潜在空间的依赖,去噪扩散概率模型(DDPMs)采用了一种迭代方法,直接在图像空间中添加和随后去除噪声(Ho et al., 2020)。然而,DDPMs的一个关键方面在于对噪声水平的仔细选择,这一决策极大地影响了它们的性能(Graham et al., 2022; Bercea et al., 2023a)。

总的来说,这些发展标志着医学影像中异常检测的显著进步。然而,它们的评估往往局限于狭窄的数据集,这可能无法完全代表医学实践中遇到的广泛异常。这一限制引发了对最先进方法在更广泛、更多样化临床场景中的普遍性和整体性能的疑问。为了填补这一空白,我们广泛评估了各种尖端方法(包括RA),使用了一个综合基准数据集。该基准涵盖了广泛的疾病、解剖结构和成像模式,从而提供了对其在普遍异常检测中能力的更严格和全面的评估。

3.背景

为了将VAEs的潜在属性与GANs的图像合成能力结合起来,SI-VAEs(Daniel和Tamar,2021)在VAE训练中引入了对抗性损失。关键的创新是利用VAE的编码器和解码器以对抗性的方式使用,而不需要外部的鉴别器。编码器旨在通过最小化真实样本的潜在分布与先验之间的KL散度来区分真实和生成的样本,同时对于生成的样本则最大化它。相反,解码器被训练为通过使用标准ELBO重建真实数据样本来“欺骗”编码器,并最小化由编码器压缩的生成样本的KL散度。编码器和解码器的优化目标如下:

4. RA:反向自编码器

为了推进医学影像领域异常检测的发展,我们引入了反向自编码器(RA)。RA的主要创新在于其复杂的训练机制,旨在学习并准确重建正常的解剖模式,这是有效区分病理的关键方面(见图2)。这是通过三种不同训练策略的独特组合实现的。首先,使用ELBO来规范一个平滑的潜在空间,使模型能够有效捕捉正常解剖特征的基本分布。其次,实现了RA的编码器和解码器组件之间的内省式对抗性互动。这种互动确保了生成高保真度的规范分布表示,因为编码器和解码器相互挑战以完善它们的输出。最后,为了增强输入与其重建之间的一致性——特别是在可能发生显著发散的恢复阶段——我们引入了“反向损失”。这种损失函数旨在最小化原始图像与其重建版本之间的差异,从而确保RA在重建正常解剖结构时保持高度的准确性,同时突出异常。

4.1. 反向嵌入相似性

我们方法的核心是在编码器中实现反向多尺度嵌入相似性损失。这种方法确保输入表示与其生成的重建嵌入在多个尺度上紧密对齐:

4.2. 异常评分计算

除了重建之外,准确检测异常还需要一种强大的异常评分计算方法。传统的基于残差的方法由于依赖于强度差异,常常面临局限。为了解决这一问题,我们在计算残差之前应用自适应直方图均衡化(eq)。此外,我们整合了感知差异,以增强异常检测的鲁棒性:

5. 脑部MRI的异常定位

神经系统疾病呈现出多样且复杂的影像模式,从肿瘤到退行性疾病。早期和准确的异常检测对于有效治疗至关重要。然而,神经影像的解读通常需要高度专业化的专业知识,而这些专业知识并不总是容易获得。此外,脑部影像数据的数量和复杂性为手动分析带来了重大挑战。再加上即使是经验丰富的放射科医生也可能有足够影响患者护理的错误率。无监督异常检测(UAD)通过自主识别脑部影像中的不规则性,提供了一种解决方案,可能减少诊断错误并改善患者预后。本实验旨在评估我们提出的反向自编码器(RA)和各种UAD方法在准确识别和定位广泛脑部疾病异常方面的有效性,从而强调它们在增强神经诊断实践中的潜力。

5.1. 数据集

**正常数据(训练)**:我们的训练集包括来自FastMRI+(Zhao et al., 2021b)的T1加权(T1w)MRI扫描,包含131个训练样本、15个验证样本和30个测试样本,以及IXI数据集(https://brain-development.org/ixi-dataset/),贡献了额外的581个训练样本。这些数据集因其多样性而被选中,涵盖了不同扫描仪和年龄组之间的广泛正常解剖变异,以建立一个稳健的规范分布。

**病理数据(测试)**:我们利用了FastMRI+数据集,因为它对病理进行了全面的注释,包括13种不同病理类别中的171个中轴T1w切片。这个丰富的数据集便于对性能进行细致的评估,适应病理表现的多样性和单次扫描中存在多种病理的情况,反映了常见的临床挑战。

5.2. 评估指标

检测性能通过准确检测的病理数量(#det)及其精确度(F1分数)进行评估。F1分数代表了精确度和召回率之间的平衡,详细方法在Bercea et al.(2023c)中有描述。

5.3. 结果

表1中总结的定量评估揭示了不同病理复杂性对应的性能差异。

去噪自编码器(DAEs)(Kascenas et al., 2022)在某些领域如水肿检测中显示出值得称赞的结果。然而,它们的自监督(Self-S)特性是一把双刃剑。由于这些模型被训练用于从图像中去除或减少噪声,自监督学习过程本质上使模型偏向于训练过程中接触到的异常类型。这种偏见可能导致某些不符合学习噪声模式的异常类型被遗漏,例如扩大的脑室或颅骨切开术。这使得模型在普遍异常检测中不太可靠。

多级知识蒸馏(MKD)(Salehi et al., 2021)显示出辨别异常的潜力,特别是扩大的脑室,但在更复杂的病变和颅骨切开术检测中面临挑战。视觉评估表明,其异常图的精确度有改进空间。

潜在变换模型(LTMs)(Pinaya et al., 2022)在检测某些异常如切除和扩大的脑室方面表现出色,但在其他如水肿方面显示出局限性。其性能突显了似然模型在医学影像中的潜力,特别是在结合更强大的解码器以获得更清晰重建的情况下。

基于重建的方法在性能上往往落后于其他类别。在这一组中,去噪扩散概率模型(DDPM)(Ho et al., 2020)脱颖而出,成为最熟练的,实现了最高的疾病识别数量,检测到171种疾病中的100种。

反向自编码器(RA)作为一种稳健的方法脱颖而出,在各种病理中持续提供详细且无异常的重建,如图3所示。RA展示了在多种病理中平衡检测准确性和精确度的卓越能力,这从其领先的F1分数39.73和总共171种疾病中检测到142种疾病中得到证明。

6. 儿科手腕X光片的异常定位

手腕损伤,特别是桡骨远端和尺骨骨折,在儿科患者中很常见,通常在青春期达到高峰。儿科外科医生和急诊医生通常解读手腕X光片,有时在没有经验丰富的儿科放射科医生的情况下进行。即使在发达国家,放射科医生的短缺也可能影响患者护理,可能导致诊断错误,错误率高达26%(Nagy et al., 2022)。及时准确地检测异常可以加快治疗决策并减少诊断错误,最终改善手腕受伤的年轻患者的预后。本实验旨在评估UAD方法在正确识别和定位儿科手腕X光片中各种异常的能力。

6.1. 数据集

本实验中使用的数据集称为GRAZPEDWRI-DX(Nagy et al., 2022),包含来自6,091名独特患者的10,643份儿科手腕放射学研究,平均年龄为10.9岁。它涵盖了各种异常,包括骨折、金属植入物、骨膜反应、骨病变、软组织肿胀、骨质减少、石膏固定和旋前肌四边形征。由委员会认证的儿科放射科医生进行的注释包括边界框。

6.2. 评估指标

与监督对象检测方法不同,无监督异常检测方法不提供边界框或明确的对象定位信息。因此,在无监督异常检测的背景下,无法计算传统的指标,如交并比(IoU)或重叠计算。相反,我们依赖于其他指标,如准确检测的病理数量(#det)和F1分数,这些指标评估检测质量,而不需要边界框(Bercea et al., 2023c)。

6.3. 结果

表2和图4中呈现的儿科手腕X光片异常检测方法的比较分析,提供了每种方法能力和局限性的详细概述。

去噪自编码器(DAE)虽然擅长突出显示可能指示炎症的密度增加区域,但经常遗漏主要骨折。X光片中出现这种高密度通常是对骨损伤的反应,其中生理变化如炎症导致局部血流增加和液体积聚。这些变化导致放射性高密度,DAEs倾向于检测到这些变化。

然而,它们对这些次要征象的强调而没有直接显示骨折,突显了一个关键限制——未能识别骨折本身的基本诊断特征。

相反,尽管像DDPM这样的方法在特定类别的异常中显示出有效性,但它们在所有领域的性能并不一致,通常显示出由F1分数指示的显著较低的精确度。这种不均匀的性能突显了开发在所有方面都一致熟练的无监督异常检测系统的根本困难。

RA表现出更均匀的竞争性性能,特别是在识别骨折和软组织异常方面,这从其高召回率和F1分数中得到证明。尽管如此,RA在检测儿科患者正常骨结构变异性中的非常微妙的异常方面面临挑战。这种困难在图4的“骨异常”部分中得到了体现,展示了无监督方法在检测小病变方面的挣扎。这种挣扎因传统的评估指标如Dice系数或边界框重叠而加剧,这些指标在病理在发育中的骨骼复杂解剖结构中呈现最小化时,可能无法有效捕捉异常图的细微差别。

研究结果强调了更先进的异常图计算的迫切性,并采用与无监督异常检测复杂性相适应的评估指标,以更好地支持临床决策过程。

7. 胸部X光片异常检测

胸部X光片是识别呼吸系统疾病如肺炎的重要诊断工具。然而,由于影像特征的重叠,区分正常发现与指示病理条件的发现可能具有挑战性。在COVID-19大流行期间,对高效和准确的诊断方法的需求变得更加迫切。传统的诊断方法严重依赖放射科医生的专业知识,他们在呼吸系统疾病高峰期面临增加的工作量和诊断错误的风险。

无监督异常检测(UAD)为这些挑战提供了一个有前景的解决方案。它提供了自主检测指示呼吸系统疾病的细微和复杂模式的能力,可能提高诊断的准确性和速度。我们的实验旨在评估RA和其他UAD方法在准确区分正常胸部X光片与显示指示肺炎和COVID-19异常的能力。目标是评估这些基于AI的方法在识别与每种疾病相关的特定异常方面的精确度,从而为呼吸系统护理中更高效和准确的临床决策做出贡献。

7.1. 数据集

RSNA数据集(Shih et al., 2019)由10,000张正常和6,000张肺不透明CXR图像组成,用于代表一系列病理条件。Padchest数据集(Bustos et al., 2020)用于COVID-19检测,包含1,300张正常对照图像和2,500例COVID-19病例。所有图像均标准化为128×128像素的分辨率。

7.2. 评估指标

本研究使用各种指标评估胸部X光片中的异常检测。对于健康病例,使用SSIM(结构相似性指数度量)和LPIPS(Zhang et al., 2018)(学习到的感知图像块相似性)。对于异常,根据AUROC(受试者操作特征曲线下面积)、AUPRC(精确率-召回率曲线下面积)以及在真阳性率为95%(FP@TP95)和99%(FP@TP99)时的假阳性进行评估。

7.3. 结果

图5展示了RA生成伪健康重建的能力,并生成相应的异常图,突出显示病理区域。与其他UAD方法相比,RA在识别肺炎和COVID-19方面取得了最高的AUROC分数,如表3所示。这些结果突显了RA在临床环境中准确检测和定位CXR图像中肺病理的潜力,强调了其适合纳入诊断工作流程。

8. 讨论

在本研究中,我们介绍了反向自编码器(RA),一种无监督异常检测框架,并在多种医学影像模式上进行了广泛评估。RA生成伪健康重建的能力有助于解决医学影像分析中的一个重大挑战:无偏病理检测。

RA的潜在临床价值在于其自主异常检测能力,特别是在放射学专业知识稀缺的环境中尤为有益。我们在多样化的数据集上测试了其多功能性和鲁棒性,包括脑部MRI、儿科手腕X光片和胸部X光片。RA在复杂多变的正常解剖结构中检测微妙异常的能力表明,其性能优于现有方法。

然而,我们的研究也揭示了在检测极其微妙异常方面的局限性。例如,对儿科手腕X光片的分析突显了改进异常图计算和开发更复杂评估指标的必要性,这些指标应针对临床诊断的复杂需求进行定制。

我们的研究结果强调了在不同病理和解剖背景下对异常检测方法进行全面评估的重要性。这种广泛的基准测试对于这些方法从研究到临床应用的过渡至关重要,揭示了当前的局限性并指导未来的研究方向。

总之,RA框架在医学影像中展示了有前景的潜力。其能够以显著的准确性检测广泛异常的泛化能力对该领域具有重要意义。这项工作推进了医学影像与人工智能的交叉,提供了可能改善诊断过程的临床相关见解。虽然它代表了向自动化、精确和普遍适用的诊断工具迈出的一步,但继续研究和开发对于完全实现这些目标并增强其对医疗从业者和患者护理的支持至关重要。

https://arxiv.org/pdf/2401.10637