MFP-CLIP | 工业异常检测新范式，自Prompt+多块特征聚合，Mask精准定位小缺陷，双基准性能领跑 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

导读

近期，零样本异常检测（ZSAD）已成为一种识别未见类别缺陷的关键范式，无需在训练阶段使用目标样本。然而，现有的ZSAD方法由于表示不足，在处理小型和复杂缺陷的边界上存在困难。其中大多数方法使用单一手动设计的 Prompt ，无法适用于多样化的目标和异常。在本文中，作者提出了MFP-CLIP，这是一种基于 Prompt 的CLIP框架，旨在探索多形式 Prompt 在零样本工业异常检测中的有效性。作者采用图像到文本 Prompt （I2TP）机制以更好地表示图像中的目标。MFP-CLIP通过自 Prompt

和多块特征聚合（MPFA）模块增强了多尺度复杂异常的感知能力。为了精确定位缺陷，作者引入了 Mask Prompt （MP）模块，引导模型关注潜在的异常区域。在两个广泛使用的工业异常检测基准MVTecAD和VisA上进行了大量实验，证明了MFP-CLIP在ZSAD中的优越性。

引言

异常检测（AD）在众多领域具有巨大潜力，包括工业产品质量控制、医疗诊断等。工业异常检测（IAD）专注于识别工业图像中的异常模式。由于异常样本稀缺和数据标注成本高昂，出现了许多无监督异常检测方法[1, 6-8, 11, 21-24, 26, 28-32, 34, 35]。这些方法通过测量与正常数据分布的偏差来检测和定位缺陷。然而，工业图像在物体类别和异常类型方面的巨大变异性阻碍了无监督方法的进一步发展。

因此，零样本范式持续发展。其目标是检测在训练阶段未参与的新类别中的异常。最近，许多零样本异常检测（ZSAD）方法[3-5, 10, 37-39]依赖于预训练的视觉语言模型（VLMs）以利用其强大的泛化能力。由于CLIP[19]在下游任务中的出色迁移性、出色的图像-文本对齐和表示能力，许多基于CLIP的ZSAD方法[3, 5, 20, 38, 39]应运而生。这些方法计算CLIP中视觉和文本嵌入的相似性作为异常图，如图1(a)所示。文本嵌入仅通过文本模板提取。

picture.image

WinCLIP [10] 使用了未经额外微调或训练的预训练视觉语言模型（VLMs）和手动设计的 Prompt 。然而，预训练的CLIP是在偏离工业图像数据集的自然图像数据集上训练的，这导致WinCLIP在工业图像分析（IAD）中存在一定的局限性。为了克服这些局限性，一些方法[3, 38, 39]使用了辅助工业数据进行微调。特别是，AnomalyCLIP [39] 使用额外的数据将模型从自然图像域迁移到工业图像域。AdaCLIP [3] 引入了一个混合语义融合模块来捕获语义丰富的图像特征，从而提高了异常检测的性能。尽管做出了这些努力，但准确定位小型和逻辑缺陷仍然具有挑战性。他们手动设计文本 Prompt 来描述目标及其状态（正常/异常），难以泛化所有图像，导致性能不佳。此外，涉及视觉 Prompt 以细化 Patch 嵌入并强调特定区域的方法还相对较少。

为解决上述问题，作者提出了一种名为MFP-CLIP的新框架，该框架基于CLIP构建。如图1(b)所示，MFP-CLIP采用了一个图像文本 Prompt （I2TP）模块，用于提供除文本 Prompt 模板之外的具体物体描述。为了增强图像表示和潜在异常区域的感知，作者引入了自 Prompt （SP）和 Mask Prompt （MP）机制。SP使用CNN的图像特征作为自身的视觉 Prompt ，以获取特定图像的更详细的局部嵌入。然后，作者将 Prompt 与视觉Transformer（ViT）的 Patch 嵌入相结合，以获得深度表示，结合局部和全局上下文感知。MP机制作为一个边界细化器，利用分割 Mask 作为视觉 Prompt ，引导模型更精确地关注潜在异常区域。此外，为了增强检测小型和复杂缺陷的能力，作者引入了一个多 Patch 特征聚合（MPFA）模块，通过邻域 Patch 嵌入细化特征表示，以增强空间连续性和上下文一致性。SP和MPFA使模型适用于多尺度异常，特别是小型和复杂异常。

主要贡献总结如下：

• 作者提出了一种基于CLIP的新型框架MFP-CLIP，用于增强对未见目标的检测。通过I2TP将视觉和文本嵌入相结合，以获得更详细的物体描述。作者采用自 Prompt （SP）和 Mask Prompt （MP）来调整 Patch 嵌入，并专注于潜在的异常区域。
• 提出了一种多块特征聚合（MPFA）策略，以增强邻域块之间的特征感知。
• 在两个主要的工业数据集上进行了广泛的实验，分别是MVTehcAD [2] 和 VisA [41]。MFPCLIP在零样本异常检测方面展现了其优越性。

相关工作

2.1 异常检测

鉴于工业领域异常数据稀缺且成本高昂，收集大量缺陷图像进行训练较为困难。因此，目前主要有两种主要范式，它们大多遵循“一个模型对应一个类别”的方式。

无监督异常检测方法仅依赖于目标类别中的正常样本，在训练时对这些样本进行建模以模拟正常图像的分布，并通过获取具有正常分布的测试样本之间的偏差来定位异常。基于嵌入的方法[1, 6-8, 13, 21-27, 32, 35]通常使用预训练模型提取正常样本的特征，然后对正常特征分布进行建模。这些方法在目标类别上实现了显著的性能，但在测试未见过的目标时面临严重的性能下降。类似内存库的Patch-Core[6, 7, 22]方法需要额外的空间来存储正常特征，限制了推理速度。基于重建的方法[11, 14, 28-31, 33, 34, 36]假设仅使用正常样本训练的模型无法准确重建异常样本。但这些方法通常对缺陷区域具有较强的泛化能力，导致重建结果几乎等于输入图像。

半监督异常检测方法[9]利用正常样本和若干异常图像来实现比无监督异常检测方法更好的性能。尽管它们通过利用缺陷图像来提升性能，但它们在处理未见过的类别时仍然面临挑战，这与无监督AD类似。

2.2. Prompt 学习

作为自然语言处理领域的一项新兴技术， Prompt 学习近年来受到了广泛关注。其核心思想是设计合适的 Prompt 来引导预训练模型适应特定任务，无需大量特定任务的标注数据。随着研究的深入， Prompt 学习逐渐从单一文本任务扩展到多模态领域。例如，CoOp [37] 将可学习的 Prompt Token 引入文本分支，首次在CLIP中引入 Prompt 学习。随后，DenseCLIP [20] 和 CoCoOp [38] 使用视觉上下文 Prompt 来适应目标领域。在本工作中，作者提出了自 Prompt 机制，同时考虑全局和局部上下文理解，更好地检测小而复杂的异常。

2.3 零样本异常检测

近期，大型视觉语言预训练模型如MiniGPT-4 [16]、LLAVA [12]、Otter [40]和CLIP [19]展现了有前景的零样本能力。特别是CLIP引起了广泛关注，其目标是使视觉和语言模态的特征空间对齐。零样本异常检测方法 [3-5, 10, 20, 37-39]通常在训练过程中利用少量已见目标和异常来识别新类别，依赖于视觉语言模型（VLM）的出色泛化能力。鉴于预训练的VLM CLIP [19]强大的图像文本对齐和泛化能力，许多现成的零样本异常检测（ZSAD）方法选择CLIP作为 Baseline 。特别是WinCLIP [10]手动设计正常/异常文本 Prompt ，然后计算图像特征嵌入和文本特征嵌入之间的余弦相似度，随后通过插值模块获得异常图。与无训练方法相比，一些 [4, 5, 39] 使用标注的辅助数据训练一个线性 Adapter ，缩小自然和工业领域之间的差距。然而，考虑到手工 Prompt 的成本高昂和效率低下，AnomalyCLIP [39]引入了两个用于正常/异常状态的统一可学习文本 Prompt ，以减少劳动和时间消耗，从而提高了ZSAD性能。在本工作中，作者探索了多形式 Prompt 在利用CLIP进行ZSAD中的有效性。

方法

3.1 问题定义

给定一个特定的测试样本

，零样本异常检测方法旨在生成图像级异常得分

和像素级异常图

。遵循第2.3节中提到的广义ZSAD方法，作者利用辅助数据集

进行训练，该数据集包含正常和异常样本及其相应的标注。作者在未见过的数据集

中进行测试。值得注意的是，辅助数据集和测试数据集来自不同的领域，确保

。

3.2 概述

作者采用CLIP作为MFP-CLIPMFPCLIP的主干。MFP-CLIP概述如图2所示。CLIP用于提取图像和文本特征，并将它们映射到一个共享的嵌入空间中。为了充分利用CLIP的图像-文本对齐能力，作者通过计算视觉嵌入和文本嵌入之间的余弦相似度来检测和定位异常，遵循先前工作的方法[5, 10]。

picture.image

在图像分支中，将一张图像输入到CLIP图像编码器中，获得 Patch 嵌入。自 Prompt （SP）模块为自己生成基于CNN的局部特征，以细化 Patch 嵌入。经过细化的特征将随后进行线性投影和多 Patch 特征聚合（MPFA），分别调整特征维度和聚合多尺度特征。在文本分支中，作者采用图像到文本 Prompt （I2TP）机制，通过整合视觉特征来增强文本 Prompt ，从而更好地表示物体。然后，作者计算聚合的 Patch 嵌入与更详细的文本嵌入之间的余弦相似度，作为粗略异常图。最后，粗略分割结果作为 Mask 形式的 Prompt ，强调潜在的异常区域，细化边界。通过整合这些模块，MFP-CLIP有效地增强了CLIP检测和定位未见类别异常的能力，提高了精度和鲁棒性。

3.3 图像到文本 Prompt （I2TP）

MFP-CLIP在视觉和文本模态中引入了图像到文本 Prompt 模块，以增强异常检测。在文本分支中，先前的方法仅依赖于手动设计的 Prompt ，这些 Prompt 难以捕捉到物体类别的细粒度细节。为了解决这一局限性，作者使用了I2TP，将CNN中的图像特征整合到文本 Token 中。如图2所示，测试图像

被输入到ResNet-50中，提取的特征嵌入被展平，得到

。鉴于视觉特征和文本特征之间的固有差异，作者添加了一个多层感知器（MLP），如公式（1）所述，同时调整它们的维度。

随后，作者将从正常/异常[OBJ]照片生成的文本 Token

与变换后的图像特征

连接，形成增强的文本 Prompt Token

。此外，为确保 Token 一致性，作者在将 Token 输入文本编码器之前引入了一个额外的线性投影。过程如下：

其中，

和

分别表示沿第二维度的连接和线性投影。最终的文本特征嵌入表示为

。

3.4 自 Prompt （SP）

受文本 Prompt 的启发，作者假设视觉 Prompt 将有助于特殊图像的视觉表示和理解。作者采用了一种自 Prompt 机制，其中模型使用图像特征为自己生成视觉 Prompt 。由于选择了ViT作为图像编码器，作者利用CNN提取的特征作为视觉 Prompt ，以同时受益于ViT的全局推理和CNN的局部特征提取。具体来说，作者采用

个线性投影 Adapter 将CNN特征转换为视觉 Prompt

，以对齐不同架构的特征维度。前馈过程是：

其中

表示沿第一维的连接。

如第3.3节所述，作者通过CNN对图像进行编码以获取视觉 Prompt

。虽然这个视觉 Prompt 在训练和测试过程中都是为单个图像设计的，但一个统一的视觉 Prompt ——类似于文本模板——对于更好的泛化是必不可少的。为了实现这一点，作者创建了

个可学习的 Prompt Token

，并将

与

结合形成最终的视觉 Prompt Token ，如公式（4）所示。其中

表示沿 Token 维度进行连接。

与文本分支不同，视觉分支需要从两个不同的框架（CNN和ViT）提取的特征 Token 之间进行聚合。在ViT中，自注意力机制有效地捕捉全局上下文，使得输入序列中的任何 Token 都能影响输出。为了利用这一特性，作者通过自注意力机制将来自多框架的局部和全局特征进行整合。特别是，CLIP图像编码器中有24个Transformer，作者将所有层分为4个阶段，如图2所示。为了有效地整合局部上下文同时保留全局建模能力，作者仅在第一阶段

进行对齐操作。更确切地说，第一阶段包含六个层。为了保留原始图像的所有上下文信息，作者保持第一层不变。在2至6层中，作者首先从原始Transformer层的输出

中移除最后的

个 Token 。然后，将Transformer层的剩余特征 Token 和修改后的视觉 Prompt Token 进行拼接。这个过程可以用以下公式表示，

其中，

和

分别表示自注意力机制和沿第一维度的拼接。值得注意的是，SP不仅整合了CNN强大的局部特征提取和ViT强大的全局上下文建模能力，而且通过在辅助数据上的训练，将CLIP图像编码器从自然图像领域迁移到专业领域。这种跨框架对齐确保了鲁棒的特征表示，并增强了模型检测特定领域异常的能力。

3.5 多块特征聚合（MPFA）

为了计算图像和文本嵌入之间的余弦相似度，它们的特征维度必须相同。然而，考虑到原始CLIP模型中固有的维度差异，作者使用一组线性 Adapter

来确保维度对齐，与APRIL-GAN [4]的做法相同。此外，由于CLIP是在自然图像上预训练的，当应用于作者的下游任务时，存在领域差距。因此， Adapter 还可以帮助将CLIP从自然领域迁移到工业领域。每个 Adapter 由两个线性投影层和两个激活层组成，处理不同阶段的 Patch 嵌入。在这里，

表示第i个线性投影层。

ViT将图像分割成多个图像块，并使用自注意力机制对它们进行编码。为确保图像块边界处的表示更加平滑，并整合周围图像块之间的上下文，作者设计了一个多图像块特征聚合（MPFA）模块。MPFA通过在邻域图像块上应用自适应平均池化（AAP）来增强局部上下文感知。为了使物体和缺陷的轮廓更加清晰，作者对每个图像块内的

邻域进行特征聚合，其中

控制特征聚合的尺度，默认设置为3。

特别是在第i阶段

，作者获得了自适应 Patch 嵌入

，如公式（7）所示，其中

表示 Patch 的数量。对于每个 Patch ，嵌入被存储为一个特征向量。为了便于应用自适应平均池化（AAP），作者首先将

Reshape 为网格表示

。然后，作者对每个 Patch 的

邻域应用自适应平均池化，随后将聚合嵌入 Reshape 回原始格式。

如图3所示，作者对比了在自适应平均池化处理

邻域块前后，块嵌入的注意力图。结果显示，经过MPFA处理后，特征图中的块边界变得更加清晰和突出，使模型能够关注更大、更复杂的异常。这种增强显著提高了模型检测复杂物体和缺陷的能力。

picture.image

3.6 面具 Prompt （MP）

在聚合多块特征后，作者得到精炼的块嵌入

。遵循现有方法，作者计算图像和文本特征之间的相似度以获得结果。

插

值

此处，

和

分别表示余弦相似度和平均运算。

表示沿着最后两个维度的最大值。函数 Interpolate 指的是双线性插值。

尽管第3.3节至第4.3节中讨论的这些模块显著提升了模型性能，但一个常见问题仍然存在：分割结果常常表现出不精确的轮廓，尤其是在复杂和小的异常情况下。此外，检测到的异常区域往往比真实情况略大。为了克服这一缺点，作者设计了一个 Mask Prompt 模块来细化边界。

经过MFP-CLIP模型处理图像

后，作者可以得到像素级异常图

和图像级异常得分

。在这里，每个像素的值

代表位置

的异常概率，值越高，该区域包含缺陷的可能性越大。因此，作者利用这个粗略的异常图作为 Mask 形式的视觉 Prompt ，以引导模型更精确地关注关键区域。

picture.image

具体来说，如图4所示，为了强调那些潜在的异常区域，作者对粗糙异常图

和输入图像

进行逐元素相乘，输出修改后的图像

。由于原始图像和修改后的图像属于同一模态，作者直接将修改后的图像嵌入作为 Mask Prompt 使用，并将它们与原始图像嵌入在 Transformer 层中连接。前馈过程是：

线

性

连

接

编

码

器

，

表示逐元素乘法。

表示位置嵌入，PatchEmbedding

将图像分割成块，

是图像编码器。后续步骤与MFP-CLIP模型相同。

为了优化异常图

，作者采用Focal Loss[15]和Dice损失[18]，这些方法能有效处理类别不平衡问题并提高分割精度。同时，对于异常分数

，作者使用二元交叉熵（BCE）损失[17]进行训练。

实验

4.1 实验设置

数据集。为了验证MFP-CLIPMFP-CLIP，作者在两个广泛使用的工业异常检测数据集上进行了实验，即MVTechAD [2] 和VisA [41]。MVTec AD是一个用于评估异常检测方法的基准数据集，重点关注工业检测。它包含超过5000张图像，分辨率为

至

。这些图像分为十五个不同的目标（10个）和纹理（5个）类别。每个类别都包含一组无缺陷的训练图像和包含各种缺陷以及无缺陷图像的测试集。VisA数据集包含12个子集，对应12个不同的目标，包含10,821张图像，其中9,621张为正常样本，1,200张为异常样本。其中的图像分辨率为

至

。MVTechAD和VisA都包含原始图像和像素级标注。

评估指标。与大多数ZSAD方法类似，作者选择图像级和像素级受试者工作特征曲线下面积（I-AUC，P-AUC）来比较与其他ZAsD方法在异常检测和定位方面的性能。

实现细节。作者的实验选择OpenAI预训练的CLIP模型，以ViT-L-

作为默认 Backbone 网络。图像大小在训练和测试时均调整为

。具体来说，作者将图像编码器分为4个阶段，从24个Transformer层中提取第6、12、18、24层的图像块嵌入。由于测试中存在未见过的物体，作者选择MVTechAD、VisA中的一个作为辅助训练数据集，另一个作为测试数据集。CNN特征 Adapter 的数量

设置为五，这意味着视觉 Prompt 的大小为

。聚合尺度

也默认设置为五。模型训练100个epoch，批大小为1。作者使用Adam优化器，初始学习率(lr)为0.001，lr衰减因子为

。所有实验均在单个NVIDIA GeForce RTX 3090 24GB GPU上运行。

比较方法。为了更好地评估MFP-CLIP，作者将提出的MFP-CLIP与两种方法进行比较：无需训练和带辅助数据训练的方法。对于无需训练的方法，作者选择WinCLIP [10]进行比较，这是第一个也是代表性的基于CLIP的方法，且无需辅助数据进行训练。对于第二种方法，作者选择APRIL-GAN [4]、AdaCLIP [3]和AnomalyCLIP [39]进行比较，这些方法在辅助数据上训练，并在未见过的目标上进行测试，正如作者所做的那样。

4.2 与现有方法的比较

表1报告了MVTechAD和VisA上的定量结果。加粗和下划线数值分别表示最佳和次佳结果。可以观察到，作者提出的MFP-CLIP在指标AUC上优于所有比较方法。使用可学习文本 Prompt 的AnomalyCLIP和采用混合语义融合的AdaCLIP表现出次优性能。在MVTechAD上，MFP-CLIP比AnomalyCLIP和AdaCLIP分别高出0.7%和3.0%的I-AUC。对于异常定位，MFP-CLIP实现了92.1%的P-AUC，比次佳方法高1.0%。作者还在具有挑战性的VisA数据集上进行了实验。如表1所示，作者的MFPCLIP在异常检测和定位方面均取得了最佳性能，分别达到87.9%的I-AUC和96.0%的PAUC，分别比次佳结果高出1.0%的I-AUC和0.5%的P-AUC。定量比较表明，MFP-CLIP优于其他ZSAD方法。MVTechAD和VisA上所有类别的详细定量结果将在补充材料中报告。

picture.image

图5(a)和图5(b)分别展示了MVTechAD和VisA上的定性结果。存在许多小缺陷，如拉链的断裂牙齿，以及复杂的缺陷，如瓶子的断裂。它们的真实边界非常精细。图5(a)展示了这些方法在MVTechAD上的定性结果，其中MFP-CLIP可以更准确地定位小和复杂的异常轮廓。相比之下，Tile、地毯和木材等类别的像素级结果展示了MFP-CLIP在检测和定位缺陷方面的优越性。作者将其卓越性能归因于SP、MPFA和MP模块产生的精细特征。此外，VisA上的可视化结果如图5(b)所示。作者的 Mask 更接近真实边界，而其他方法倾向于分割比真实边界更大的粗糙边界。相比之下，作者提出的MFP-CLIP可以更精确地描绘缺陷轮廓，并且作者的假阳性区域少于其他方法，这证明了多形式 Prompt 在零样本工业异常检测中的巨大功效。

picture.image

4.3 消融研究

picture.image

作者对MVTechAD进行了消融研究，以评估MFP-CLIP中所有组件的影响。表2报告了每个单独组件的重要性，展示了每个模块对整体性能的贡献。单一组件的消融可以清楚地识别每个组件的重要性，并提高对模型工作原理的理解。

picture.image

此外，作者还通过改变在多块特征聚合（MPFA）过程中聚合的 Patch 嵌入数量以及使用自 Prompt （SP）模块的阶段数量进行了程度分析。不同超参数的性能比较分别呈现于表3和表4中。

picture.image

图像到文本 Prompt （I2TP）模块的消融实验。如表2所示，从第四行到最后行的性能提升表明了I2TP模块的优越性。手动设计的文本 Prompt ，如“一张正常/异常[物体]的图片”，难以准确表示详细的目标（类别）和状态（正常/异常）信息。没有I2TP模块，文本嵌入仅从文本模板中提取。性能下降了1.9%的I-AUC和1.8%的P-AUC。这是因为从CNN提取的I2T Prompt 将局部上下文引入文本 Prompt 中。它们提供了更详细的区域信息，有助于模型更好地理解目标类别和特征的空间分布。文本分支能够生成更精细和精确的文本嵌入，从而引导模型以更高的准确性识别异常。

自 Prompt （SP）模块的消融实验。为了评估SP模块的影响，作者在MVTechAD数据集上进行了消融实验，比较了MFP-CLIP在有和无SP模块时的性能。如表2的第三行所示，没有SP模块时，模型通过ViT提取图像特征，表现出次优的性能。没有CNN特征的校准，模型难以捕捉详细的局部上下文。相比之下，启用SP模块允许模型有效地校准CNN和ViT的特征，实现局部和全局表示的融合。例如，I-AUC和P-AUC分别提高了2.0%和2.1%。此外，作者在表4中展示了在不同阶段使用SP模块时的性能。值得注意的是，当SP模块应用于第2至第4阶段时，性能没有显著提升。这可能与自注意力机制有关，它已经建立了跨框架特征之间的交互。为了降低计算成本，作者仅在第一阶段应用SP模块。

消融实验用于多块特征聚合（MPFA）。为了评估自适应平均池化在

邻域块嵌入中的重要性，其中默认将

设置为3，作者进行了相应的消融研究，如表2所示。对于像药片裂缝和电缆弯曲这样的小而复杂的缺陷，MPFA模块可以增强其边界的定位性能，这导致I-AUC提高了0.7%，P-AUC提高了1.0%。此外，作者通过比较表3中报告的

的结果，寻找

的最佳值。不同尺寸块嵌入的聚合可视化如图3所示。适当地聚合邻域块嵌入有助于更大规模和复杂缺陷的处理，而当

过大时，特征将变得模糊。

picture.image

消融实验针对 Mask Prompt （MP）模块。如图6所示，在没有MP模块的情况下，分割结果仍然不够精确，轮廓缺乏锐度，异常区域略大于真实值。当将MP作为视觉 Prompt 融入模型时，模型的定位精度从

提升至

P-AUC。异常区域变得更加明显，误检区域减少。

结论

本文提出了一种名为MFP-CLIP的通用方法，通过跨框架特征对齐和边界细化来优化异常定位，尤其适用于小型和复杂缺陷。通过使用图像到文本 Prompt （I2TP）来增强文本 Prompt ，MFP-CLIP能更好地表示图像中的物体，从而实现更精确的异常检测。自 Prompt （SP）模块结合了全局和局部特征。同时，还引入了多块特征聚合（MPFA）来增强对复杂和小型异常的感知。

最后，通过 Mask Prompt （MP），将异常的轮廓从粗粒度修改到细粒度。在两个主要的工业数据集上进行了大量实验，证明了MFP-CLIP在零样本异常检测中的优越性。

参考

[1]. MFP-CLIP: Exploring the Efficacy of Multi-Form Prompts for Zero-Shot Industrial Anomaly Detection

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image