SEM-CLIP:用于扫描电子显微镜图像中纳米级缺陷检测的精确少量学习 !

向量数据库大模型数据中台

备注好友:

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

在集成电路制造领域,纳米级晶圆缺陷的检测与分类对于后续的根本原因分析及产量提升至关重要。扫描电子显微镜(SEM)图像中存在的复杂背景图案以及缺陷多样化的纹理特征构成了重大挑战。

传统方法通常受限于数据不足、标签欠缺和较差的迁移性。

在本文中,作者提出了一种新颖的少样本学习方法——SEM-CLIP,用于准确的缺陷分类与分割。SEM-CLIP 对比蹭语言-图像预训练(CLIP)模型进行了定制,以更好地关注缺陷区域并最小化背景干扰,从而提高分割精度。

作者采用富含领域知识的文本 Prompt 作为先验信息来辅助精确分析。此外,作者的方法结合了带有文本指导的特征工程,以更有效地对缺陷进行分类。SEM-CLIP 对标注数据的需求很少,大幅降低了半导体行业的劳动力需求。

广泛的经验验证表明,在少样本学习场景下,作者的模型能够获得令人印象深刻地分类和分割效果。

1 INTRODUCTION

半导体制造是一个复杂且多面的过程,其中缺陷可能是由于工艺不当或设备问题引起的。为了实现实时监控,会捕捉SEM图像并基于缺陷的外观对其进行分类,从而帮助缺陷检测和根本原因分析。与粗略的晶圆级缺陷图谱不同,SEM图像可以提供更详细的缺陷特征,从而有助于确定具体的过程步骤和设备。目前,缺陷检测主要依赖人工操作,这既费时又容易出错。开发自动缺陷检测系统已成为一种趋势。

当前的晶圆表面缺陷检测与分类研究主要采用监督学习方法,需要大量的数据和详细的标注标签。一些方法用于缺陷分类[1-3],还有一些分割方法被提出以提供详细的位置和形状信息[4-6]。尽管这些方法取得了出色的表现,但通常需要大量标注数据进行训练,导致工作量巨大。此外,由于缺乏足够的训练数据,这些方法在新缺陷检测中的迁移性较差。工业界总是重视标注数据的宝贵性。

因此,工业缺陷检测领域已经开始转向无监督或半监督异常分割方法[7-10]。这些方法只需要正常的样本来学习其分布,通过计算测试样本与正常样本之间的分布差异来进行异常检测。然而,这种方法仍然需要大量的正常样本进行训练。由于缺陷发生的背景差异性较大,导致正常样本之间存在显著差异,这使得在晶圆表面缺陷检测场景中应用此方法颇具挑战。

最近,预训练的跨模态模型如CLIP [11]和SAM [12]取得了迅速进展,通过使用 Prompt 来访问存储的先验知识,从而展示了强大的零样本视觉感知能力 [13]。鉴于此,作者正在探索利用基于CLIP模型的方法来解决数据稀缺问题。然而,考虑到集成电路应用场景的独特性,网络预训练中使用的文本-图像对可能包含很少或完全没有半导体的SEM图像。因此,调整CLIP模型的基础结构并加入少量正常和异常样本的SEM图像作为目标类别的支持图像变得至关重要。这些调整将使模型更有效地识别和分类半导体制造过程中遇到的具体类型的缺陷。

这种策略使作者能够通过少量样本利用模型内在理解复杂视觉概念的能力,并将其适应半导体制造的具体需求。作者可以创建一个更高效且有效的模型来检测和分类晶圆表面缺陷,而不需要大量标注的数据集。为此,作者提出了一种名为SEMCLIP的方法,这是一种遵循少样本学习机制设计的CLIP方法,用于缺陷检测。本工作的贡献总结如下:

  1. 作者提出了一种新颖的少样本学习方法SEMCLIP,用于在少量数据和标签要求下进行准确的SEM图像缺陷分类和分割。据作者所知,这是首个针对SEM Level IC缺陷检测任务的少样本学习工作。
  2. 作者定制了对比语言-图像预训练模型,使其专注于缺陷区域,并通过添加V-V注意力块来采用一种新的特征提取方法,以最小化复杂的背景干扰并提高分割准确性。
  3. 富含专家知识的 Prompt 被精心设计并应用于先验信息中,以指导分类和分割过程。文本引导的特征工程结合分类头以提升分类性能。

作者在自建的SEM图像缺陷数据集上针对多种少样本设置进行了全面实验。结果显示,作者的方法在iAUROC、pAUROC和

得分方面显著优于其他方法。

例如,在10-shot设置下,SEM-CLIP超越了最近的SOTA方法PromptAD,分别在iAUROC、pAUROC和

方面提高了

。作者的方法将有助于晶圆厂缓解标签示不足和劳动成本高昂的问题,从而促进智能制造的发展。

2 PRELIMINARIES

2.1 Pre-trained Vision-language Model

视觉语言模型处理和整合视觉和文本数据,能够完成需要对两个领域有统一理解的任务。CLIP 模型 [11] 在大约 4 亿张图像-文本对上进行了预训练,具有较强的泛化能力,并能利用自然语言来指代学习到的视觉概念。基于 Transformer 的编码器 [14] 将特征投影到一个共享的嵌入空间,在这个空间中通过对比损失函数计算相似度,该损失函数将匹配的对齐起来并将不匹配的分开。这种设计使得 CLIP 能够在各种任务上有效泛化,而不需要针对特定任务进行训练,展示了其下游应用中的灵活性 [15-18]。

2.2 Wafer Surface Defect Detection

缺陷检测对于提高集成电路制造中的产量至关重要。传统研究主要集中在晶圆地图上,根据测试结果用颜色 Token 故障芯片。尽管这些地图可以提供有关缺陷的空间洞察,但随着芯片组件复杂性的增加,晶圆地图 Level 的检测变得更加困难且不够精确[19-22]。为了克服这些局限性,扫描电子显微镜(SEM)等放大成像技术对于仔细检查晶圆表面至关重要。如图1所示,需要先进的方法来准确检测、分类和分析微小缺陷,并确定缺陷的具体起源工艺步骤。

picture.image

2.3 SEM Image Defect Data

由于缺乏公开的SEM图像数据集,在内部拥有的一条12英寸、55nm CMOS制造线上收集了一些数据。该数据集包括1332张灰度图像,其中包含226张无缺陷图像和1106张缺陷图像,这些缺陷图像被分类为六种常见缺陷类型:59个桥接、141个铜残留、230个孔洞、77个薄膜内缺陷、455个颗粒和144个刮痕。图2展示了部分示例。

picture.image

2.4 Related Work

晶圆表面缺陷检测传统上依靠工程师进行,依赖于耗时且不一致的经验知识。随着人工智能的发展,深度学习技术在这一任务中变得非常有效[23]。已经开发出了多种分类方法。Chen等提出了一种使用PCA和SVM的缺陷识别算法[1]。Chang等利用SVM以及平滑度和纹理特征[2]。Cheon等引入了用于特征提取的CNN模型[3]。缺陷分割对于确定缺陷位置和尺寸至关重要。常用的编码器-解码器网络包括UNet[4]和SegNet[5]。Han Hui等结合了区域建议网络(RPN)与UNet,用于缺陷区域建议[24]。Subhrajit Nag等引入了WaferSegClassNet,该模型同时进行分类和分割[6]。最近,Vic De Ridder等应用扩散模型来预测和重建半导体缺陷的 Mask ,虽然精确度高但计算成本高昂,并且在处理多种缺陷类型方面存在局限性[25]。

尽管取得了这些进展,这些方法仍然高度依赖大量准确 Token 的数据,而这类数据稀缺,且它们在转移到新的缺陷类型时表现不佳。

2.5 Few-shot Anomaly Detection

传统异常检测依赖于大量的训练数据,这在动态环境中多种类型的异常变化时限制了其有效性。近期的研究重点关注使用少量甚至零样本数据来克服这些挑战。丁等人引入了DRA [26],尽管没有特别提到少样本学习的概念,但仍通过学习少量 Token 样本,有效地识别已知和未知的异常。近期研究表明,预训练的视觉-语言模型如CLIP能在该任务中显著提升性能。郑等人开发了WinCLIP [27],这是首个使用视觉语言模型进行少样本异常检测的框架,通过引入新的窗口技术结合状态词和 Prompt 模板以提高性能。顾等人提出了AnomalyGPT [28],利用在模拟异常上训练的大规模视觉-语言模型,有效定位异常。陈等人提出了CLIP-AD (零样本) [29],而李等人则推出了PromptAD (少样本) [30],两者均采用双路径模型和特征手术来增强CLIP的异常检测能力。

这些研究推动了传统异常检测的边界,展示了少样本学习如何迅速有效地应对动态且数据稀缺的环境。作者的研究将CLIP方法扩展至支持SEM图像缺陷检测。

2.6 Problem Definition

作者的目标是基于 (X) 构建一个具有少样本学习能力的模型,该模型可以生成 (M) 个SEM图像测试集((M \gg K))的准确缺陷分类标签和像素级分割结果。默认情况下,在作者的情境中 (N=7),无需进一步解释。

3 SEM-CLIP FRAMEWORK

在本节中,作者介绍了专门为少量样本条件下识别和分割晶圆表面缺陷设计的SEM-CLIP,具体如图4所示。首先,作者构建了一个包含关于晶圆表面缺陷模式专家知识的文本 Prompt ,从而避免为每个样本分配详细的标签。随后,在经典的ViT架构[31]中添加了一个

注意力块到Transformer块内,实施了一种双路径模块。从该架构中提取不同层次的特征,并采用一种新方法去除冗余特征以计算相似性。此外,作者使用少量样本对 Transformer Layer 和分类头进行了微调,最终实现了精确的缺陷分类和分割结果。

picture.image

3.1 Text Prompt Design

由于集成电路制造工艺的复杂性,晶圆表面缺陷在外观上变化极大,导致同一类型的缺陷在形态上有显著差异,而不同类型的缺陷在纹理上有相似之处,如图3所示。因此,利用领域专家知识将粗糙的 Prompt 词“异常”或“缺陷”细化为更详细的目标缺陷形态描述至关重要。例如,“划痕”类型的缺陷通常在后端工艺(BEOL)中表现为细长线状 Token ,而在前端工艺(FEOL)中则可能表现出鱼鳞状模式。这些椭圆形的凹陷呈连续分布,如果没有仔细观察,很容易被误认为孔洞型缺陷。

picture.image

本文采用了复合 Prompt 结构,如图5所示。作者将 Prompt 分解为模板级和状态级组件,其中状态级 Prompt 提供了每种缺陷可能出现的详细描述,例如“具有线性划痕的{}图像”或“具有鱼鳞状划痕的{}∞图像”。此外,由于扫描电子显微镜在对焦问题或不同电子束强度导致的图像亮度变化等因素的影响下可能会产生模糊,因此模板级 Prompt 可以描述这些影响,比如“一张模糊的{}图像”或“一张黑暗的{}图像”。最后,通过用状态级 Prompt 替换模板级 Prompt 中的状态,作者将它们结合形成最终的文字 Prompt 。

picture.image

文本 Prompt 设计并共享给所有SEM图像。在作者模型的实际应用和 Query 图像的分析过程中,无需调整 Prompt 。

个双路径块组成。整个ViT主干包含

个编码块,如图4所示。以第

个编码块中的第

个双路径块为例,其输入为

,并给出两个输出:

3.2 Image Feature Extraction

对于SEM图像,背景模式的多样性和复杂性往往会干扰缺陷检测,这是不希望看到的。最近的研究表明,

自注意力机制[14]可能会在语义无关区域错误地建立连接,导致分散的注意力[32]。vanilla自注意力机制描述如下:

相比之下,

注意力机制[32]通过直接比较和关联相似的特征值,能够更准确地聚焦于相关的特征区域,有效减少了背景的干扰。

注意力机制可表示如下:

因此,作者保留了vanilla CLIP ViT [31] 的基本Transformer结构,并通过增加一个支路对其进行修改,用于特征提取。这个支路包含了一个

注意力模块,构建了一个新的双路径块。编码块中,

分别表示基本的QKV模块和VVV模块,

分别表示这两个模块的输出。

第 ( j ) 个编码块的输入是第 ( j-1 ) 个编码块的第 ( n ) 个双路径块的最后一层的输出:

因此,对于第

个编码块,输出为:

作者从编码块的输出中在多层级提取特征,得到

个基础图像嵌入

个通过

注意力变换的新图像嵌入

值得注意的是,作者 vanilla 的

块的权重是从预训练的 CLIP 图像编码器的权重文件中加载的。此外,VVV 块的参数直接从

块中复制。作者仅修改了数据计算的方法,而未改变数据本身。因此,无需重新训练。

3.3 Defect Segmentation

在使用预训练的CLIP模型进行零样本缺陷分割时,常规方法是直接计算文本和图像嵌入之间的相似性以获得缺陷图。然而,这种方法并不适合作者的任务。尽管作者构建了一个详细的文本 Prompt 并加入了专家知识,文本仍然难以全面描述对应的图像信息,尤其是作者的异常SEM图像。这意味着作者的问题无法通过零样本方法解决,而是需要使用少样本样本进行微调。在本研究中,作者采用了少样本学习的方法来改进SEM缺陷的检测。具体的实现细节如下:

首先,作者利用预训练的CLIP文本编码器将文本 Prompt ( T ) 转换为文本嵌入 ( t )。

如前一节所述,作者修改了图像编码器的结构,从而产生了两种不同类型的图像嵌入,分别 Token 为

。这些嵌入是从

个不同的层次提取得到的。

基于

的分割方法。原始图像嵌入

,其中

作为

Token ,聚集图像的全局特征,常用于图像级缺陷检测,考虑将其应用于缺陷分类任务。

包含更详细的信息,因此作者使用它进行像素级缺陷分割。

为了增强模型对作者应用场景的理解,作者引入了一个通过少样本微调的 Transformer Layer 。具体而言,该 Transformer Layer 通过一个线性层将图像嵌入映射到联合嵌入空间中。映射的输入表示为

输出则为。以第

个编码块的输出图像嵌入

为例,其映射过程如下:

对于转换后的基础图像嵌入

,作者计算它与文本嵌入

的余弦相似度。公式如下:

其中,

表示

的点积,

分别是

维上的

范数。

经过Softmax层处理后,作者获得由第

个编码块的

计算得到的缺陷图:

然后将与

个基础图像嵌入对应的缺陷图进行求和,以获得分割结果

基于

的分割。类似于对

所进行的操作,对于新的图像嵌入

,作者丢弃 CLS token,得到

来计算缺陷图。研究表明,无论文本 Prompt 如何,错误的亮斑通常会在相同的非缺陷区域出现。识别并移除这些无关的亮斑作为冗余特征,可以有效降低预测分割结果中的噪声 [32]。以第

个编码块的输出

为例,具体操作如下:

首先,对图像嵌入 (V[1:]) 和文本嵌入 (t) 分别进行 (L2) 正则化,然后执行元素-wise相乘生成一个包含图像和文本信息的特征 (V_{j}^{m}):

作者计算乘积特征 (V_{j}^{m}) 的均值以获得冗余特征 (V_{j}^{r})

然后从乘积特征 (V_{j}^{m}) 中移除冗余特征 (V_{j}^{r}) ,得到缺陷图:

个新图像嵌入

对应的缺陷图进行求和,以获得分割结果

考虑到这两幅图像嵌入的分割结果,最终的整体缺陷图由以下方式给出:

3.4 Defect Classification

CLIP [11] 的自监督对比学习能力使其能够理解图像和文本之间的语义关系,从而具备零样本分类能力。具体而言,CLIP 模型将 Query 图像

编码以获得图像嵌入,然后计算图像嵌入与所有可能的文本嵌入的内积,将内积最大值对应的标签作为分类结果。因此,作者可以直接使用公式 (1o)。由于有

种不同 Level 的图像嵌入对应

种不同的相似度分数,作者选取最大分数如下:

通过相似度计算获得的分类预测概率为:

尽管CLIP的对比学习能力使其可以直接完成图像分类任务,如作者在第3.3节中提到的,预训练的多模态模型直接在特定场景中取得满意性能是有挑战性的。因此,作者需要少量SEM缺陷图像进行微调。

受Vision Transformer [31]的启发,Vision Transformer利用一个额外的学习可训练[CLS]嵌入来在后续的图像编码过程中聚合其他Token的信息,从而使[CLS] Token聚集全局特征。作者自然地考虑使用这种方法来实现分类功能。在原始图像嵌入

中,[CLS] Token位于第一个编码位置。由于有

个编码块,作者获得了

个原始图像嵌入

。分类[CLS]向量表示为:

在获得有效的特征向量 ( F_C ) 后,作者使用它来微调一个简单的分类头,例如线性分类器,从而得到分类预测概率 ( P_C )。

这里

表示权重矩阵,而

表示分类头的偏置。

最终的分类预测概率来源于由CLIP计算的图像-文本对比得分和分类头的预测得分,表达式如下:

其中,

是一个标量权重,用于平衡这两种概率。

4 EXPERIMENTS

4.1 Experiments Settings

评价指标包括区域AUROC (iAUROC)、点AUROC (pAUROC) 以及分割中的像素级

-max,分类中的精度 (Accuracy)、精确率 (Precision)、召回率 (Recall) 以及

分数。作者利用基于 LAION-400M 的 CLIP 模型并配备

进行实验。图像编码主干由 12 层组成,作者将其分为 4 个编码块,即

。因此,每个编码块包含 3 层,对应于 3 个双路径块,即

。所有实验均在 NVIDIA RTX 4090 上进行。对于微调策略,作者使用 Adam 优化器进行参数更新。方程(23)中的超参数

设置为 0.8。

4.2 Benchmarks and Baselines

对于缺陷分割性能,作者在一系列少样本设置下主要将作者的方法与

[27]、PromptAD [30]、DRA [26] 和 AnomalyGPT [28] 进行比较。这些方法代表了流行的异常检测(AD)方法和最近的最先进(SOTA)AD模型。WinCLIP 和 PromptAD 均基于 CLIP 进行异常检测,因此作者使用 ViT-B/

并在 LAION-40oM 上进行预训练。这些 Baseline 在第 2 节中详细介绍了。

由于先前方法中缺乏多类别分类能力,作者使用在ImageNet-21K [33]上预训练的模型比较分类性能,包括ViT [31]、ResNet

[31]、ResNet101 [34] 和 EfficientNet [35]。每个模型都在作者的SEM数据集上用10-shot样本来进行微调,并与作者在同一测试集上的SEM-CLIP模型进行对比。

4.3 Results Analysis

分割性能比较。作者在不同的少样本设置下评估了iAUROC、pAUROC和

-max分数,结果如表1所示。结果显示,在所有少样本设置下,SEM-CLIP的性能均优于SOTA得分。具体而言,在单样本设置中,作者的方法提升了

;在双样本设置中,提升了

;在五样本设置中,提升了

;而在十样本设置中,提升了

此外,在少样本(10-shot)设置下,SEM-CLIP 显示了精确的缺陷定位和分割能力,有效地区分了正常区域和缺陷区域,如图6所示。

picture.image

Classification performance comparisons.

SEM-CLIP 在几乎所有评价指标上表现出色,尤其是在 (F_{1}) 分数方面,这展示了其识别缺陷类别并最大限度减少假阴性的能力。这对于作者的 SEM 图像分类任务来说尤为重要,尤其是处理不平衡的缺陷类别时。根据表2 的数据,作者的方法在准确性、召回率和 (F_{1}) 分数上均达到最高值,尽管预训练的 EfficientNet 模型在精确度方面超过了作者。这一优势可能是由于 EfficientNet 对多样化的 ImageNet 数据集有广泛的先验知识,并采用了高级正则化技术。然而,EfficientNet 较低的整体准确度表明其识别能力较弱。SEM-CLIP 在几乎所有评价指标上表现出色,特别是在 (F_{1}) 分数方面,这显示了其在识别缺陷类别方面的高精度,同时最大限度地减少了假阴性,使其非常适合处理不平衡类别的 SEM 图像分类任务。图7 的混淆矩阵表明,SEM-CLIP 对大多数缺陷的分类准确性较高,但对“颗粒”类别的分类表现不佳。这一挑战源于颗粒的形态多样性,使得它们容易与其他缺陷混淆,尤其是 inflim 类别,因为这些实际上是嵌入薄膜中的颗粒,具有类似的形态,如图3 所示。

picture.image

picture.image

4.4 Abalation Studies

SEM-CLIP用于缺陷分割。作者首先研究了使用少样本进行微调的影响。在表3中,“无 Transformer Layer ”表示未使用 Transformer Layer ,因此直接使用

进行分割,如图8所示。作者的SEM图像来自生产线,并且图像顶部和底部显示有文本信息。未经微调的情况下,模型往往会错误地将这些文本信息识别为缺陷。此外,对SEM图像背景复杂性的理解不足也会使其容易误分类正常的背景模式为缺陷。

picture.image

picture.image

作者还评估了 Prompt 设计的影响。“无详细 Prompt ”指的是使用通用 Prompt 而非详细的、基于专家的信息 Prompt 。结果表明,详细的 Prompt ,例如“带有直线划痕的{}∞{}图像”,更为有效。

最后,作者分析了多层特征的作用。作者的SEMCLIP模型使用来自四个编码块的输出,包括普通图像嵌入和新型图像嵌入,来计算缺陷图。“无多层”表示仅使用最后一个编码块的输出。整合多层信息显著提高了分割性能。

SEM-CLIP for defect Classification.

表3展示了各种组件对分类效果的影响。“w/o

"表示排除了CLIP的先验知识,使得分类仅依赖于分类头,即在方程(23)中

时的情况。“w/o

”仅依赖于文本 Prompt 导向的预测

。结果显示,仅仅依赖预训练的CLIP不足以用于SEM缺陷分类。使用少样本数据进行微调显著提高了性能,突显了少样本学习在专门任务中的重要性。对于分类而言,“

multi-layer”指的是只使用最后一层的CLS Token。结果表明,采用多层方法可以增强特征检测,从而通过捕捉全局和局部图像特征来获得更好的分类性能。

5 CONCLUSIONS

在本文中,作者介绍了SEM-CLIP,这是一种创新的少样本学习方法,能够将缺陷分类和分割功能结合起来。该方法利用精心设计的 Prompt 来优化视觉-语言模型,以实现更有效的文本引导学习。

此外,它还拥有针对分割和分类任务不同需求量身定制的架构。SEM-CLIP有效减少了SEMs缺陷数据中存在的复杂背景的影响,并解决了复杂缺陷纹理带来的挑战。

参考

[0]. SEM-CLIP: Precise Few-Shot Learning for Nanoscale Defect Detection in Scanning Electron Microscope Image .

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论