WRT-SAM:引入SAM基础模型,集成频域与多尺度Prompt生成器用于焊缝放射照相缺陷分割的先进模型 !

技术

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

放射照相检测是一种基于非破坏性评估技术的基本方法,用于在工业应用中识别焊缝缺陷和评估质量,得益于其高分辨率成像能力。在过去十年中,深度学习技术极大地推动了放射照影片中焊缝缺陷识别的进步。然而,传统的做法依赖于在单一场景数据集上训练小型的任务特定模型,这导致它们在跨场景泛化方面表现不佳。

最近,Segment Anything Model (SAM) 这种预训练视觉基础模型,通过在大规模数据集上进行训练展示了出色的零样本泛化能力。利用有限的领域特定数据微调 SAM,在医学图像分割和异常检测等领域已取得令人鼓舞的结果。

据作者所知,本工作是首个将 SAM 基础模型引入到通用焊缝放射照相检测图像中的研究。作者提出了一种名为 WRT-SAM 的新型焊缝放射照相缺陷分割模型,该模型通过基于 Adapter 与专门的 Prompt 生成器架构的集成来利用 SAM。

为了提高对灰度焊缝放射照相图像的适应性,作者引入了一个频域 Prompt 生成器模块,该模块增强了模型对频域信息的敏感性。

此外,为了解决焊缝缺陷的多尺度特性,作者整合了一个多尺度 Prompt 生成器模块,使得模型能够有效地提取和编码不同尺度下的缺陷信息。

广泛的实验评估表明,WRT-SAM 实现了召回率

、精确率

和 AUC 值 0.9746,确立了新的最先进的基准。此外,该模型展示了优越的零样本泛化性能,凸显了其在多样化的放射照相检测场景中的实际部署潜力。

unsetunset1. Introductionunsetunset

焊接结构在工业应用中广泛使用,特别是在压力容器(例如锅炉和储罐)和压力 Pipeline (例如天然气和石油输送系统)的建造中[1, 2]。这些关键基础设施常在极端条件下运行,包括高温高压环境,并且可能含有易燃或危险物质。任何结构失效或泄漏都可能导致严重的工业事故,造成巨大的经济损失,并对人类安全和环境完整性构成重大威胁。因此,确保焊接组件的结构完整性和可靠性至关重要。

射线检测(RT)是焊缝缺陷检测中最广泛采用的非破坏性检测(NDT)方法之一,因为它能够捕捉到高分辨率的内部结构,并提供直观的缺陷可视化表示[3, 4]。通过分析RT图像,工程师可以识别缺陷位置、分类缺陷类型并评估其严重程度,这对于保持焊接部件的质量和安全性至关重要。随着工业生产规模的扩大和相应的RT检查工作量增加,对缺陷评估效率和准确性提高的需求也日益增长。然而,传统的手动检查方法存在效率低、主观性强、再现性差以及难以标准化等问题,导致缺陷评估结果不一致。

近年来,计算机视觉和人工智能的发展使得在RT图像中自动化缺陷检测成为可能,显著提高了评估的准确性和效率。早期研究[5, 6]主要依赖传统的图像处理技术和机器学习模型,需要手工提取特征并且缺乏跨多样场景的适应性。随着深度学习的兴起,卷积神经网络(CNNs)已成为主导方法,在缺陷分类、分割和检测方面取得了令人瞩目的性能。然而,这些基于CNN的方法通常是在有限的数据集上训练的,容易出现过拟合并限制了其对未见过的场景的泛化能力。

大规模视觉基础模型的近期涌现,以Segment Anything Model (SAM) [11]为例,已经带来了视觉理解范式的变革。这些模型在大规模数据集上进行预训练,展现出强大的零样本泛化能力,并在医学图像分割和异常检测等多个领域中取得了卓越的表现。鉴于其可扩展性和适应性,对视觉基础模型进行领域特定应用的微调已成为在复杂工业环境中提高模型鲁棒性的有效策略。然而,将此类模型直接应用于基于实时(RT)的焊缝缺陷识别存在独特的挑战,主要原因是RT图像的灰度特性以及焊缝缺陷的多尺度特征。

与富含丰富颜色和纹理信息的自然场景图像不同,CT图像为灰度图像,限制了标准基于CNN的特征提取器能够捕获的特征种类。现有的深度学习方法主要依赖于空间域特征提取,而忽视了有价值的小波域信息。受医学影像领域中成功将小波域分析融入以提高分割性能的启发[12, 13],作者引入了一个频率 Prompt 生成器(Frequency Prompt Generator,FPG),以提升SAM在处理灰度CT图像时的适应性。通过利用小波域信息,作者的模型增强了缺陷特征表示并提高了分割精度。

此外,焊接缺陷在形状、大小和分布上表现出显著的多变性,因此需要一种能够提取多尺度特征的模型。传统的基于CNN的方法由于固定的感受野限制,在处理多尺度缺陷表示时往往力不从心。为了解决这一局限性,作者引入了多尺度 Prompt 生成器(MSPG),使作者的模型能够有效捕捉不同尺度的缺陷特征,从而在多样化的缺陷类型上提高分割性能。

在本文中,作者提出了WRT-SAM(焊射检测 - Segment Anything 模型)这一新颖的分割框架,该框架通过 Adapter 机制将SAM与 Prompt 生成架构相结合。作者的贡献可以总结如下:

据作者所知,这是首例利用SAM基模型进行一般焊缝RT图像分割的研究。

作者提出了一种 Prompt 生成架构,该架构由频率 Prompt 生成器(FPG)和多尺度 Prompt 生成器(MSPG)组成,它增强了SAM处理灰度RT图像的能力,并提高了其在多个尺度下提取缺陷特征的能力。

作者在三个焊缝RT图像分割数据集上进行了广泛的评估,包括GDXray和一个专用数据集。WRT-SAM实现了最先进的(SOTA)性能,展示了其在不同实际场景下的强大零样本泛化能力。

unsetunset2. Related Workunsetunset

2.1. Deep Learning-Based Weld Radiographic Image Recognition

近年来,深度学习的发展显著提高了射线检测图像中焊缝缺陷识别的准确性。多种方法被提出以增强缺陷检测能力,特别是在处理小目标、捕捉低灵敏度空间信息以及多尺度缺陷分割精度优化方面。YOLOV5[14]通过整合坐标注意力(CA)机制、SIOU损失函数和FReLU激活函数来提升小目标检测和空间特征提取能力,从而促进缺陷检测的整体优化。

类似地,改进型U-Net[15]在编码器-解码器层间引入额外的 Shortcut ,减轻了信息 Bottleneck ,并在多尺度焊接缺陷分割性能上有所提升。为了进一步细化小尺度缺陷识别,MAU-Net[8]引入了一种卷积块注意力机制,通过多尺度偶数卷积优化大规模特征提取。与此同时,多尺度空间(MSS)赋能的分割方法[16]通过构建三个特征空间来应对尺度变化的挑战:

(1) 使用膨胀卷积构建多尺度特征空间;

(2) 通过不同窗口大小的最大池化构建多尺度语义空间;

(3) 通过自注意力机制构建多尺度关系空间。

尽管基于CNN的分割架构取得了显著进展,现有研究主要集中在提高特定场景内的缺陷检测准确性,往往忽视了跨场景的一般化能力。因此,这些模型在工业射线照相检测中遇到的复杂多变的实际条件下表现出有限的适应性。

2.2. Visual Tuning on SAM for Downstream Tasks

视觉调优技术用于适应预训练模型可以大致分为微调、 Prompt 调优、 Adapter 调优、参数调优和映射调优[17]。在这之中, Prompt 调优和 Adapter 调优提供了将预训练模型转移到特定领域应用的有效手段。Segment Anything Model (SAM) [ii] 是一种用于图像分割的基础模型,它利用基于 Prompt 的适应方法来完成多种分割任务。为了改进其特定领域的性能,提出了若干种方法。PA-SAM [18] 通过在多个 Prompt Level 上精细调整 Mask 解码器特征,提高了分割准确性。SSPrompt-SAM 通过自适应加权学习空间和语义 Prompt ,从而改善了特定领域的适应性。

SAM-Adapter [19] 是一种使用多层感知机 (MLP) 的轻量级扩展,能够有效地注入特定任务的知识到 SAM 中。RobustSAM [20] 通过反退化输出 Token 生成 (AOTG) 和反退化 Mask 特征生成 (AMFG) 模块,在保留 SAM 的零样本学习能力的同时解决了图像降质问题。鉴于 Prompt 调优和 Adapter 调优的有效性,近期有关姿态引导生成和虚拟穿衣的研究[21, 22]表明基础模型在结构化生成任务中的潜在价值。此外,关于条件扩散模型的研究[23, 24]强调了丰富的上下文信息对于增强生成性能的重要性。

受这些进展的启发,作者结合了两种调优策略以优化WRT-SAM在焊缝射线照相缺陷分割中的性能,确保其在无损检测应用中的稳健性和适应性。

unsetunset3. Proposed Methodunsetunset

3.1. Overview

本文提出的WRT-SAM框架,如图1所示,主要由三个部分组成:一个可适应的图像编码器、一个频率 Prompt 生成器和一个多尺度 Prompt 生成器。最终,这些信息被汇总并注入到冻结的 Mask 解码器中,共同生成最终的分割 Mask 。

picture.image

3.2. Frequency Prompt Generator

FcaNet[25]网络通过使用离散余弦变换(DCT)从频率域通道信息中提取特征,展示了在增强现有模型进行目标检测和实例分割任务方面的出色性能。这对于像X射线检查图像这样的灰度图像尤其有利,频率域的信息可以帮助区分低频内容(通常是主要主题)和高频内容(通常为噪声或细部),从而增加与缺陷相关的信息的突出性。因此,作者在WRT-SAM网络架构中的频率 Prompt 生成模块中集成了一个类似FcaNet的结构。

具体而言,原始输入图像 (X) 被划分为 patch,然后送入 DCT 层。在 DCT 层中,基于预定义的量化表首先推导出相应的滤波器。随后对分块图像进行二维 DCT 变换。变换后的图像再通过全连接层(FC 层)进行维度映射以提取频率信息。最后,将频率信息 (P_f) 编码生成频率 Prompt 词。

其中,

是输入图像,多光谱通道离散余弦变换(MS CDT)可以进一步表示为式 2 中的公式,

表示全连接层等映射函数,Conv2d 是生成频率 Prompt 的嵌入层。

其中输入

在通道维度上被分割成多个部分。记为

,其中

,且

需要能够被

整除。对于每一部分,可以计算得到相应的2D DCT结果为,

其中,

是与

对应的频率分量的 2D 索引,

,而

是二维离散余弦变换的基函数。

3.3. Multi-scale Prompt Generator

在作者WRT-SAM网络架构的多尺度 Prompt 生成组件中,SegNeXt[26]表明卷积注意力机制比Transformer中的Self-Attention机制更高效且更有效地编码上下文信息。这特别相关,因为焊缝射线照相检测图像中存在的缺陷尺寸范围涵盖了MS COCO[27]定义的小、中、大目标的多维范围。因此,网络必须具备稳健的多尺度特征提取能力。于是,作者引入了多尺度卷积注意力(MSCA)机制作为多尺度 Prompt 信息提取模块,并将其实现为图中所示的多尺度 Prompt 生成器。

具体而言,原始输入图像首先通过一个Dconv层融合局部信息,这里的Dconv指的是深度卷积。随后,采用多分支深度卷积来捕获多尺度上下文信息。最后,应用一个

卷积来整合不同尺度通道的信息,从而获得最终的多尺度 Prompt

。上述过程可以定义如下:

其中,

是输入图像,

表示元素-wise 乘法,Dconv 表示深度可分离卷积,

表示第

个分支。

是身份连接。在每个分支中,有两个深度可分离条形卷积,用于近似具有大核尺寸的标准深度可分离卷积。这里,每个分支的核尺寸分别设置为 7、11 和 21。

表示多尺度 Prompt 。

3.4. Loss Function

在训练WRT-SAM时,作者选择使用IOU(交并比)损失函数来计算预测值与真实值之间的偏差所导致的损失。公式如下:

其中,Intersec 和 Union 分别表示精度与 GT 的交集和并集。

unsetunset4. Experiment and Analysisunsetunset

为了验证所提出的方法WRTSAM的优势和泛化能力,该方法在两个数据集GDXray和作者的私有数据集上与多个最新段落分割方法进行了比较。

4.1. Datasets

GDcray [28] 是一个大型数据集,包含五个图像组,每个组都针对不同的应用场景(即铸件、焊接、行李、自然场景和设置)。焊接类别包含68张焊接射线照相测试图像,其中只有10张提供了官方的分割标注。作者将这10张图像称为GDXray-10,而其余的58张图像则命名为GDXray-58。

作者的私有数据集WRTD包含来自不同项目和设备的115张焊接射线照相图像。这些焊接使用了不同的材料和焊接工艺,并通过不同的检测方法获得了射线照相图像。这些因素导致数据分布的差异性,增加了在图像中检测焊接和缺陷特征的可见难度。

4.2. Evaluation Metrics

为了更好地验证所提出网络模型的性能,这里引入了一些评估指标来验证焊接缺陷位置的结果。

精确率(

)和召回率(

)是评价人工神经网络模型的重要指标,如式(8)和式(9)所示。

其中,

分别表示真阳性(True Positive)和真阴性(True Negative)。

分别表示假阳性(False Positive)和假阴性(False Negative)。

精确召回率曲线下的面积

:

值代表曲线下方的区域,比如精确率-召回率曲线,其范围在0到1之间。它可以直观地评估网络性能。

值越大,模型的性能越好。

IoU 也可以衡量预测区域与真实区域之间的相似性,正如公式 7 所示。

4.3. Implementation Details

为了训练作者的WRT-SAM,作者使用了AdamW优化器,学习率设置为0.0002,最小学习率为

,训练周期数为20。对于输入图像,作者保持了原始图像的高度,并通过宽度进行裁剪,使得GDXray数据集中的输入图像宽度均为640像素。

4.4. Comparison with State-of-the-art Methods

4.4.1. Comparisons on GDXray

如表1所示,作者使用GDXray数据集训练了模型,并将其与几个经典的先进分割算法以及一个基准算法进行了比较。作者的WRT-SAM模型在召回率和精度上分别达到了78.87%和84.04%,优于其他算法。此外,其曲线下面积(AUC)比基准算法高出了1.6%。这些结果表明,基于SAM的缺陷分割模型有可能超越现有的先进算法,并在焊缝射线照相检测图像分析中实现更好的性能。

picture.image

4.4.2. Comparisons on private dataset

为了证明作者提出的方法更适合实际应用场景,作者在包含115张图片的自建数据集上训练了模型,并将结果与U-Net

网络和 Baseline 方法的结果进行了对比。如表2所示,作者的方法召回率为79.61%,分别比U-Net

和 Baseline 方法高11.13%和2.18%。这对于实际生产场景中的焊缝质量管理工作具有重要意义。此外,尽管基于SAM的方法在IoU指标上表现不如U-Net

,但作者的WRT-SAM相比 Baseline 方法提高了2.38%,这证明了作者方法的有效性。

picture.image

4.5. Ablation Studies and Analysis

表3、表4、表5、表6和表7中的比较结果表明,提出的WRT-SAM方法优于基础SAM方法和 Baseline 方法SAM Adapter [19]。接下来,本文将从4个方面全面分析提出的WRT-SAM方法,以探究其优越性的背后逻辑。

picture.image

picture.image

picture.image

picture.image

picture.image

4.5.1. Role of the SAM adapter

本次实验旨在评估 SAM(Segmentation Anything Model)在焊接射线检测图像分割任务中的适应性。作者使用了 GDXray 数据集(GDXray-10)中焊接类别下带有官方缺陷标注的 10 张图像进行训练、验证和测试。利用基础 SAM 模型的“Segment Everything”模式,作者获取了分割 Mask ,并将其与官方的 GT 进行比较以计算精度指标。对于 SAM adapter,作者将数据集按照 8:2 的比例划分为训练集和验证集,在冻结基础模型的情况下,仅训练 adapter 组件。最后,作者在验证集上评估了模型的表现。实验结果见表3。与 Baseline SAM 相比,SAM adapter 在所有指标上均显示出显著改进,这证明了通过基于 adapter 的微调将 SAM 应用于焊接射线检测图像缺陷分割下游任务的可行性。

4.5.2. Infuence of frequency prompt generator

本实验旨在介绍频率 Prompt 生成器(FPG)模块,并评估其对缺陷分割性能的影响。作者继续使用之前提到的GDXray-10数据集进行训练和验证。在 Baseline 模型的基础上,作者将FPG模块整合进来,并通过调整对应的离散余弦变换(DCT)滤波器的基本函数的频率范围,选择出能够实现最优性能的DCT参数。具体的实验结果见表4。加入FPG模块后,模型的精确度、AUC和IoU均有所提升,而召回率略有下降。这主要归因于DCT是一个压缩过程,在此过程中会丢失一些图像细节。在全面比较所有指标后,作者选择了“top 1”模式参数(其中

均设置为0),应用于最终的WRT-SAM模型。

4.5.3. Impact of multi-scale prompt generator

本节的实验设置与对频率 Prompt 生成器影响的消融研究类似,旨在评估多尺度 Prompt 生成器(MSPG)模块对缺陷分割精度的影响。具体结果见表5。实验结果清楚地显示,在 Baseline 网络中加入多尺度信息作为 Prompt 并整合后,模型的整体性能得到了全面提升,突显了MSPG模块的积极影响。因此,作者在最终的WRT-SAM模型中保留了MSPG模块。

4.5.4. (Zero-shot) generalization analysis

本节的实验结果对于实际应用至关重要,因为它们评估了模型在未来场景中未知数据集上的泛化性能。作者使用GDXray-10作为训练集,并在GDXray-58和一个私有数据集上测试模型,以模拟模型在将来应用中可能遇到的未知场景。实验结果分别呈现于表6和表7中。在表6中,作者的WRT-SAM模型在四种模型中实现了最佳AUC性能,并且在召回率和精度方面均优于 Baseline ,特别是在召回率方面表现尤为突出,这对于识别与设备安全运行相关的缺陷至关重要。

表7展示了模型真正的零样本泛化能力,表明其在不同场景、设备、材料、焊接工艺和射线照相技术的数据上的表现。结果显示,与 Baseline 相比,作者的模型在召回率和AUC方面显著表现出色,尤其是在召回率方面,在实际应用中尤为重要。IoU略有提高,但精度仍然低于 Baseline 。此外,MSPG模块的零样本泛化性能总体较强,作者认为这归因于不同场景下缺陷大小的多样性。综上所述,WRT-SAM模型展示了增强的泛化能力,这对于其未来的广泛应用至关重要。

4.6. Visualization

作者分别在图2、图3和图4中展示了Ground Truth、Baseline和作者的WRT-SAM的测试结果,并进行了比较。

picture.image

picture.image

picture.image

图2中的可视化结果对应于“与先进方法比较”部分“GDXray比较”节中WRT-SAM和 Baseline 算法的验证结果,展示了在相对一致的数据分布下WRT-SAM的表现。总体而言,在图2的(a)至(f)行中, Baseline 算法和WRT-SAM均成功分割出了主要缺陷。此外,作者的方法在处理细节方面具有明显优势,能够识别对比度较低的缺陷,如图2(f)所示。然而,在图2(g)行中的缺陷中,由于缺陷与焊缝之间对比度极低, Baseline 算法和WRT-SAM均错过了某些检测。这也突显了未来研究中存在的改进空间。

图3和图4展示了WRT-SAM在GDXray10上训练并在GDXray-58和作者自己的数据集上进行评估的结果。这些结果与Ground Truth和Baseline算法的输出一同呈现,并对应于“消融研究与分析”章节中的“零样本泛化分析”部分。

在图3的(b)至(f)行中, Baseline 算法表现出不同程度的漏检现象,而作者的WRT-SAM成功地对主要缺陷进行了分割。这表明 Baseline 模型无法处理来自GDXray数据集且之前未见过的缺陷样本。尽管WRT-SAM生成了更多的缺陷分割 Mask ,但它仍然能够在具有稍微不同数据分布的图像上成功进行缺陷分割,这展示了模型的强大泛化能力。作者高兴地发现,在组(e)中,作者的WRT-SAM提供了比人工标注更详细的分割结果。未来的研究可以关注过滤冗余分割标注的方法。

图4中的结论与图3相似,唯一的区别在于测试数据来自于一个完全不同的数据集。对于完全陌生的数据, Baseline 模型有更多的漏检情况,而作者的方法则提供了有效的分割结果,捕捉到了正确的答案,进一步证明了作者模型的零样本泛化能力。

unsetunset5. Conclusionunsetunset

总之,射线检测对于识别焊接缺陷和在工业应用中评估质量至关重要,这是因为其非破坏性和直观的成像特性。在过去十年里,机器学习在射线图像中的焊接缺陷识别方面取得了显著进展。然而,当前的方法依赖于在单一场景数据集上训练的小型专业化模型,这限制了它们在跨场景泛化的表现。预训练的SAM基础模型在大规模数据集上训练,展示了出色的零样本泛化能力,并在微调少量下游数据后,已显示出在医疗图像分割和异常检测等任务上的前景。

本研究介绍了首个基于SAM的通用焊缝射线检测图像缺陷分割模型。基于此研究及相关工作,作者提出的方法和模型有望克服现有焊接缺陷分割模型在实际应用中泛化不足的局限性。

为了提高模型对灰度焊缝射线图像的适应性,作者引入了一个频率 Prompt 生成模块,增强了模型对频域信息的关注。此外,作者还增加了一个多尺度 Prompt 生成模块来应对焊接缺陷的多尺度性质,提高了模型在不同尺度下提取和编码缺陷信息的能力。实验结果显示,WRT-SAM模型在召回率方面达到了业界领先的性能,

unsetunset参考unsetunset

[0]. WRT-SAM: Foundation Model-Driven Segmentation for Generalized Weld Radiographic Testing .

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
边-边协同下的边缘智能应用平台 | 第 11 期边缘云主题Meetup
《边-边协同下的边缘智能应用平台》谢皓|火山引擎边缘云边缘智能负责人
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论