点击下方卡片,关注
「AI视界引擎」
公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
裂缝检测是结构健康监测中的关键任务,旨在评估桥梁、建筑物和道路的结构完整性,以防止潜在的失败。基于视觉的裂缝检测已成为主流方法,因为它易于实施且效果显著。
将红外(IR)通道与红、绿、蓝(RGB)通道融合可以增强特征表示,从而改善裂缝检测效果。
然而,IR和RGB通道往往在分辨率上存在差异。
为了对齐它们,通常需要将高分辨率的RGB图像下采样以匹配IR图像的分辨率,这会导致细节损失。此外,传统的图像分割网络由于其有限的感受野和高计算复杂性而限制了裂缝检测性能。
受到最近提出的Mamba神经架构的启发,本研究引入了一种两阶段框架称为MSCrackMamba,该框架利用Vision Mamba结合超分辨率网络来解决这些问题。
具体而言,为了对齐IR和RGB通道,作者首先应用超分辨率技术到IR通道,使其分辨率与RGB通道匹配,以便进行数据融合。
然后采用Vision Mamba作为 Backbone 网络,使用UperNet作为裂缝检测的解码器。
作者的方法在大规模裂缝检测数据集Crack900上得到了验证,相对于最佳基准方法,mIoU提高了3.55%。
桥梁、道路和建筑物是至关重要的基础设施,需要定期进行结构健康监测,裂缝检测在确保其安全方面起着关键作用[1]。随着时间推移,诸如天气、地震活动以及普遍磨损等因素会逐渐损害这些结构的完整度,导致裂缝形成并带来显著的安全风险。早期且准确地检测这些裂缝可以及时进行维护,防止进一步损害,降低维修成本,并确保基础设施的安全。传统的裂缝检测方法通常依赖于人工检查,这种方式耗时且效率低下。随着深度学习技术的迅速发展,计算机视觉已在各个行业中找到了广泛的应用。因此,基于计算机视觉的自动化裂缝检测方法受到了研究行人的广泛关注。通过分析传感器采集的数据,基于深度学习的方法可以更高效且准确地评估结构状态[2]。
目前,采用深度学习网络分析视觉传感器收集的结构信息已经成为裂缝检测的最主流方法,这主要得益于其高效性和易实现性[2]。通过处理来自摄像头等成像设备的数据,深度学习方法可以有效地检测和评估裂缝。为了增强深度学习模型的裂缝检测能力,近年来融合红外(IR)通道和红、绿、蓝(RGB)通道显示出显著的潜力[3]。研究显示,IR通道提供的热信息能够有效提高裂缝检测的准确性[4]。
语义分割是解决裂缝检测问题的一个关键方法。它为图像中的每个像素分配一个唯一的标签,实现像素级的理解,并便于识别和定位图像中重要的特征,如裂缝 [5]。因此,语义分割能够精确地定位裂缝并清晰地界定其模式。
自卷积神经网络(CNNs)问世以来,语义分割取得了显著的进步。诸如U-Net [6]、DeepLab [7] 和全卷积网络(FCNs) [8] 等网络在各种图像分割任务中均实现了令人印象深刻的精度。这些网络设计旨在有效整合图像的浅层和深层特征,使其能够捕捉到精细细节以及高层语义信息。近年来,视觉 Transformer (ViT) [9] 的引入进一步提升了分割性能 [10]。ViT 将图像转换为一系列 Patch ,并对每个 Patch 应用多头注意力机制,这赋予了网络全局的感受野,从而增强了对图像上下文的理解。
尽管语义分割网络取得了显著进展,裂缝检测任务仍然面临诸多挑战。基于CNN的方法在处理不同尺度的裂缝时往往力不从心。这主要是因为CNN的感受野有限[11],使得网络难以捕捉形态复杂且尺度差异显著的图像中的详细和全局信息[12]。虽然ViT可以增强网络的全局感知能力,但由于其在计算Patch之间注意力时的二次复杂度,在处理高分辨率图像时会导致计算资源需求大幅增加,从而在训练和推理过程中效率较低[9]。
此外,在使用融合多光谱图像进行裂纹检测的背景下,一个常见挑战是RGB图像和红外图像之间的分辨率差异。由于传感器的特性,红外图像通常比RGB图像分辨率低 [4]。为了使语义分割网络能够正确处理多光谱数据,一种常用的方法是将RGB图像下采样至与红外图像的分辨率相匹配,从而将两种图像模态融合到一个多通道输入中,如图1所示。然而,这种方法会导致RGB图像细节的损失,这会负面影响裂纹检测的准确性。
为了应对这些挑战,本文提出了一种两阶段裂缝检测架构——MSCrackMamba,该架构结合了超分辨率方法和最近引入的Mamba架构[13]。在第一阶段,采用一种自监督的超分辨率方法对低分辨率的红外图像进行上采样,使得红外图像和RGB图像的分辨率相匹配。
然后将RGB图像和红外图像进行拼接,形成六通道输入。在第二阶段,选择了近期提出的Vision Mamba[14]作为 Backbone 网络,并使用UperNet[15]作为解码器,在六通道多光谱数据上进行训练。Vision Mamba提供了全局的感受野且具有线性复杂度,因此非常适用于从多光谱图像中进行裂缝检测[16]。
作者提出了一种两阶段的MSCrackMamba,这是一种新型范式,用于使用RGB和红外图像进行裂缝检测任务。
MSCrackMamba 是一个两阶段框架,用于裂缝检测,其整体架构在图2中示出。第一阶段的主要目标是调整RGB和IR通道的分辨率,同时保留RGB图像的细节点。第二阶段的目标是使用Vision Mamba对多通道多光谱数据进行语义分割。
如图2第1阶段所示,作者提出了一种超分辨率方法,用于将红外通道的分辨率提升到与RGB通道相同的水平。为了实现这一目标,作者选择了当前最先进的(SOTA)超分辨率网络Fusion-Net [17]。该网络基于细节注入,并利用深层卷积神经网络通过将 GT 图像与需要上采样的图像之间的差异作为输入来提高融合质量,从而有效地保留了细节。
作者采用自监督训练范式对红外图像进行超分辨率处理[18]。作者将传感器收集到的高分辨率RGB数据定义为
,并将低分辨率的三通道红外数据定义为
。具体地,作者首先对
进行下采样以获得下采样的
,然后应用一个超分辨率网络来对
进行超分辨率处理,并以
作为Ground Truth,从而得到训练好的超分辨率模型
。随后,作者使用
进一步对
进行超分辨率处理,得到
,使得
的分辨率与
匹配。获得分辨率与
对齐的
之后,作者将三通道的
与三通道的
拼接起来形成六通道的
,并将其作为后续语义分割网络的输入。
Mamba最初设计用于大语言模型[13],能够以线性复杂度进行全上下文理解。它基于状态空间模型(SSM),提供了一个强大的框架来捕捉序列数据中的依赖关系。与传统的递归网络不同,后者按顺序更新隐藏状态并且容易忘记之前的信息,SSM们保持连续的潜在状态演化,使得预测能够整合整个序列的信息。SSM的一般形式可以表示为:
其中,
表示潜在状态,
表示输入,而
定义了动态特性。为了适应离散输入,Mamba 利用了结构化序列状态空间(S4),采用了零阶保持离散化方法:
其中,
,
,
为采样间隔。这种离散化方法使得 Mamba 能够高效地处理序列数据。此外,Mamba 还包含一个门控机制,可以自适应地控制特定输入的传播或抑制,从而使模型能够专注于显著特征,同时减少计算开销。
基于ViT的概念,ViT将图像序列化为Patch,Mamba很快被adapted应用于视觉领域[14, 19]。其结构化的状态空间使得它能够进行高效的方向性扫描,从而在不需要依赖ViT所需的计算成本高昂的多头注意力机制的情况下学习Patch之间的位置关系。这一设计在多种应用中展示了强大的潜力,包括遥感[12, 20]。
如图2中第2阶段所示,作者将六通道的
数据作为输入传递给语义分割网络。作者采用了编码器-解码器架构构建网络,该架构在语义分割任务中广泛应用。使用了四个VisionMamba Block构建编码器,输入数据经历四次下采样。最新的UperNet [15]被用于构建解码器,该解码器能够从多层级特征重构分割图。
图3展示了VisionMamba块,这是一种具有 Short-Cut 的残差网络。一个分支采用线性映射并使用SiLU激活函数,而另一个分支则使用深度可分离卷积来提取信息。这些特征通过S6计算沿四个不同的方向进行扫描[13],然后将输出合并。
与ViT类似,VisionMamba将图像分割成Patch,并将每个Patch展平为一个序列。然而,与ViT不同,VisionMamba并未在Patch之间计算多头注意力。相反,VisionMamba采用了多方向扫描的方法来让Mamba架构学习图像Patch的空间位置信息。多方向扫描的示意图位于图3右下角,四个方向分别为从左到右、从上到下、从右到左和从下到上。在实际应用中,作者通常采用3像素大小的块进行分割。
作者选择了最近的一个大规模多模态裂缝检测数据集Crack900 [4]来验证MSCrackMamba架构。该数据集包含914张精细标注的砂浆结构裂缝的RGB和红外图像,这些图像是在中国苏州古城墙处使用FLIR E85红外相机拍摄的。红外传感器分辨率为
,而RGB传感器分辨率为
。数据集随机分为训练集(80%)和测试集(20%),生成了731张训练图像和183张验证图像。
作者使用mloU(平均交并比)指标来评估分割精度,该指标通过以下公式计算:
其中,
表示总的类别数,在裂缝检测数据集中通常为 2,包括裂缝和背景两类。
表示第
类的真正 positives 像素数,
表示第
类的假 positives 像素数,
表示第
类的假 negatives 像素数。较高的 mIoU 分数表明整体分割性能更好 [21]。
为了确保公平比较,作者的网络参数设置尽可能与介绍Crack900基准网络的文章中所使用的设置保持一致,详见表1。唯一的区别是作者将Patch大小从
增加到了
。这项调整是因为作者将红外通道超分辨率处理以匹配RGB通道的分辨率(
),从而使网络能够以更大的尺度裁剪。作者使用了数据增强技术以提升网络的一般化能力,包括随机翻转、随机旋转和随机裁剪。所有实验均在两块4090D GPU(每块24G)上进行,且每块GPU的批量大小为8。
作者在实验中采用了预训练-微调的方法以确保最佳的分割性能。这是一种在语义分割任务中常用的训练策略。该方法首先在大规模图像数据集上训练编码-解码结构,然后在此基础上对下游分割任务进行微调。通过预训练的编码器可以更有效地从图像中提取特征,从而提高下游任务的性能。
所有实验均重新训练以消除训练设备和参数的影响,确保比较公平。表2总结了实验结果。使用MSCrackMamba架构获得的mloU分数为
,相较于ConvNeXt-t与UperNet的最佳组合表现提升了
。这表明MSCrackMamba架构的有效性。
图4展示了可视化的分割结果示例,作者将MSCrackMamba与之前性能最佳的ConvNeXt和UperNet组合进行了比较。可以观察到,早期的方法出现了明显的假阳性错误(如图4(b)、(c)和(d)所示),以及假阴性错误(如图4(a)和(e)所示)。相比之下,MSCrackMamba架构在捕捉裂缝形状方面展现出了显著的优势,尽管偶尔仍会出现少量的假阳性错误(例如图4(e))。
在作者的消融实验中,作者旨在验证两阶段策略和/或预训练的有效性。在这项测试中,作者使用VisionMamba作为主干网络,并使用UperNet作为解码器。结果显示,在表2中所示,两阶段策略和预训练都对分割性能的提升有贡献。当它们结合使用时,与既未采用两阶段训练策略也未进行预训练的 Baseline 相比,mIoU提高了4.42%。由于基于Mamba的主干网络表现出色,即使未采用两阶段训练策略或预训练,分割结果仍然优于之前的成果。
ABLEII. 作者MSCrackMamba框架和其它比较方法在CRACK900验证集上的语义分割准确性。最高分用粗体标出。
表3. 在使用 MScrackMamba 框架对 CRACK900 验证集进行语义分割时,有无两阶段训练及预训练的准确性。最高分以加粗显示。
为进一步验证两种阶段策略在超过Mamba架构之外的有效性,作者还使用了基于CNN和ViT的架构进行了实验。实验结果汇总在表4中,结果显示,当采用两种阶段策略时,所有模型的分割精度均有显著提高。这进一步证实了两种阶段策略的优势及其普遍适用性。BiSeNet与UperNet的结合表现出最显著的增强效果,mIoU提高了4%。
表4.在CRACK900验证集上进行语义分割的准确度,展示了使用和未使用2阶段策略的结果。较高得分以粗体突出显示。
为了验证集成热成像(IR)图像的有效性,作者评估了VisionMamba-t和UperNet组合在多种输入数据变体上的性能,包括单独使用下采样的RGB图像( Token 为
)、单独使用原始分辨率的RGB图像
、下采样的RGB图像与原始分辨率的IR图像的组合
:以及作者提出的原始分辨率RGB图像与超分辨率IR图像的组合
。分割性能总结在表5中。可以观察到,集成超分辨率IR图像相比仅使用原始分辨率RGB通道提高了
5.84%。尽管原始策略
的表现不如作者提出的一阶段方法,但它仍然展示了集成IR图像的有效性。
表5. 使用VISIONMAMBA-T和UPERNET组合的各种输入数据在CRACK900验证集上的语义分割精度。最高分以粗体标出。
由于您提供的信息包含一个图片链接,而未提供具体的英文文本内容,我无法直接进行翻译。请您提供图片中的具体英文内容,我将根据提供的术语对照表帮您翻译成简体中文。
本文介绍了MSCrackMamba,这是一种针对多光谱图像裂缝检测的两阶段框架。第一阶段确保了多光谱通道之间的分辨率对齐,同时通过红外通道的超分辨率技术保留RGB通道的精细细节。
第二阶段实施了VisionMamba,使其具备线性复杂度,并更有效地捕捉多光谱图像中的全局上下文关系。
实验定量研究了每一阶段对增强裂缝检测的贡献。通过将超分辨率技术与VisionMamba网络相结合,MSCrackMamba在大规模多光谱Crack900数据集上取得了显著性能提升,相较于典型CNN和ViT基网络的最佳 Baseline 提高了3.55%。未来的研究方向包括:
更精确的超分辨率方法:当前的两阶段方法虽然实现了多通道分辨率对齐,但自监督的超分辨率过程可能会引入失真,导致特征对齐错误,从而影响分割准确性。未来的工作可以集中在提高超分辨率的准确性以解决这些问题。
轻量级 VisionMamba 主干网络:尽管 Mamba 的计算复杂度为线性,但 VisionMamba 主干网络仍采用了四个方向的扫描,这在计算上较为密集。
研究 [20] 表明减少扫描方向的数量对性能影响甚微。未来的研究可以探索轻量化设计策略 [28],例如像 Vision LSTM [29, 30] 那样交替扫描方向,从而提高架构的效率。
端到端训练:当前的两阶段方法操作上耗时较长。未来的研究可以探索能够同时训练分辨率对齐和语义分割的端到端网络,从而提高效率。
增强多光谱通道融合:在这项研究中,作者采用了六通道数据,并限制了其光谱分辨率。然而,在未来的应用中,可能会遇到更高的光谱分辨率,例如超光谱数据。在这种情况下,VisionMamba主干网络可能不再适用。因此,未来的研究应集中在优化多光谱通道的融合上,使网络能够根据每个通道的特点自适应调整权重,从而提高模型对复杂环境的适应性。
参考
[0]. MSCrackMamba: Leveraging Vision Mamba for Crack Detection in Fused Multispectral Imagery .
点击上方卡片,关注
「AI视界引擎」
公众号