E-FPN 利用稀疏连接块和深度可分卷积,解决数据集不平衡问题 !

图像处理机器学习数据库

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

不平衡数据集在实际场景中是一个重要挑战。它们导致模型在代表类上的表现不佳,这在基础结构检查中是一个严重的问题。

本文介绍了增强特点金字塔网络(E-FPN),这是一种用于处理不平衡数据集中的沟渠和水管语义分割的深度学习模型。

E-FPN引入了稀疏连接块和深度可分卷积等架构创新来提高特征提取和处理目标变化。为了解决数据集不平衡问题,该模型采用了解构和数据增强策略。

在沟渠-水管缺陷数据集和基准航空语义分割无人机数据集上的实验结果显示,E-FPN优于最先进的方法,实现了平均交并比(IoU)的改进百分比分别为13.8%和27.2%,分别。

此外,解构和数据增强策略共同提升了模型的性能,使得IoU提高了约6.9%。提出的E-FPN为增强具有挑战性的多类实际数据集中的目标分割呈现了一个有前景的解决方案,其潜在的应用范围可以超越沟渠-水管缺陷检测。

I Introduction

计算机视觉通过使机器能够分析视觉数据,已经改变了许多行业。其中,语义分割是这个技术的关键方面,它可以将单个图像像素归类到预定义的类别[1,2]。这种能力对于基础设施维护特别是识别如排水沟和下水道这样的一些结构性元素至关重要。排水沟和下水道是重要的水利设施[3,4],它们需要定期检查以确定损坏情况,如裂缝、孔洞和结垢。传统的检查方法,如视频 Pipeline 检查,依赖于影像的手动审查,耗费时间,且容易出错[5]。自动化语义分割技术可以提高检查的准确性和效率。先进的计算机视觉算法可以及时发现缺陷并进行修复,从而提高基础设施的完整性和耐用性。

由于它们的形状、大小和环境条件的多样性,分割排水沟和下水道具有挑战性,尽管在语义分割方面有了进步,但准确地识别这些结构仍然具有困难[6]。许多缺陷的大小和细微的外观使得任务复杂化,需要模型能够捕捉到细微的细节,同时理解 Pipeline 的整体结构。因素如多样性外观、植被或杂质的遮挡以及不一致的照明条件可以显著影响当前分割模型的性能。

此外,公开可用的排水沟和下水道检查数据的稀缺性使得开发和测试有效模型的能力受到限制。这限制了在实际环境中遇到的多样化条件下训练能够很好地泛化的模型。

因此,作者在这里研究收集了一个专门的排水沟和下水道检查数据集,以应对这一空白。该数据集揭示了缺陷类型的显著不平衡,其中像裂缝或接头错位等常见缺陷被过度表示,而少见但至关重要的缺陷,如孔洞或塌陷,则被低估。这种不平衡可能导致模型在常见问题上表现良好,但在解决实际中较少但危急的结构问题时却力不从心。

解决这些问题对于 developing 可靠的自动化系统,用于基础设施检测和维护至关重要。有效的分割可以使缺陷的检测精确无误,确保及时的修复。

U-Net [15]、Feature Pyramid Network (FPN) [16]和 Vision Transformers (ViT) [17,18] 等深度学习模型已被用于语义分割任务。这些模型在一般分割任务上表现出良好的效果,但在面对排水沟和下水道的问题时,存在一些挑战。例如,U-Net和FPN可能在处理外观变化方面缺乏强大的适应力,而ViTs虽然功能强大,但可能具有计算昂贵和需要大量训练数据的特点。

近年来深度学习的进步为解决这些挑战带来了希望,特别是在改进FPNs(卷积神经网络金字塔特征抽取)[19, 20, 21, 22, 23]方面。FPNs采用多级特征图金字塔来捕捉不同尺度下的信息,从而改善了 Pipeline 和排水系统的特征提取,提高了对大管特征和小缺陷的检测能力。这种多尺度方法对于 infrastructure 检测至关重要,因为各种特征尺度必须准确识别。然而,虽然FPNs解决了多尺度问题,但在本质上他们并未解决实际世界 inspection 数据的类别不平衡问题。

为管理目标变化和解决缺陷检测数据不平衡问题,需要全面的解决方案。这包括适配现有网络结构进行地下基础设施检测,开发针对类不平衡的新损失函数,并实现先进的数据增强技术来代表较少出现的缺陷类别。这些创新对于创建强大的、可靠的自动化 Pipeline 和排水系统至关重要,从而提高维护效率并改善基础设施健康评估[24, 25, 26]。

在本文中,作者提出了一种增强的FPN(E-FPN),是一种用于不均衡 Pipeline 和排水数据集语义分割的新型架构。E-FPN 基于传统 FPN,通过引入改进信息流动和特征提取的稀疏连接块以及深度分之分离卷积来解决问题。

作者的工作有两个关键贡献:

  • 一种针对不均衡数据集的定制 E-FPN 语义分割架构:1. 作者引入了一个稀疏连接块以实现高效的信息流动。2. 作者使用深度分之分离卷积在不牺牲表示能力的情况下降低参数数量。这些架构创新降低了计算复杂性,同时保持了或提高了分割性能。
  • 探索并验证可用于减小数据不平衡和增强模型性能的技术:1. 作者通过将数据集划分为具有缺陷特性和样本分布较小、更均匀的子组来实现类别分解。这种策略允许模型更有效地学习和每个缺陷类型的特定特征。在训练完这些较小的子组后,作者使用集成学习技术结合他们的预测,使最终模型利用每个子模型的优势。这种方法增强了整体预测准确性,尤其是对于较少出现的类别。2. 作者使用数据增强来扩充和平衡数据集,增加多样性并确保在训练过程中各类缺陷得到公平的代表。

作者的分析表明,作者的方法在检测 Pipeline 和排水系统缺陷方面具有有效性。作者将在一个包含九类 Pipeline 图像的多样化实际世界数据集上测试作者的模型,这些 Pipeline 在材料、尺寸和方向上有所不同。为了评估其多样性,作者在一个具有独特挑战的基准无人机语义分割数据集上评估模型性能,该数据集由于不同的高度、视角和环境条件而具有变化多样的情况。E-FPN 模型在两个数据集上展示了极佳的表现和适应性,表明其潜在的在解决地下基础设施检测之外的真实世界语义分割挑战的能力。

本文结构如下:第二部分回顾了语义分割技术的演变,重点关注FPN及其应用的开发。第三部分详细介绍了作者的方法,包括作者提出的E-FPN架构的设计和实现。第四部分介绍了用于评估模型性能的Culvert-Sewer Defects数据集和Aerial Semantic Segmentation Drone数据集。第五部分讨论了用于平衡数据集的技术。第六部分概述了实现步骤和指标。第七部分提供了关于实验结果的分析和对最新方法的比较评估。最后,第八部分结论部分总结了作者贡献并提出了基础设施维护和安全方面可能的未来研究方向。

II Related Work

语义分割自深度学习技术的发展以来取得了显著的进步。本文提供了一个关于这些进步的全面回顾,特别关注FPN及其在基础设施建设验收中的应用,尤其是在涵洞和排水 Pipeline 的应用。

Evolution of Semantic Segmentation Techniques

语义分割的发展从早期基于手工特征和传统分类器的简单方法[27, 28],转变为更先进的深度学习方法。卷积神经网络(CNNs)的出现标志着一场翻天覆地的转变,使其能够更有效地实现像素级分类。这一演变中的一个关键里程碑是引入全卷积网络(FCNs)[29, 30],它使能够在任意大小的输入上实现密集预测,为后续的语义分割架构[31]打下了基础。在这些进步中,编码器-解码器网络如U-Net[32],自下而上、自上而下的网络如FPNs[22]以及利用自注意力机制捕捉长程依赖关系的ViTs[33]已逐渐在解决各种分割挑战中脱颖而出。

接着,作者将详细介绍每种网络类型:

Ii-A1 Encoder-Decoder Architectures and U-Net Variants

编码器-解码器架构(特别是在U-Net [32]中),极大地推进了语义分割领域的前沿。U-Net创新的 Short-Cut 使用有效地结合了低级和高级特征,这在医学影像等领域中表现得尤为有益,从而极大地提高了分割精度。

最近,U-Net的各种变体进一步提升了其性能。例如,苏等人在[34]研究中将卷积块注意力模块(CBAM)集成到了U-Net中。这一改进将通道注意力模块(CAM)和空间注意力模块(SAM)相结合,共同增强了网络关注有信息价值和突出空间区域的的能力,从而提高了全局语义理解和局部细节捕捉。

进一步提升包括唐等人提出的注意力稀疏卷积U-Net(ASCU-Net) [35]。ASCU-Net引入了一种三部分注意力机制,它结合了注意力门(AG),空间注意力模块(SAM)和通道注意力模块(CAM)。这种方法针对重要的结构,强调了关键的空间和通道信息,从而在各种领域中实现了最先进的分割精度。

Ii-A2 FPNs and Multi-Scale Feature Representation

自下而上和自上而下(Bottom-up top-down)的网络,如FPN,在目标检测和语义分割任务上展示出其广泛的适用性。FPN通过构建一个具有不同分辨率的特征图层级的金字塔,解决多尺度特征提取的挑战。通过在不同的尺度上集成上下文信息,FPN能够实现更为强大和精确的分割。其利用自下而上和自上而下的两种途径进行特征融合,允许在不同抽象 Level 上实现有效的特征融合,这使得FPN非常适合在规模和方向上变化显著的任务,如复杂的场景语义分割或作者案例中的 Culvert 和 Sewer Pipe 缺陷检测。

FPN 通常利用预训练的底层网络。张俊逸等人 [22] 将 FPN 应用于目标检测,使用 ResNet Backbone 网络从输入图像中提取分级的特征。FPN 的自下而上路径从对 ImageNet 数据集 [36] 上预训练的标准 ResNet 架构开始。ResNet 在各种尺度上生成特征图。这些特征图然后通过自上而下的路径进行处理,通过从金字塔较高层次上下采样空间较粗糙但语义较强的特征图,获得更高分辨率的特征映射。

自下而上和自上而下的途径的集成允许在不同抽象 Level 上实现有效的特征融合。这使得 FPN 能够在输入数据中捕捉到全局上下文和细微的细节,使其非常适合在规模和方向上变化显著的任务,如复杂的场景语义分割或作者案例中的 Culvert 和 Sewer Pipe 缺陷检测。

Ii-A3 ViT

VILTs是一种新颖的图像处理方法,与传统的卷积神经网络有所不同,由Dosovitskiy等人引入[33]。VILTs将自然语言处理中的自注意力机制应用到视觉数据上,使其能够有效地捕捉图像中的长程依赖关系和全局上下文。尽管VILTs在理解整体图像特征方面表现出色,但通常需要庞大的数据集以获得最佳性能,且计算资源需求较大。

此外,Swin Transformers通过合并分级的特征和基于窗口的局部自注意力,增强了VILTs的模型。这种设计提高了效率和可伸缩性,克服了标准VILTs的局限性。通过在多个阶段中使用错位窗口方案,Swin Transformers能够同时捕获多尺度的特征,同时保持计算效率。

Swin Transformers的层次结构有效地处理了各种物体尺度和特征分辨率,使其特别适合处理复杂的任务,如语义分割。Swin Transformers能够捕捉到局部和全局特征,以及对大规模数据的有效处理,使其在基础设施检查任务中具有前景。其在分割任务的表现,包括涉及多样化和复杂的特征的分割任务,表明在 Pipeline culvert 和 sewer 缺陷检测等应用中可能具有潜在优势。

Research gap and motivation

EDNs在语义分割方面有效,但难以处理不同物体的尺度变化。FPNs在处理多尺度物体方面表现出色,但可能无法像EDNs那样有效地解决类不平衡问题。FPNs也具有较高的模型复杂度。ViTs具有良好性能,但也存在自身的一组缺陷。它们通常需要大量的计算资源和广泛的培训数据,这在小型数据集中具有挑战性。此外,ViTs可能由于缺乏固有的归纳偏见,在需要高空间分辨率的任务中,难以处理细微细节和局部特征,这会阻碍其性能。

作者的地下 Pipeline 系统缺陷数据集因其固有特性、多样性和类不平衡而具有独特的挑战。类不平衡对EDNs和FPNs的性能产生了负面影响。一个在精确局部化方面表现突出的EDN可能会在处理多样物体重级方面遇到困难,而FPN则可能因为其可伸缩性的原因,对过度表示的类别产生偏差。同样,尽管ViTs具有前景,但其高计算需求和细粒度细节方面的潜在问题使其在特定情况下不太适用。

领域中包括小结构缺陷、 Pipeline 材料和大小变化以及高度不平衡的缺陷类别等挑战,需要采用专门的方法。现有的解决方案在语义分割和解决数据不平衡方面取得了进展,但还没有适用于地下基础设施检查的定制解决方案。

鉴于这些限制,直接应用现有的EDN、FPN或ViT架构并不适合作者的数据集。作者需要探索能够在不增加计算负担的情况下提高物体分割并管理类不平衡的方法。作者的工作引入了一种专门设计用于地下 Pipeline 系统缺陷分割的E-FPN。E-FPN采用了增强的块,降低了复杂性以实现高效的尺度突变特征提取,并集成了受到最近注意力机制进步启发而进行架构改进的方法。这种方法解决了缺陷的多尺度性质,并努力开发一个更健壮、更精确的分割模型,以适应地下基础设施检查的需求。

III Proposed method: E-FPN

本文介绍了E-FPN,这是作者为沟渠和排水 Pipeline 检查提出的语义分割架构。作者描述了E-FPN的结构和关键技术,然后进行详细的工作,这研究量化了每个结构修改的影响,并用实证证据支持作者的设计选择。E-FPN在传统FPNs的坚实基础的基础上构建,并采用了针对该领域特有困难进行创新优化的增强方法。E-FPN的结构围绕两个核心组件:

  1. 自下而上的路径 自下而上的路径构成了作者的E-FPN架构的基础,如图1中的蓝色虚线框所示。这条路径通过一系列卷积运算和下采样阶段从输入图像中提取多尺度特征。

picture.image

为提高自下而上路径在检查沟渠和排水系统中的缺陷的有效性,作者实现了几个关键设计修改。具体来说,作者将标准的自下而上的路径层替换为自定义的Inception类似的模块,如图1中的绿色虚线框所示。这个自定义模块集成了和过滤器以及并行最大池化层。作者选择这些过滤器大小的动力学由沟渠和排水图像的特点驱动。过滤器捕捉了如细纹裂痕或早期腐蚀等微小细节和纹理。这有助于检测结构问题的小尺寸异常。更大的过滤器帮助捕捉更大规模的缺陷,如接头错位和显著变形,并提供更大的感受野。

此外,作者在与传统Inception块相比多2个额外的空间检测层。这些层增强了模型学习并将针对沟渠和排水缺陷学习与定位更复杂的精确特征的能力,提供更强大的多尺度特征表示。这对于检测不同大小和外观的缺陷,如摄像头距离和角度的变化,特别有用。

额外的层改进了反向传播的梯度流动,从而更好地学习识别结构异常所需的细微特征。这种调整为作者的自定义Inception类模块有效地解决了沟渠和排水缺陷检测的挑战,使不同尺度和缺陷类型的精确诊断分析更加准确。

在整个路径中,作者使用深度可分卷积层来在不损失性能的情况下减少参数数量。该路径从64个卷积层开始,每个最大池化操作后翻倍,在捕捉越来越复杂的特征的同时保持可管理的参数数量,并平衡网络容量和效率。

  1. 自上而下路径(Top-down pathway):**如图1中的橙色虚线方框所示,自上而下路径通过上采样和特征融合来创建更高分辨率的图像,以增强底层过程。这种方法保持空间细节,允许精确的缺陷定位。该路径是用深度学习、计算机视觉和信号处理原理设计的,尤其是用于检查涵管和排水管。

自上而下路径的关键方面包括:

  • 特征融合:路径从底层的1x1卷积上采样到128通道,每个previlaged层上采样到2倍,并合并相应的底层上采样特征图。这种融合低级和高级特征,对精确语义分割至关重要。1x1卷积层降低维度同时保留关键信息,上采样恢复下采样过程中丢失的空间细节。
  • 反抖动缓解:为了保留细微细节和尖锐过渡,所有合并层应用3x3深度可分卷积。这种方法在上采样过程中缓解了反抖动效应,并确保了最终分割输出的高保真度。3x3深度可分卷积作为可学习的反抖动滤波器,有效地消除了高频噪声。
  • 一致的输出配置: 所有输出特征图上共享一个通用分类器,保持128维的输出通道配置。这种均匀表示有助于最终的分割任务,并保证无论尺度变化,缺陷识别始终一致。这种方法促进了按比例缩放的信息学习,这对于在不同摄像距离进行精确的缺陷检测至关重要。
  • 高效的 upsampling: 在upsampling过程中,深度可分卷积确保计算效率同时生成高分辨率特征图。Chollet [38]在Xception架构中证明了这一设计原则,可以实现细粒度分割而不会显著增加计算开销。

自顶向下的路径整合了特征融合,覆盖了抽象 Level ,从而改善了网络捕获全局上下文和细粒度细节的能力。这在culvert和污水检查中非常有用,因为它促进了准确的语义分割。E-FPN通过将架构创新与数据平衡策略(见第五节)相结合,为这些检查提供了强大且高效的可语义分割解决方案,确保了常见和罕见缺陷类型的准确分割。

Progressive Enhancement of FPN Architectures: A Path to E-FPN

本节详细探讨了针对特征提取和表示的各个方面对原始FPN所做的修改,以及这些修改如何使模型得以进化到作者提出的E-FPN。

  • 原始FPN与ResNet Backbone 网络: 基础模型使用原始FPN架构并带有ResNet Backbone 网络。该模型成为评估后续修改的参照点,为性能比较提供了一个基础。
  • 带空洞(dilated)卷积的FPN: 作者试图通过使用空洞(dilated)卷积来增强FPN架构,以扩大感受野范围而保持空间分辨率。空洞卷积在[39]中的DeepLab模型中,通过增强多尺度上下文理解来提高语义分割。然而,作者的实验并未显示集成空洞卷积与FPN显著提高性能的结果。这一意外的结果可能源于空洞卷积与FPN之间的兼容性问题,或者是由于特定于数据集的因素,这些因素并没有充分利用该技术的优点。
  • 带注意力门(Attention Gates)的FPN: 注意力门(AGs)被集成到FPN中,以增强特征优先级。Oktay等人[40]提出的AGs可以动态强调重要区域而抑制不相关区域。这种机制增强了模型区分重要特征和琐碎特征的能力,从而提高了分割性能。注意力门通过学习权重来适应地突出特征图中的相关特征,指导网络聚焦信息丰富的区域而忽略噪声。在作者的实验中,将注意力门集成到网络路径明显提高了关键特征的识别和分割的准确性。强调关键区域并抑制不常用的信息导致了更精确的分割,特别是在复杂和杂乱的场景中。这种方法在改善FPN用于划分沟渠和排水管缺陷的性能方面是有效的。
  • 带自注意力机制的FPN: 作者探索将自注意力机制集成到FPN架构中,灵感来自于Transformer模型的成功[41]。自注意力允许网络优先考虑相关输入部分,捕捉远程依赖关系和全局上下文。尽管自注意力在增强特征关系和上下文理解方面具有潜力,但作者实验并未显示显著的性能改进。这种有限的影响可能是由于增加了计算需求或者特定于数据集的特征,这些特征并没有充分利用自注意力的优点。虽然在其他情况下具有 promise,但自注意力的效果对作者特定的分割任务要低得多。
  • 增强型Squeeze-and-Excitation (SE)模块: 增强型Squeeze-and-Excitation (SE)模块是一种注意力机制,通过自适应重标定改进了通道特征响应。它将特征图压缩为通道描述子,总结每个通道的全局信息。然后,该描述子重新标定特征响应,强调重要特征,抑制不太相关的特征。通过捕获通道间的依赖关系,SE模块增强了网络对关键特征的关注度,从而提高整体性能[42]。作者将增强型SE模块 [43]集成到作者的特征提取路径中。这种版本包括一个可学习的重标定速率,进一步优化了动态重标定过程。整合的目的是提高自下而上和自上而下通路的通信量。这些SE模块根据学习到的注意力图,动态重新标定通道特征响应,显著增强了特征表示和分割准确性。这种改进证明了增强型SE模块在改进特征提取和产生更精确的分割结果方面的有效性。
  • FPN与Inception和残差模块: 将Inception模块和残差连接整合到模型架构中,显著增强了多尺度特征提取并支持训练更深层的网络[44, 45]。Inception模块同时捕捉多个尺度的特征,而残差连接缓解了梯度问题,导致性能和鲁棒性得到显著改善。在这个实验中,作者将FPN的自下而上和自上而下通路块替换为具有残差连接的Inception模块。新的模型显示比原始FPN提高了10%。在这个实验中,作者将FPN的自下而上和自上而下通路块替换为具有残差连接的Inception模块。新的模型在原始FPN上实现了15%的提升。
  • FPN与因子化的Inception模块: 为了简化之前的实验,作者使用了因子化的Inception模块,该模块通过将大的卷积分解为较小、更易管理的过程优化[46]。这种修改实现了计算负荷和模型性能之间的平衡权衡,从而在原始FPN上取得了显著改进。
  • FPN与因子化卷积: 在模型中增加一个因子化卷积旨在增强模型的特征提取能力,扩展感受野,从而捕获和处理更多的特征[47]。这种调整成功地提高了模型的特征提取能力,从而提高了整体性能。因子化的Inception模块改进了网络性能,超过了原始FPN。然而,使用非因子化的Inception模块在性能上超过了因子化的版本。
  • FPN与额外的层: 将额外添加的1x1层设计用于在保持计算效率的同时进一步优化特征表示。这一增强促进了特征提取和模型效率,提供了对输入数据[47]更精确和细微的分析。然而,作者的实验表明,将额外层添加到块中导致了性能至少下降10%。
  • E-FPN( proposed 模型): 从这些实验中,作者观察到,引入多尺度块(如 Inception 块),显著提高了 FPN 的性能,但同时也增加了计算开销。基于这一观察,作者开发了作者提出的 E-FPN 模型,该模型将高级多尺度块与降低复杂性的设计相结合,如上文所示。

这项研究揭示了,尽管对 FPN 架构的几个修改有助于性能提升,但是结合先进特性和优化的 E-FPN 模型,对语义分割任务的精度和鲁棒性提供了最大的提升,所有这些结果都在第七节 C 中详细描述。

IV Datasets

本节分为两个子节。第四节A描述了创建涵洞-下水道缺陷数据集的过程,而第四节B讨论了用于评估模型准确性的空中语义分割无人机数据集基准。

Culvert-Sewer Defects Dataset

在本小节中,作者详细阐述了源视频的获取和预处理过程,包括各种缺陷实例。作者还概述了用于创建语义分割精确真实 Mask 的像素级标注策略,最终构成了作者的6,300张图像的数据集。该过程如下:

Iv-A1 Data Collection and Class Importance Weights

作者从两个来源收集了580个标注的视频,分别是美国陆军工程司令部(USACE)和一个产业伙伴。这些视频涵盖了涵管和污水 Pipeline ,并包括各种实际条件,推出了材料、形状、尺寸和成像环境的差异。这种多样性为作者提供了一个全面的典型检查场景的代表。

经验丰富的技术行人报告了大部分视频,通过类型和位置识别涵管或污水 Pipeline 的缺陷。这种精确报告促进了作者的任务识别和标注过程。一名专业土木工程师为每种缺陷类赋予权重,根据美国的行业标准,反映了其经济和安全影响。这些权重在学习过程中进行了归一化,以建立优先级,如表1所示。这些类权重(CIW)用于使用频率加权交点与 Union(FWIoU)度量标准测量每个缺陷的严重程度。该数据集涵盖了涵管和污水 Pipeline 中发现的各种材料、形状和测量,反映了实际检查。这种多样性面临着集成各种来源和结构的数据的挑战。

picture.image

Iv-A2 Pixel-Wise Annotation for Semantic Segmentation Task

作者通过将每段视频在 Pipeline 和污水 Pipeline 检查影像的关键分类点上以4至10秒的间隔分割为帧,构建了作者的数据集。在手动标注过程中,作者参考检查报告来识别每个缺陷的位置和类型,并根据美国海军船舶与海洋管理局的 Pipeline 评估认证计划(PACP)指南[48]依据像素逐一特定颜色进行标注。没有缺陷的帧被舍弃。

每一条标注都精确到视频的秒数,并链接到一个特定的缺陷类别。此外,每一条标注的 Pipeline 位置也被记录下来。最终的数据集包括约6,300个标注帧,涵盖了表1中列出的所有缺陷,如图2所示。

picture.image

如图所示,作者的数据集显示出明显的类不平衡,例如,裂缝的出现频率高于其他缺陷,如根瘤。这种不平衡为建模带来了挑战,这也是数据集的关键特征之一。

Aerial Semantic Segmentation Drone Dataset

空域语义分割无人机数据集旨在提高自主无人机飞行的安全性。该数据集涵盖了从5到30米高空拍摄的高分辨率图像,每张图像尺寸为6000x4000像素。数据集被分为400张训练图像和200张测试图像。其中包含了树、草、土、水、人、车和障碍物等22个类别的像素精确标注。此外,该数据集还提供了高分辨率RGB图像、鱼眼立体图像、 Heatmap 像以及特定场景的3D GT 数据。尽管该数据集并未正式标注为基准,但其全面的标注和高清晰的图像类型使其成为评估语义分割模型的宝贵资源。

作者使用这个具有挑战性的数据集来展示模型的鲁棒性和效率,证实了其能够跨不同任务进行泛化并验证了其在实际应用中的有效性。

V Imbalance Handling Techniques

涵管-排水渠缺陷数据集表现出显著的类别不平衡,一些缺陷类型的样本数量明显多于其他类型,其中有些类别的样本数量为2,340个,而其他类别的样本数量则少至104个,如图2所示。这种不平衡对模型训练提出了挑战,可能导致训练出具有偏见的预测,特别是倾向于过代表的类别。在语义分割任务中,这样的不平衡可能导致泛化能力和准确率下降,尤其是对少数类别[50]。作者探索了两种技术来减轻这种不平衡对模型性能的影响:类别分解和数据增强。

Class Decomposition and Ensemble Learning

类分解用于解决不平衡问题,通过将多类分割问题分解为较小的任务。这包括根据每个类特征和样本分布将数据集分为组[51]。作者将数据划分为由每个类组成的三组,根据缺乏类型的特征和可用样本。例如,如果两个类具有相似的特征,例如裂纹和骨折,作者将它们分配到不同的组,以防止在模型训练过程中造成混淆。这样简化了模型的任务,并提高了它们的学习模式能力。

作者在较小平衡数据集上分别训练作者的E-FPN模型。训练后,作者使用集成学习技术组合预测。

集成学习是一种强大的方法,其中多个模型结合以提高总体性能。这种方法涉及训练多个模型,每个模型可能专注于数据的不同子集或特定类。集成学习的力量在于它能够汇总个体模型在这些单个模型中产生的多样见解和预测,从而提高准确性和鲁棒性[52]。

在作者的方法中,集成学习在利用多个模型的集体知识方面起关键作用。通过汇总他们的预测,作者可以显著提高模型的鲁棒性和泛化能力。这种技术有助于减轻单个模型的弱点,并提供了更可靠、稳定的性能,最终导致更准确和可靠的结果。作者使用整个测试数据集评估增强模型。作者的实验显示模型性能显著提高,验证了作者解决数据不平衡和提高预测准确性的方法的有效性。这些性能指标的详细结果将在VII节中呈现。

Data Augmentation and Sampling Techniques

数据增强是深度学习中的关键技术,可以提高模型性能,特别是在处理不平衡数据集时。通过为训练数据引入变化和多样化,数据增强可以帮助模型更好地泛化,并对实际场景更具鲁棒性 [53]。以下列出了主要的数据增强方法和它们对模型训练的影响:

  • 水平翻转:该技术涉及水平翻转图像,有效增加数据集大小,同时保持原始类分布不变。通过提供镜像图像,有助于模型更好地泛化。
  • 高斯模糊:在图像上应用高斯模糊可以引入平滑、模糊的效果。这可以减少对特定细节的过度拟合,并促使模型关注更通用的特征,从而增强其鲁棒性。
  • 颜色扰动:颜色扰动涉及随机调整图像的亮度、对比度、饱和度和颜色。这一过程可以增加数据集的多样性,并帮助模型学习对颜色变化不变的特征,从而提高其适应性。
  • 剪切:剪切图像,扭曲图像在某一轴上的图像。这一过程引入了物体的方向变化,有助于模型从不同角度识别物体。
  • 旋转:根据指定角度旋转图像,使模型暴露于各种物体方向,有助于它对未见过的视图进行泛化,并提高整体鲁棒性。
  • 随机噪声:为像素值添加随机变化模拟实际图像噪声。这种技术通过让模型暴露在噪声数据中,提高其在多样条件下表现更好。
  • 随机裁剪:随机裁剪图像的一部分可以迫使模型关注不同的兴趣区域,从而增强其局部化物体的能力,并提高检测准确率。

这些技术应用到训练集中的每个类别中,以确保一个平衡的代表。此外,对于具有2000个以上样本的类别(如联合问题类别),通过随机删除多余样本进行欠采样,以实现更平衡的类别分布。这种结合数据增强和策略性采样的方法对于提高模型性能和泛化能力至关重要。

Combining Class Decomposition and Data Augmentation

为提高模型性能,作者集成类别分解和数据增强技术。类别分解通过将具有相似样本数量的类分组到簇中来简化多类别分割问题。尽管如此,这些簇中仍可能存在轻微的不平衡。为了进一步增强每个簇内的平衡,作者应用了针对性的数据增强技术。在训练这些更平衡的簇后,作者使用集成学习结合预测,如V节详细说明的那样。这种结合策略确保每个簇从多样且平衡的训练示例中受益,最终导致模型性能和泛化率的提高。

作者分析结合策略显示了性能显著提高,证明了其有效性。图3说明了类别分解和数据增强的工作流程,展示了从数据集准备到模型评估的步骤。

picture.image

VI Experimental Setup

在本节中,作者描述了用于开发、训练和评估作者语义分割模型的方法论和参数。作者涵盖了优化策略、损失函数、评估指标等关键实现方面。

优化和损失函数在训练作者的语义分割模型时,作者使用了Adam优化器,初始学习率为0.001。Adam被选中,因为它在处理稀疏梯度和动态调整学习率方面效率高。使用的损失函数是类别交叉熵,通过最小化预测概率和真实标签之间的差异,适用于多类像素分类任务。

评估指标作者使用以下指标评估模型性能:

  1. 交集与并集(IoU):通过比较预测和真实分割 Mask 来衡量分割准确性。
  2. 频率加权交集与并集(FWIoU):通过使用CIW(IV-A1中提到的方法)来考虑类频用来解释FWIoU。
  3. F1分数:平衡精确率和召回率,对于不均衡的数据集有用的。
  4. 平均精确率:在处理不均衡的数据集时,对各个类别平均精确率。
  5. 马氏相关系数(MCC): 在偏斜的数据集中评估分类质量。

训练过程作者将模型在 Pipeline 与下水道损坏数据集和空地语义分割无人机数据集上训练100个周期。数据集被分成训练(70%),验证(15%),测试(15%)子集以评估泛化性能。还建立并行评估了 Baseline 模型。

硬件与软件训练使用NVIDIA T4 GPUs,使用Keras和TensorFlow进行,提供进行高效模型训练和评估所需的计算能力和工具。

VII Results

作者评估了E-FPN在最新语义分割架构上的有效性。此外,作者在Aerial Semantic Segmentation Drone数据集上测试E-FPN,以证明其对不同影像类型的鲁棒性和适应性。本节分为三个子节:子节VII-A提供了与最新模型全面的比较,包括定量指标和可视化。它强调了E-FPN在解决Culvert-Sewer Defects和Aerial Semantic Segmentation Drone数据集上的多尺度特征表示的有效性。子节VII-B讨论了数据不平衡缓解技术对模型性能的影响,详细阐述了类分解和数据增强的效果。子节VII-C呈现了详细的消融研究,分析了单个组件和架构修改对E-FPN性能的贡献。

Comparison with Baseline Architectures

为评估作者提出的E-FPN的效率,作者将它与几种最先进的语义分割架构进行了比较,包括原始FPN,U-Net,C-BAM增强U-Net,ASCU-Net和Swin Transformer,如表2所示。

picture.image

作者比较中的原始FPN模型是基于ResNet Backbone ,在ImageNet数据集上预训练以利用学习的特征,然后在特定数据集上进行微调以适应。这个调整过程使模型适合作者的数据集的特性和要求。

本实验中的Swin Transformer与UPerNet语义分割框架相结合。具体而言,“supernet-Swin-small”模型,由Hugging Face提供,将Swin Transformer与UPerNet的组件,包括特征金字塔网络(FPN)和金字塔池化模块(PPM)相结合。这种集成增强了模型捕捉多尺度特征和上下文的能力,从而提高了分割性能。Swin Transformer在ImageNet数据集上进行预训练,在此之前对其进行微调,用于语义分割任务。

作者在两种条件下评估了Swin Transformer模型:带预训练和无预训练。在无预训练条件下,作者将模型从零训练到作者的数据集。这使作者能评估预训练对Swin模型和原始FPN的性能的影响。

图4呈现了作者研究中所评估的模型与它们的重建能力的可视对比。U-Net和CBAM U-Net在准确重构图像方面存在局限性。尽管这些模型成功地识别出缺陷,但它们在代表细细节方面存在困难,导致重构不完整。相反,使用移动窗口自注意力机制的Swin模型在其输出中出现了视觉 artifacts。这些artifacts可能是由于Swin模型使用分层注意力方法捕获复杂细节的挑战。然而,作者的模型通过更有效地捕获和表示细细节,结果在culvert-sewer缺陷数据集上平均 IoU 提高了13.8%,从而显示出比其他模型更好的性能。图5显示了这些模型在culvert-sewer缺陷数据集上的验证图。

picture.image

picture.image

除了作者的主要评估之外,作者在无人机语义分割无人机数据集上测试了作者的提出的模型。在这个比较中,作者关注了三种 Baseline 模型:原始的U-Net,原始的FPN和作者提出的模型。这使得作者可以将作者的模型与现有的 Baseline 架构进行比较。如表3所显示,作者的提出模型在各种指标上始终优于原始U-Net和FPN。作者的模型比这些 Baseline 模型平均获得了27.3%的IoU改善,证明了它在不同数据集上的有效性和强大性能。

picture.image

图6说明,虽然所有模型的改进空间都很大,但作者的提出的模型通过持续超过 Baseline 模型,在性能上独树一帜。这在数据集的各种测试案例中得到了验证,其中作者的模型在准确分类和分割多种类别(包括树木、草地、泥土、水、人、汽车和障碍物)上表现出色。这个比较强调了作者的模型在管理复杂分割挑战方面的优越韧性和有效性,超越了原始U-Net和FPN模型。

picture.image

参考

[1].Imbalance-Aware Culvert-Sewer Defect Segmentation Using an Enhanced Feature Pyramid Network.

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论