点击下方卡片,关注
「AI视界引擎」
公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
云分割是指将图像中的云像素与非云像素进行分离。目前用于云分割的深度学习方法存在三个问题:
(a)由于卷积核固定大小导致的感受野受限;
(b)对不同场景缺乏鲁棒性;
(c)需要大量参数且实时实现受限。为了解决这些问题,作者提出了一种双动态U-Net(DDUNet)用于监督云分割。DDUNet遵循U-Net架构,并集成了两个关键模块:动态多尺度卷积(DMSC),提高在不同感受野下的特征融合;以及分类层中的动态权重和偏置生成器(DWBG),以增强泛化能力。
更重要的是,由于使用了深度卷积,DDUNet是一个轻量级网络,在SWINySEG数据集上仅用0.33M参数就能达到95.3%的准确率,且在三个不同配置的SWINySEG数据集上,无论是准确率还是效率都表现出优异的性能。
作者的代码已在以下链接公开:https://github.com/Att100/DDUNet。
云信息分析对于气象学研究来说是必要且重要的。云的分布或形态可以反映可用于学习天气和生成高级预测的特定信息。通常,气象卫星在近地轨道上拍摄云图,但近年来,由于它们在时间和空间分辨率上的优势,地面天空相机[1, 2]已被广泛使用。这些天空相机捕获的光学RGB图像的多个数据集已发布给公众,包括SWIMSEG[3]、SWINSEG[4]和SWINySEG[5]。随着深度神经网络的发展,气象学中的云分割技术也得到了进一步发展。许多基于全卷积网络(FCN)[6]和特征金字塔网络(FPN)[7]的结构被用于云分割,这些结构包括一个 Backbone 编码器和一系列特别设计的解码器。然而,近年来,随着移动设备和嵌入式系统的发展,对一种轻量级且高效的模型的需求日益增长,这种模型能够在这些设备上实时进行分割。许多先前的研究工作表现出色,但它们通常具有较大的模型尺寸,这使得实时推理变得困难。
本文介绍了双动态U-Net(DDUNet),它以U-Net作为基本架构,并提出了动态多尺度卷积(DMSC)。在DMSC中,采用具有不同膨胀率的多个深度卷积,以增加接收场和特征提取能力,而不需要过多的参数。此外,作者还引入了动态权重和偏置生成器(DWBG)用于作者的解码器,以提高泛化能力。作者对DDUNet在SWINySEG数据集的白天、夜晚以及昼夜三种不同配置下进行了评估,证实了其有效性。
云图像分割方法可以大致分为传统方法[8, 9]和深度学习方法[5, 10]。传统方法,如Dev等人[9]的方法,利用颜色特征、固定卷积滤波器和模糊聚类进行PCA分析,以突出云与天空之间的颜色差异。虽然这些方法在捕捉整体分布方面有效,但往往缺乏细节,导致分割精度较低。深度学习方法显著提高了分割性能。Dev等人[5]引入了CloudSegNet,这是一种基于全连接神经网络(FCN)的二值云 Mask 方法,后来扩展到多标签分割[10],将图像分类为薄云、厚云和天空。
Shi等人[11]提出了CloudU-Net,将U-Net与条件随机场(CRFs)结合进行精细分割,并通过扩张卷积增强了感受野。CloudU-NetV2[12]通过注意力机制优化空间和通道特征,并使用RAdam优化器实现了更好的收敛。最近,Li等人[13]引入了UCloudNet,利用U-Net的残差连接和深度监督进行增强训练。遥感领域的最新研究,如基于超像素的聚类高光谱图像方法[14]和无人机图像的实时分析[15],也强调了在现实应用中轻量化和可扩展的学习型模型架构的重要性。
在本章节中,作者将深入探讨人工智能系统的核心架构设计。这包括系统组件的配置、数据处理流程以及算法的集成。通过对架构的优化,作者可以提升系统的性能、可扩展性和鲁棒性。以下是架构设计的关键要素及其在人工智能系统中的应用。
DDUNet构建于U-Net [16] 架构之上,包括一个 Backbone 编码器和四个具有每阶段通道级联的解码器,如图1a所示。许多计算机视觉研究采用集成了CNN的编码器-解码器架构来编码2D图像数据 [17-19]。编码器-解码器模型架构在自动驾驶 [20]、医学成像 [21, 22]、显著性目标检测 [23, 24]、推荐系统 [25, 26] 和机器人技术 [27-31] 中得到了广泛应用。
在作者的工作中,为了提高特征提取效率,编码器(图1a中的绿色虚线区域)包含四个动态多尺度卷积(DMSC)块和四个步长为2的卷积层,生成尺寸为
、
、
和
的特征图。在解码器中,四个块逐步将特征图从(H, W)上采样到(2H, 2W),同时减少通道数。每个块由两个逆残差 [32] 块和一个上采样层组成。解码后的特征图通过动态卷积层,这些卷积层的权重和偏差由动态权重和偏差生成器(DWBG)生成。最后,利用最后三个阶段的预测进行深度监督,以加速收敛。
(a) DDUNet模型的架构。本图中省略了子模块的结构。
这些子模块的结构如图2所示。在图2(a)中,作者使用深度卷积层、批量归一化层和ReLU激活函数来构建一个DwConv块,以实现动态多尺度卷积2D(DMSC)。深度卷积层意味着卷积层的组数等于输入通道数,利用组卷积来降低计算复杂度。图2(b)展示了卷积块的结构,在DDUNet中作者同时使用了
和
的滤波器。图2(c)展示了倒残差[32]的结构。作者在解码器中使用了倒残差块,以进一步减少推理时间。
作者提出动态多尺度卷积2D(DMSC),如图1b所示,通过动态聚合不同尺度的特征来增强多尺度特征提取。传统的
或
卷积具有有限感受野,这阻碍了小物体特征的提取。扩张卷积通过引入间隔( Shortcut )来扩展感受野,从而解决这个问题。DMSC利用四个扩张率来提取不同尺度的特征。与使用不同扩张率的ASPP[33]和采用不同 Kernel 大小的PSP[34]类似,DMSC提升了上下文聚合能力。在作者的设计中,一个
卷积块将输入特征映射到一个新的空间,随后分为五个分支。第一个分支应用自适应平均池化,将特征图从(B,C,H,W) Reshape 为
,再转化为(B,C)。
然后,作者使用一系列线性层来学习一个权重向量,该向量将被应用于四个多尺度特征图,其表达式可以表示为:
将softmax激活函数应用于检索权重向量
。
之后,作者将多尺度扩张的DWConvs应用于
,其可以表示为:
在本文中,
表示经过以
为膨胀率的卷积后的特征图。随后,作者将权重向量
应用于
,其形式如下:
表示聚合特征图,
表示将应用于特征图
的权重元素。随后,作者使用一个
卷积块来提取特征,记为
,其表达式为:
最后,作者借鉴了PSPNet [34]的灵感,应用了一条捷径连接以及一个
卷积。
图2:DDUNet中使用的基本构建模块。(a)具有
滤波器的DWConv模块;(b)具有
或
滤波器的卷积模块;(c)不带膨胀率的逆残差[32]。
在大多数语义分割模型中,预测时通常使用一个具有固定权重和偏差的单一Conv2D层,这可能会限制泛化能力。为了解决这个问题,作者实现了一个动态卷积层,其中包含一个动态权重与偏差生成器(DWBG),如图1所示。DWBG通过处理编码器和解码器特征图来为每个输入定制权重。这些图通过自适应平均池化进行压缩,沿通道轴连接,并 Reshape 为
。随后,两个线性层生成卷积操作的权重和偏差。生成的权重形状为
,其中
和
分别是输入通道和输出通道。
作者采用二元交叉熵作为损失函数,总损失函数可以表示如下:
在本研究中,
和
分别表示预测图中第
个像素的预测值和标签。
表示预测图中的像素总数。
代表第
个解码器块的损失值权重。在作者的方法中,作者根据经验设定
、
和
。
作者遵循[38]的方法,将SWINySEG数据集(包含6078张白天云图和690张夜间云图)按照9:1的比例分为训练集和测试集。批次大小为16,模型训练100个epoch。作者使用Adam优化器,初始学习率为1e-3。在每个训练epoch后,应用指数衰减学习率,衰减率为0.95。作者使用四个广泛使用的指标来评估作者的模型:准确率、精确率、F值和MloU。
作者对比了 Baseline 模型(轻量级U-Net,参数量为0.32M)、DDUNet和真实情况下的预测结果,如图3所示。前六列是白天图像,后六列是夜间图像。DDUNet生成的 Mask 更加完整(例如,第3列、第6列和第11列),正确地分割了 Baseline 模型漏掉的大块区域。它在小云块区域(例如,第1列和第3列)的表现也更好,并且在大型云 Token 区域减少了误报,从而提高了整体分割精度。
作者的方法的定量评估结果展示在表1中,其中显示了DDUNet与其他方法在白天、夜间和昼夜图像上的准确率、精确度、F度量以及MIoU。DDUNet仅有0.33M个参数,这使得它能够在计算资源受限的设备上实现极小的延迟运行。通过与当前最小的模型CloudSegNet [5]进行比较,该模型仅具有0.005M个参数,在昼夜分割上实现了89.6%的准确率,而DDUNet参数更多,但在同一分割上达到了95.3%的准确率。由于参数量低于0.5M,这两个模型在推理延迟上的差异可以忽略不计,DDUNet的进步得到了凸显。此外,与DDUNet性能相似的方法,如Deeplab V3+ [36]和CloudU-Net [11],都能达到95%的准确率,但DDUNet的参数数量仅为它们的1/9和1/100。
作者对模型组件和参数大小进行了消融研究,具体总结在表2中。一个轻量级的U-Net基准模型,参数量为0.32M,实现了93.0%的准确率和0.839的MIoU。将基准编码器替换为DMSCs后,参数量降至0.28M,同时准确率提升至94.8%,MIoU达到0.873。
增加DWBGs进一步将DDUNet的性能提升至95.3%的准确率和0.884 MloU。作者还通过调整超参数base_channels(在先前的实验中设置为8)来改变模型大小。将其降至4导致模型尺寸减小,而将其增至16仅带来有限的性能提升,这证实了base_channel取值为8时在性能和尺寸之间达到了最佳平衡。
在这篇论文中,作者提出了双动态U-Net(DDUNet)用于云分割,旨在在准确性和效率之间实现平衡。通过引入动态多尺度卷积(DMSC),DDUNet能够提取不同尺度的云块特征,并自适应地合并特征图。动态权重和偏置生成器(DWBG)自适应地生成最终分类层的权重和偏置,从而增强了在不同场景下的泛化能力。
值得注意的是,DDUNet使用的深度可分离卷积使其变得轻量级,在SWINySEG数据集上实现了高达95.3%的准确率,同时参数量仅为0.33M。
参考
[1]. DDUNet: Dual Dynamic U-Net for Highly-Efficient Cloud Segmentation .
点击上方卡片,关注
「AI视界引擎」
公众号