即插即用模块 | FreqSelect使用自适应Kernel卷积让检测和分割性能都跨越了瓶颈

技术

点击下方卡片,关注 「AI视界引擎」 公众号

picture.image

扩张卷积通过在其连续元素之间插入间隙来扩大感受野,在计算机视觉中得到了广泛的应用。在本文中,作者从频谱分析的角度提出了三种策略来改进扩张卷积的各个阶段。

与将全局扩张率作为超参数的常规做法不同,作者引入了频率自适应扩张卷积(FADC),它根据局部频率成分在空间上动态调整扩张率。随后,作者设计了两款插件模块,直接增强有效带宽和感受野大小。自适应核(AdaKern)模块将卷积权重分解为低频和高频成分,根据每个通道动态调整这些成分之间的比例。

通过增加卷积权重中的高频部分,AdaKern捕获更多的高频成分,从而提高有效带宽。频率选择(FreqSelect)模块通过空间可变的重加权,最优地平衡特征表示中的高频和低频成分。它在背景中抑制高频,以鼓励FADC学习更大的扩张,从而在扩大范围内增加感受野。在分割和目标检测上的大量实验一致验证了FreqSelect的有效性。

代码:https://github.com/Linwei-Chen/FADC

1 Introduction

膨胀卷积以膨胀率()在滤波器值之间插入间隔,从而在不显著增加计算负载的情况下扩展感受野。这项技术在计算机视觉任务中得到了广泛应用,例如语义分割和目标检测。

虽然通过较大的扩张率有效扩大了感受野的大小,但这却以高频成分响应降低为代价。将扩张率从1增加到相当于通过零插入将卷积核扩大倍。根据傅里叶变换的缩放性质,卷积核的频率响应曲线和带宽都将被缩放到。如图1所示,红色曲线的带宽在时仅是蓝色曲线在时的四分之一。减少的带宽显著限制了层处理高频成分的能力。例如,当特征图的频率内容高于扩张卷积的采样率时,就会产生网格状伪影。

picture.image

在这里,作者引入了频率自适应扩张卷积(FADC),通过光谱分析的角度来增强扩张卷积。如图2所示,FADC包括三种关键策略,即自适应扩张率(AdaDR)、自适应核(AdaKern)和频率选择(FreqSelect),旨在增强传统扩张卷积的各个阶段。AdaDR在空间上调整扩张率,AdaKern在卷积核权重上操作,而FreqSelect直接平衡输入特征频率的功率,以鼓励感受野的扩展。

picture.image

与全局固定膨胀率的传统方法不同,作者的AdaDR根据频谱在局部动态分配膨胀率。例如,在图1(a)的 Patch 1中,汽车边界显示出更多的高频分量(由蓝色实线指示),AdaDR应用了一个小的膨胀率(),具有较宽的有效带宽(由蓝色点曲线表示)。

相反,对于 Patch 2中的车门部分,频率功率主要集中在低频域,AdaDR将膨胀率增加到4,因为减少的带宽仍然可以包含大量的频率功率。这两个 Patch 的膨胀图示在图1(d)中。与固定的膨胀率(例如,[34, 70]中的1, 2, 4)相比,作者的AdaDR将图1的理论平均感受野大小从大约440个像素增强到大约1000个像素。

picture.image

AdaKern是一个插件模块,它操纵卷积核以优化图3中的频率响应曲线并增强有效带宽。如图3所示,该模块将卷积权重分解为低频和高频组件。这使得作者可以基于每个通道动态地操纵这两个组件。例如,增加高频核的权重(在图2底部以红色标记)会导致高频组件的响应更强,从而如图3左侧的曲线所示,增加了有效带宽。

FreqSelect通过在将特征输入到扩张卷积之前平衡特征中的高频和低频成分,来增加感受野的大小。由于卷积倾向于放大高频成分,经过扩张卷积后的特征通常表现出更高比例的高频成分。为了捕捉这些额外的高频成分,较小的扩张率因其较大的有效带宽而受到青睐,但代价是感受野大小的降低。

通过抑制输入特征上的高频功率,FreqSelect模块能够增加相应的感受野大小。具体来说,如图2所示,FreqSelect将特征图从低到高分解为4个频率通道。然后,作者使用选择图在每个通道上进行空间重新加权,以平衡频率功率,使FADC能够有效地学习更大的感受野。

作者的实验在分割方面的结果表明,作者提出的方法一致性地带来了改进,从而验证了FreqSelect的有效性。特别是当FreqSelect与PIDNet结合应用时,在Cityscapes数据集上达到了推理速度和准确度之间的最优平衡,以37.7 FPS的速度达到81.0 mIoU。此外,作者提出的策略还可以整合到可变形卷积和扩张注意力中,为分割和目标检测任务带来一致的性能提升。

作者的贡献可以总结如下:

  1. 作者对扩张卷积进行了深入的研究,运用频率分析,将扩张率的分配重新定义为一种涉及在有效带宽和感受野之间进行平衡的折中问题。
  2. 作者引入了频率自适应扩张卷积(FADC)。它采用了自适应扩张率(AdaDR)、自适应核(AdaKern)以及频率选择(FreqSelect)策略。AdaDR 动态地以空间可变的方式调整扩张率,以实现有效带宽和感受野之间的平衡。AdaKern 自适应地调整核以充分利用带宽,而FreqSelect 学习一种频率平衡的特征,以鼓励大的感受野。
  3. 作者通过在分割任务中进行全面实验来验证FreqSelect,并一致显示出其有效性。此外,提出的AdaKern和FreqSelect在集成可变形卷积和扩张注意力进行目标检测和分割任务时也证明了其有效性。

2 Frequency Adaptive Dilated Convolution

所提出的FADC的概述如图2所示。在本节中,作者首先介绍AdaDR策略,概述作者如何平衡带宽和感受野。随后,作者深入探讨AdaKern和FreqSelect策略的细节,这些策略旨在充分利用带宽并促进大的感受野。

Adaptive Dilation Rate

扩张卷积。 广泛应用的扩张卷积可以表述如下:

在公式中, 表示输出特征图在位置 的像素值, 是核大小, 表示核的权重参数,而 代表输入特征图中对应于 并由 偏移的位置的像素值。变量 表示预定义网格采样的第 个位置,即 。通过增加膨胀率 ,可以扩大感受野。

频域分析。 先前的研究发现,增加膨胀系数会导致频率信息捕捉能力的退化。具体来说,将膨胀率从1增加到会使卷积核按倍增大,这符合傅里叶变换的缩放性质。因此,卷积核的响应频率降低到,导致频响从高频向低频偏移,如图1所示。此外,膨胀卷积在的采样率下有效运行,这使得它无法捕捉到奈奎斯特频率以上的频率,即采样率的一半。

具体来说,作者首先使用离散傅里叶变换(DFT)将特征图 转换到频域,,它可以表示为:

其中, 表示DFT输出的复数数组。 和 分别代表其高度和宽度。、 指的是特征图 的坐标。在高度和宽度维度上的归一化频率由 和 给出。在将低频移至中心后, 的取值集合为 ,而 的取值集合为 。因此,高于奈奎斯特频率的高频集合 或 无法被准确捕捉,这限制了其带宽。

自适应膨胀率。 在以上分析的基础上,膨胀率的选择可以看作是在大的感受野和有效带宽之间的一种权衡。考虑到输入特征图在空间上的变化,每个像素的最优膨胀率可能都不相同。因此,作者引入了自适应膨胀率(AdaDR)策略,以实现更好的平衡。它为每个像素分配一个不同的膨胀率。

可以通过带有参数 的卷积层进行预测。特别是,作者加入了一个ReLU层以确保膨胀系数的非负性。其目的是最大化每个像素的接收域,并最小化丢失的频率信息。对于以 为中心,窗口大小为 的局部特征,作者将其称为 。其接收域 与 正相关。集合 中的频率无法被准确捕获。因此,丢失的频率信息可以通过计算高频功率 来衡量。因此, 的优化可以写成以下形式。

然而,由于频率集 的离散性质,以及计算 HP 的非可微性,直接优化可能是不切实际的。因此,作者选择直接优化 ,即:在 HP() 值较低的位置 增加膨胀率以鼓励大接受域,在 HP() 值较高的位置抑制膨胀率以减少频率信息的损失。为了形式化这种优化,作者将其表达为如下:

在这里,HP 和 HP 分别代表具有最高/最低(例如,25%)高频功率的像素,即图4(b)中较亮/较暗的区域。

picture.image

作者从经验上设定这个优化目标的权重为0.01,以在训练过程中与任务损失(例如,针对分割的逐像素交叉熵)保持平衡。

Adaptive Kernel

AdaDR 通过为每个像素单独分配膨胀率,实现了有效带宽和感受野之间的精细平衡,从而优化了这两个因素。与卷积核权重紧密相连的有效带宽发挥着关键作用。传统的卷积核学习捕获跨越不同频率带的特征,这对于理解复杂的视觉模式至关重要。

然而,一旦训练完成,它们就变得静态了。为了进一步增强有效带宽,作者在引入动态加权以调整频率响应之前,将卷积核参数分解为低频和高频组件。这个过程只增加了少量的附加参数和计算开销。对于静态卷积核,其权重 可以分解如下:

在这里, 表示核范围内的平均。它起到了一个低通均值滤波器的作用,之后是一个由定义参数的卷积。如[54]所述,较高的均值更有可能衰减高频成分。术语表示残差部分,捕捉局部差异并提取高频成分。分解后,作者的AdaKern动态调整高低频成分,并且可以形式化表示为。

其中 , 是每个通道的动态权重,它们由一个简单轻量的全局池化加卷积层预测得出。根据输入的上下文动态调整 的比例,使网络能够专注于特定的频带,并适应特征中视觉模式的复杂性。这种动态频率自适应方法增强了网络捕捉低频上下文和高频局部细节的能力。这进而提高了有效带宽,从而在需要跨不同频率提取多样化特征的分段任务中提升了性能。

Frequency Selection

如先前研究[40]所示,传统卷积通常起到高通滤波器的作用。因此,生成的特征往往表现出较高比例的高频成分。这种倾向导致采用较小的整体膨胀率以保持较高的有效带宽,不幸的是这牺牲了感受野的大小。FreqSelect被设计用来通过在特征表示中平衡高频和低频成分来增强感受野。

具体来说,FreqSelect 最初通过在傅里叶域中应用不同的 Mask 将特征分解成不同的频率带:

在这里, 表示逆快速傅里叶变换。 是一个二值 Mask ,设计用来提取相应的频率:

在这里,、 来自于 个预定义的频率阈值 。随后,FreqSelect 动态地在不同频率带中重新加权空间上的频率成分。这可以表述为:

其中 是经过FreqSelect后学习到的频率平衡特征,而 表示第 个频带的选择图。具体来说,作者以八度分解的方式将频率分为四个频带,即 ,,,和 。

4 Experiments

Experiments Settings

数据集和评价指标。 作者在几个具有挑战性的语义分割数据集上评估了FreqSelect,包括Cityscapes和 ADE20K。在语义分割方面,作者使用平均交并比(mIoU)作为评价指标,而在目标检测/实例分割方面,作者采用平均精度(AP)。

实现细节。 对于Mask2Former,PIDNet,ResNet/HorNet+UPerNet,作者保持了与原文相同的设置。在COCO数据集上,作者遵循常见的做法,并对目标检测和实例分割模型进行12(1Schedule)或36(3Schedule)个周期的训练。

在Dilated-ResNet的情况下,作者将第34阶段的膨胀卷积替换为所提出的FADC。对于PIDNet,作者将瓶颈处的卷积替换为所提出的FADC。对于ResNet,作者将第24阶段的卷积替换为所提出的FADC,而对于HorNet,则将卷积替换为所提出的FADC。

Main Results

在本节中,作者首先通过标准的语义分割基准来初步评估所提出方法的有效性。随后,作者报告了实时语义分割的结果。最后,作者将所提出的方法无缝地集成到相关可变形卷积(DCNv2)和高级框架中,例如基于DCN3的InternImage,同时结合了像DiNAT所示的可扩展注意力机制。

标准语义分割。 如表1所示,作者将提出的FADC与膨胀卷积,可变形卷积(DCNv2),以及自适应膨胀卷积(ADC)进行了比较。在广泛使用的Cityscapes数据集上,当配备作者的FADC时,PSPNet、DeepLabV3+和Mask2Former的mIoU结果分别提升了+2.6、+1.1和+1.2。这些提升在计算量和参数更少的情况下,超越了DCNv2,提高了0.7、0.4和0.2 mIoU。FADC还比采用自适应膨胀策略的ADC提高了0.8 mIoU。

picture.image

此外,如表2所示,在更具挑战性的ADE20K数据集上,FADC显著提高了ResNet-50与UPerNet结合的mIoU,提高了3.7,甚至超过了其更重的版本ResNet-101(44.4 vs. 42.9)。当应用于更大的HorNet-B/L时,它带来了+0.6/+0.4的提升,并且优于近期最先进的方法,包括Swin、ConvNeXt、RepLKNet-31L、InternImage和DiNAT。

picture.image

值得注意的是,与采用学习膨胀间隔的ConvNeXt-B-dcls相比,HorNet-B-FADC表现出更优越的性能和提升(51.1 vs. 49.3,以及+0.6 vs. +0.2)。

实时语义分割。 实时语义分割对于自动驾驶车辆和机器人手术等应用至关重要。作者在表3中展示了在Cityscapes数据集上评估所提出实时语义分割方法的进一步结果。

picture.image

配备了FADC的作者的PIDNet-M模型在每秒37.7帧(FPS)的速度下达到了81.0的mIoU,超过了更重的PIDNet-L模型的性能,同时保持了更快的速度(37.7 对比 31.1),从而建立了新的最先进水平。这证明了所提出方法的效率。

与DCNv2、InternImage和DiNAT的集成。 存在一组强大的技术,用于调整卷积或注意力的采样坐标,类似于扩张卷积。例如包括DCNv2、InternImage(基于DCNv3的模型)和DiNAT。DCNv2和InternImage可以概念化为动态地为核的每个点分配一个扩张率。

相反,DiNAT以类似于扩张卷积的方式调整计算注意力的采样坐标,从而遇到与扩张卷积相关的类似挑战。在这里,作者将提出的AdaKern和FreqSelect与DCNv2、InternImage(基于DCNv3的模型)和DiNAT结合,以评估它们的有效性。

picture.image

表4展示了这种集成的影响。DCNv2在目标检测任务中已显示出显著的成功,AdaKern和FreqSelect进一步将边界框AP提高了0.9。此外,FreqSelect在ADE20K数据集上将InternImage的性能提升了0.8,在COCO上的mask AP将DiNAT提升了0.6。这些结果强有力地证明了作者方法的有效性。

picture.image

picture.image

可视化结果。作者在图5中展示了具有代表性的可视化结果。顶部一行显示,扩张卷积未能准确提取高频信息,例如细杆的精细细节。相比之下,作者提出的频率自适应扩张卷积(FADC)准确地捕捉到了这些细节,从而产生了更优的预测。在底部一行中,很明显扩张卷积由于接受域不足而无法均匀地对大型卡车做出响应,以提取局部信息。

picture.image

另一方面,FADC能均匀地对大型卡车做出响应,从而使得分割预测更加一致和准确。这些可视化说明了作者提出的FADC在解决扩张卷积局限性的有效性。更多可视化内容请参考补充材料。

5 Analysis and Discusion

作者采用膨胀的ResNet-50 作为基准模型,并对所提出的FADC进行了全面分析。额外的分析内容可以在补充材料中找到。

AdaDR分析。如图6所示,AdaDR学会为高频区域(如图4(c)中的车辆、自行车和行人边界)预测一个小的膨胀率,以保持捕获高频细节的高带宽。

picture.image

相反,对于高频较低、更平滑的区域,它分配一个更大的膨胀率以扩大感受野。此外,与可变形卷积相比,AdaDR避免了图7所示的空间偏差,防止了错误的学习,并有利于对位置敏感的任务。

picture.image

AdaKern的分析。 通过基于输入特征的静态核中高频和低频成分比例的自适应调整,AdaKern调节卷积核的频率响应,使FADC能够提取更多的高频详细信息。如图3右侧所示,作者对特征图中的频率功率进行统计分析。与扩张卷积相比,FADC提取了更多的高频信息,这对于捕捉分割细节至关重要,而使用AdaKern进一步增强了这种能力。

FreqSelect分析。 作者对FreqSelect为不同频段生成的平均权重进行了统计分析,结果如表8所示。

picture.image

FreqSelect对较高频段的预测平均权重较低,这与反幂律一致。通过观察图8中的热力图,作者注意到FreqSelect倾向于为物体边界分配更高的注意力权重。这在较高频段更为明显。它选择性地抑制在不对准确预测作出贡献的区域(如背景和物体中心)的高频部分。这促使FADC学习更高的膨胀率,从而扩大感受野。

picture.image

感受野。 在场景理解任务中,大型感受野的重要性得到了强调。采用AdaDR策略,FADC可以使用更高的整体膨胀率来扩大感受野,超过了广泛使用的具有全局固定膨胀率的膨胀ResNet,正如表7所示。

picture.image

图8直观地展示了FreqSelect如何有助于提高FADC的平均膨胀率。通过在特征图中选择性地加权频率,FreqSelect进一步鼓励更高的膨胀率,最终导致感受野的提升,如表7所示。

带宽。 测量复杂神经网络的带宽并不是直接的,相反,作者直接评估提取特征中的频率信息。如图3所示,与扩张卷积相比,FADC增加了和高频带的功率。AdaKern进一步增强了频率带内的功率。这表明提取了更多的高频信息,显示出带宽的改善。

走样伪影。 如文献[59, 70]所述,走样伪影,通常被称为网格伪影,在特征图的频率内容超过膨胀卷积的采样率时显现,如图5所示。

具体来说,当特征图内的频率超过了膨胀卷积的有效带宽时,这些伪影就会发生。先前的研究试图通过加入额外的卷积层来学习一个低通滤波器以去除伪影,或者通过使用多个膨胀率来增加采样率来经验性地解决这个问题。

与这些方法相比,作者提出的方法通过根据局部频率动态调整膨胀率来减轻网格伪影。此外,FreqSelect 通过在不对准确预测背景或物体中心作出贡献的区域抑制高频,对此也有所帮助。

6 Conclusion

在这项工作中,作者从频率的角度回顾了扩张卷积,并引入了FADC通过三种关键策略改进各个阶段:AdaDR、AdaKern和FreqSelect。与采用固定全局扩张率的传统方法不同,AdaDR根据局部频率成分动态调整扩张率,提高了空间适应性。AdaKern基于每个通道动态调整卷积权重中低频和高频成分的比例,捕捉更多高频信息,提高了整体有效带宽。

FreqSelect通过空间可变的重加权平衡高频和低频成分,促使FADC学习更大的扩张,从而扩大了感受野。将来,作者打算将作者的定量频率分析扩展到可变形/扩张注意力。此外,由于FADC被证明可以无缝替换现有架构中的标准卷积层,作者打算为FADC设计特定的架构。

参考

[1].Frequency-Adaptive Dilated Convolution for Semantic Segmentation.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
融合开放,新一代边缘云网络平台 | 第 11 期边缘云主题Meetup
《融合开放,新一代边缘云网络平台 》李冰|火山引擎边缘云网络产品负责人
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论