点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
由于自注意力(SA)的计算复杂性,图像去模糊的常见技术往往要么采用局部SA,要么使用粗粒度全局SA方法,但这两种方法都存在一些缺点,比如牺牲全局建模能力或缺乏细粒度相关性。
为了解决这个问题,同时有效地建模长距离依赖关系而不牺牲细粒度细节,作者提出了一种新颖的方法,称为局部频率 Transformer (LoFormer)。
在LoFormer的每个单元中,作者在频域(Freq-LC)中引入了局部通道自注意力机制,以同时捕获低频和高频局部窗口内的交叉协方差。
这些操作具有以下优点:(1)确保了粗粒度结构和细粒度细节具有平等的学习机会,(2)与粗粒度全局SA方法相比,探索了更广泛的表示性属性。此外,作者提出了一种与Freq-LC互补的MLP门控机制,该机制旨在过滤掉不相关的特征,同时增强全局学习能力。
作者的实验表明,LoFormer在图像去模糊任务中显著提高了性能,在GoPro数据集上以126G FLOPs实现了34.09 dB的PSNR。https://github.com/DeepMed-Lab-ECNU/Single-Image-Deblur
- Introduction
图像去模糊领域在全球特征学习方法的热潮中取得了显著进展。一些基于多层感知机(MLP)的方法被提出,例如MAXIM [53] 将全局MLP操作以稀疏方式分解为窗口MLP和网格MLP(见图1(a))。除了基于MLP的方法,近期的研究探索[52, 55, 62]也展示了 Transformer (Transformers)在图像去模糊任务中的能力。自注意力(Self-Attention,SA)[54]是捕获长距离依赖的关键,但其计算复杂度与 Token 数量成二次关系,这使得将其应用于图像去模糊中的高分辨率图像变得不可行。为了使计算变得可行,现有方法尝试在空间域中以各种方式减少SA的 Token 数量,这可以分为三类。
(1)局部空间自注意力(作者使用缩写Spa-LS表示空间域-局部空间自注意力)。Uformer [55] 提出了一种局部增强的窗口 Transformer 块以捕获局部上下文(见图1(b)),这损害了长距离建模能力。
(2)区域特定的全局自注意力。Stripformer [52] 探索了水平方向和垂直方向上的条带内和条带间自注意力(Spa-SS表示空间域-条带空间自注意力)(见图1(c)),这依赖于一个强烈的假设,即图像模糊通常是区域性的方向性模糊。
(3)粗粒度全局自注意力。Restortomer [62] 通过全局通道自注意力(Spa-GC表示空间域-全局通道自注意力)捕获长距离交互(见图1(d))。
尽管Spa-GC可以学习,但由于两个原因,它不可避免地更多地关注图像的低频成分:(i) 图像的能量主要存在于低频部分,(ii) 在实际中,与低频部分相比,高频部分通常更难以处理(Wang等人,2019年)。低频部分展示了粗粒度 Level 的信息,例如基本目标结构,而高频部分反映了细粒度 Level 的信息,例如纹理细节(Wang等人,2019年)。如图3所示,运动模糊核会同时影响锐利图像的高频和低频部分。因此,像Spa-GC这样的粗粒度全局自注意力存在细粒度相关性不足的问题。
为了在不牺牲细粒度细节的情况下模拟长距离依赖关系,作者提出了局部频率 Transformer (LoFormer)用于图像去模糊。具体来说,作者提出了图1(e)中展示的频域-局部通道感知注意力(Freq-LC)。首先,作者通过离散余弦变换(DCT)将特征转换到频域。DCT将原始特征表示为不同基图像的系数。如图1(e)所示,基图像可以排列成矩形网格,左上角是低频成分,向右下角则是高频成分。左上角的基图像代表了整个图像的平均强度,而其余的基图像捕捉到越来越细致的细节和纹理。任何频率的标记都具有全局信息。为了使粗粒度结构和细粒度细节具有相等的学习机会,作者设计了一个基于窗口的频域特征提取范式,即把频率标记分割成不重叠的窗口。左上角的窗口包含具有粗粒度结构的标记(粗标记),而右下角的窗口包含具有细粒度细节的标记(细标记)。接着,在各个局部窗口内分别应用自注意力(SAs),能够并行捕获从低频到高频窗口的交叉协方差。
作者进一步提出了一种针对频域轴的窗口内MLP门控(MGate),以补充Freq-LC,它在通过SA学习到的特征上执行门控操作。值得一提的是,门控操作增强了模型对全局信息学习的能力。作者将经过Freq-LC和窗口内MGate以及前馈网络后的结构称为局部 频率转 换器(LoFT)块,这是LoFormer的基本构建块。
主要贡献可以总结如下:
- 作者提出了一种简单而有效的Freq-LC方法来建模长距离依赖关系,同时不损害细粒度细节,并引入了MGate,它执行门控操作,并学习与Freq-LC互补的全局特征,以更好地学习全局信息。
- 作者证明了Spa-GC等价于Freq-GC,其中粗略信息主导了计算,并验证了作者的Freq-LC在探索频率中的不同属性方面比Spa-GC具有更强的能力。
- 广泛的实验表明,LoFormer在图像去模糊任务上取得了最先进的结果,例如,在GoPro数据集上达到34.09 dB的PSNR。与现有技术水平相比,PSNR(分贝)与FLOPs(千兆)的对比结果如图2所示。
- Related Works
在深度学习和计算机视觉领域,目标检测和图像分类的问题已经得到了广泛的研究。近年来,随着卷积神经网络(CNN)技术的发展,这一领域取得了显著的进展。研究者们提出了多种方法来提高检测和分类任务的准确性和效率。以下是一些与本工作相关的主要研究工作概述。
Deep Image Deblurring
基于配对的模糊-清晰图像数据集,许多方法采用了基于ImageNet(Deng等人,2015)数据集预训练的变换模型进行各种图像恢复任务,例如超分辨率。像基于ViT(Tang等人,2017)的模型以及IPT一样,SwinIR(Srivastava等人,2017)和Uformer(Vaswani等人,2017)应用基于窗口的注意力机制来捕捉长距离依赖。Strippformer(Vaswani等人,2017)将空间上的全局注意力机制分解为水平和垂直注意力。Restormer(Restormer,2018)通过跨通道而非空间应用注意力机制,以线性复杂度来建模全局上下文。尽管已经付出了大量努力来捕捉长距离依赖,无论是局部窗口上进行像素级的注意力机制,还是以稀疏方式学习全局上下文,它们忽略了一个重要事实:图像/特征内的独立组成部分不应当盲目地通过注意力机制操作整体建模。作者提出通过DCT将特征投影到正交基上,将其分解为独立的组件,即频率标记,并在每个划分的频率窗口内进行全局上下文的学习。
Frequency Domain Applications
越来越多的文献资料提出从频域中提取信息以完成各种任务的方法;在频域中推广了通道注意力用于图像分类;GFNet(李等人,2019年)在频域中学习长期空间依赖关系。LaMa(李等人,2019年)使用快速傅里叶卷积(Li et al., 2019)的结构作为图像修复的构建模块。DeepBFT(Vaswani等人,2017年)将简单的Res-FFT-ReLU块引入到深度网络中用于图像去模糊。FAD(李等人,2019年)基于频域预测器将输入特征划分为多个分量用于图像超分辨率。MBCNN提出了一种多块大小可学习带通滤波器来学习摩尔图案的频域先验。CRAFT(李等人,2019年)通过CNN增强高频特征并通过Transformer学习全局信息。受到频域成功的启发,作者提出了一个LoFT块,它能够(1)通过DCT进行独立分量分解,以及(2)在频域窗口中进行全局独立的上下文学习。
- Method
在本节中,作者将详细介绍作者的方法论方法,包括实验设计、数据收集以及用于分析的各种算法。
Main Backbone
图4展示了LoFormer架构的概览。LoFormer采用由Restormer(Restormer,2018)提出的UNet(Li等人,2019)架构作为主干网络。在Restormer中,编码器-解码器的每个阶段都包含多个Transformer块。作者设计了一个局部频率Transformer(LoFT)块作为作者的基本构建块。如表1所示,为了提高效率,作者在较低阶段放置了更多的构建块,即从阶段1到阶段4,LoFT块的数量分别为(LoFormer-S),(LoFormer-B和LoFormer-L),而注意力头的数量为。细化部分包含两个LoFT块。
Local Frequency Transformer Block
LoFT模块由提出的局部频率网络(LoFN)和前馈网络(FFN)组成。如图4所示,LoFN包括:(i)DCT后的层归一化(DCT-LN),(ii)频率域-局部通道感知自注意力(Freq-LC),(iii)频率域内的窗口内MLP门控(MGate)。对于FFN,作者采用了Restormer中的门控深度卷积前馈网络(GDFN)(Restormer, 2018)。
首先,作者对ch通道的特征图应用DCT变换:
其中,是DCT频率标记,H和W分别是的高度和宽度。是相应DCT系数的基础图像,位于中,对于有H W个基础图像。给定索引,:
其中,。
接下来,作者分别描述DCT-LN、Freq-LC和MGate。
DCT-LN. 层归一化(LN)(Chen等人,2015)由于其能够稳定训练过程,在计算机视觉任务中得到了广泛采用(Chen等人,2015)。给定空间域中的特征,如图5所示,作者首先应用DCT以获得频率标记。然后,DCT后的层归一化可以定义为:
在公式3中,作者得到:
其中 是 沿通道维度的均值,而 是其标准差。 和 是可学习参数,。在DCT之后,频次标记的分布变化很大。大量的信息存储在低频中,其余频率中存储的信息较少。因此,作者采用层归一化(LN)来强制频次标记均匀分布,这对于稳定训练过程至关重要。值得一提的是,在DCT之前应用LN等同于在频域中应用卷积(通过简单计算可得),这并不有助于平衡频次标记的分布。
, 和 可以通过展平和转置操作获得。接下来,作者对窗口 执行自注意力(SA)以生成转置的注意力图 。该过程可以定义为 和 。
所有窗口的转置注意力图可以写成 ,其中 ,而 是一个可训练的缩放参数。
MGate. 为了强调频率,并通过与Freq-LC结合控制哪些互补特征应该向前传播,作者在图4中通过内窗口多层感知机(MLP)应用MGate,并在其他轴上共享参数:
其中 表示GELU激活操作。内窗口MGate操作通过聚合跨频率上下文实现了局部频率混合。由于频率域中每个标记的全局性质,它从不同的角度增强了Freq-LC学习的全局信息。通过元素乘法结合Freq-LC和MGate分支,LoFT块能够实现比其他对应块更优越的性能。
在通过点积结合Freq-LC和MGate的输出后,作者执行窗口逆转换,将特征转置回 的大小,并应用 卷积以融合跨通道上下文,记为 。相应地,作者对特征图 执行逆DCT变换,其第 个通道的特征是 :
在作者的方法中, 是通过以下方式计算的:
其中, 是对应DCT系数的基础图像, 是 在第 个通道上的特征。
_复杂性分析_。如表格3所示,作者的 Freq-LC 与 Restormer (Song et al., 2019) 中的 Spa-GC 在卷积和注意力上的计算复杂度相同。此外,所提出方法所需的DCT计算复杂度仅增加了可管理的 ,同时显著提升了性能。
- Understanding SA in the Frequency Domain
Spa-GC is equivalent to Freq-GC
表3列出了不同的自注意力(SA)方法。为了理解频域中矩阵乘法的物理意义,作者探讨了Spa-GC与Freq-GC之间的关系。以下是作者的命题:
Analysis of Freq-LC from Spatial Perspective
作者主张作者的Freq-LC可以学习到从粗到细的全球特征,并在表示中探索不同的性质。在本节中,作者从频率域的新视角对Freq-LC进行分析。
如方程5所示,对于一个尺寸为H×W的图像,它可以被表示为一系列基础图像与其对应DCT系数的和,其中,。作者有以下命题成立:
命题2 。:_作者的Freq-LC可以被看作是在空间特征上执行传递滤波器,通过将特定窗口内的频率标记表示为它们在空间域中对应基础图像的和。与在特定频率标记上应用局部通道感知自注意(Local Channel-wise SA)的Freq-LC相比,在空间域实现Freq-LC将会显著增加内存和计算复杂度。_
作者设计了一个窗口划分方法(窗口大小=b×b),并在,和上进行窗口划分,得到,和,其中n=b²,m=N/n。从每个窗口i中,特征可以
通过展平和转置操作可以得到上述结果。假设作者将 , 和 用零填充至大小为 ,得到填充后的 , 和 。, 和 可以被视为在空间域特征上应用相应通带滤波器后的频谱。在第 个窗口上应用SA后,填充前后的 , 和 的输出频率特征可以计算为:
需要注意的是 与 相同。因此,在窗口逆变换()操作之后,局部SA的总输出通过以下方式聚合:
在本文中, 的计算方式是对每个模态的注意力输出进行求和,即 ,其中每个模态的注意力输出是通过以下方式得到的:。这可以表示为:
其中 表示在局部窗口中计算的自注意力(SA),并通过窗口反转来获得总的输出,即:
尽管上述两种操作在准确性方面导致相同的结果,但它们的效率是不同的。作者在表3中总结了不同自注意力的计算复杂度,其中包括在诸如Uformer和Restormer等流行方法中使用的自注意力。与在空间上聚合全局自注意力的方法(Spa Filter-GC)相比,作者的Freq-LC(见表3中的Freq-LC(LoFormer))具有更高的效率。
- Experiment
在本节中,作者将详细描述所进行的实验以及实验设置,目的是验证作者提出的方法在解决[具体问题]方面的有效性。首先,作者将介绍实验数据集和评估指标,随后描述实验的设计和实施过程。最后,作者将展示实验结果,并对这些结果进行分析和讨论。
Experimental Setup
数据集。作者在表4中总结的五个数据集上评估了作者的方法。由于现有方法采用了不同的实验设置,作者进行了总结并报告了三组结果:
- 在GoPro上训练,分别在GoPro/HIDE上进行测试;
- 分别在RealBlur-J/RealBlur-R上训练和测试;
- 在REDS数据集上训练和测试(遵循HINet(Chen等人,2019))。
实施细节。除非另有说明,作者采用了Restormer(Selvin等人,2019)中的训练策略。即:网络训练超参数(以及作者使用的默认值)包括学习策略(渐进式学习)、数据增强(水平和垂直翻转)、训练迭代次数(60万次)、优化器AdamW(,,权重衰减1x10)、初始学习率(3x10)。学习率通过余弦退火策略(Shen等人,2019)逐渐降低至1x10。对于LoFormer-S和LoFormer-B,作者从128x128的 Patch 大小和64的批量大小开始训练。在迭代次数[184K, 312K, 408K, 480K, 552K]时, Patch 大小和批量大小对更新为[(160, 40), (192, 32), (256, 16), (320, 8), (384, 8)]。由于训练和测试之间的统计分布偏移(Chen等人,2019),作者利用步长352执行384x384大小的滑动窗口,重叠大小为32进行测试。作者为LoFormer-S和LoFormer-B设置b=8。在选择损失函数时,作者使用了两种类型的损失函数:(1)L1损失:;(2)频率重建(FR)损失(Shen等人,2019;Chen等人,2019;Chen等人,2019):。其中,、和分别代表预测的清晰图像、 GT 清晰图像和2D快速傅立叶变换。对于LoFormer,损失函数。
评估指标。在所有测试集上,作者使用官方算法计算了PSNR和SSIM的性能,以及参数数量和FLOPs。
Main Results
设置
对于设置 ,作者在来自GoPro(Shen等人,2019年)的2103对图像上训练作者的模型,并通过GoPro(Shen等人,2019年)的测试集和HIDE(Shen等人,2019年)与几种最先进的方法进行比较。如表5和图6所示,LoFormer在GoPro测试集上的PSNR和SSIM指标上都优于其他基于CNN、Transformer和MLP的方法。在相同的训练策略下,作者的LoFormer-L相较于Restormer(Selvin等人,2019年)取得了1.17 dB的提升,而FLOPs相似(126G对135G)。此外,LoFormer-L在其他数据集上也获得了稳健的结果。对于HIDE测试集,LoFormer-L取得了31.86dB的成绩,比Restormer高出0.64dB。需要注意的是,如引言中所提及,Uformer中的Spa-LS损害了长距离建模,Stripformer中的Spa-SS依赖于一个很强的假设,而Restormer中的Spa-GC受到细粒度关联缺失的影响,而作者的Freq-LC包含简单而有效的操作来建模长距离依赖,同时不丢失细粒度细节。
设置
如表6所示,LoFormer-B在RealBlur-J测试集上取得了32.90dB,比Stripformer(Yang等人,2019年)高出0.42dB,且FLOPs更少(73G 对 170G)。对于RealBlur-R,LoFormer-B也比Stripformer(39.84dB)获得了更好的结果(40.23dB)。
设置
此外,如表7所示,对于REDS(Zhu等人,2019年)数据集,LoFormer-B取得了与其他方法具有竞争力的结果,例如,比MAXIM高出0.27dB。总之,定量实验结果表明,在不同的条件下,作者的LoFormer具有很好的处理运动去模糊任务的能力。
Analysis and Discussion
进行了大量的消融研究,以验证LoFT块相对于不同组件的有效性。采用渐进式学习策略,在GoPro数据集上对模型进行300K次迭代训练。训练以128128的图像块大小和32的批处理大小开始,这与LoFormer-S模型的超参数设计相同。
Effectiveness of DCT-LN
作者提出在频变换矩阵 上而不是输入矩阵 上进行层归一化(LN),旨在确保频次标记的均衡分布,从而促进训练的稳定性。如表格8所示,使用DCT-LN结合Freq-LC带来了更优的性能,相比于使用LN-DCT(32.91 dB)提高了0.26 dB。同样,对于Freq-GC,采用DCT-LN也有0.16 dB的提升。
表8. 消融研究。LN-DCT:层归一化后接DCT。DC:具有膨胀步长的通道膨胀注意力。CGate:在通道轴上应用线性。
Effectiveness of Local Attention
在频域中,作者可以轻松获取局部窗口内输入特征的全局信息。与表8中的Freq-GC(32.68dB)相比,Freq-LC在PSNR(峰值信噪比)上提高了0.23 dB(达到32.91dB)。图7(a)展示了在计算PSNR时,恢复图像的不同细节比率 Mask 情况。Freq-LC更能捕捉到被流行Spa-GC中的结构特征所抑制的高频细节 (见图8(a))。此外,图7(b)进一步指出,在去模糊方面,Freq-LC比Spa-GC获取到了更好的特征细节。在低频部分,Freq-LC与Spa-GC的表现相似,但在涉及到更多高频时,Freq-LC取得了更好的结果,表明Freq-LC在细节恢复方面优于Spa-GC。此外,作者在频域中设计了一种扩张的通道注意力机制(Freq-DC),以进一步验证在SA中分别学习粗细信息的效果。即便应用DCT-LN使频率标记均匀分布,Freq-DC(32.90dB)的表现仍比Freq-LC(33.17dB)差0.27dB。
Effectiveness of MGate
表8显示,MGate以线性时间提高了Freq-LC的有效性,并帮助Freq-LC过滤掉无效信息,这使得LoFormer-B能够进行更深层次的训练(使用MGate时为33.99dB,不使用MGate时为33.54dB)。此外,作者在的通道轴上执行多层感知机(MLP),并将其命名为CGate。与MGate相比,性能有所下降(表8中为32.97dB,而MGate为33.23dB),这表明了通过MGate操作所提供的补充特征。
Discussion
空间或通道。如表8所示,Freq-LS(33.15 dB,45.90G)的有效性与Freq-LC 处于相当水平,尽管前者计算复杂度略有增加。因此,作者选择将Freq-LC集成到LoFormer架构中。
Freq-LC的优势。 为了展示Freq-LC在学习细粒度高频特征方面优于Spa-GC的能力,作者在图8(a)中绘制了两种方法在不同低频/高频比例下的PSNR曲线进行比较。此分析的目的是强调Freq-LC在捕捉可能被Spa-GC中结构特征抑制的微妙细节方面的优势。作者测试了采用Freq-LC和Spa-GC的LoFormer框架,但选择了不同的频率比例。当涉及到越来越多的高频部分时,作者的Freq-LC性能提升速度更快(参见Freq-LC-LF和Spa-GC-LF)。
相反,涉及更多低频部分并不会像Spa-GC那样显著改变Freq-LC的性能(参见Freq-LC-HF和Spa-GC-HF),这证明高频信息在Freq-LC中比在Spa-GC中扮演着更重要的角色。同样,图8(b)显示Spa-GC并没有有效地学习高频信息,其与Spa-GC注意力图的余弦相似度较小(参见Spa-GC-HF)。此外,在不同频率窗口内计算SA有助于探索表示中的不同属性。
- Conclusions
作者提出了一种新颖的方法,称为局部频率 Transformer (LoFormer),用于图像去模糊。与先前关注于学习局部自注意力(SA)机制或采用粗粒度全局SA策略以减轻计算复杂性的转换方法不同,LoFormer提供了一种独特的解决方案。
它通过在局部频率标记窗口内采用逐通道自注意力,同时捕捉粗粒度和细粒度的长距离依赖关系。此外,作者融入了MLP门控机制以增强全局学习能力并消除不相关特征。在五个图像去模糊数据集上的广泛实验验证了作者提出的LoFormer的卓越性能。
参考
[1].LoFormer: Local Frequency Transformer for Image Deblurring.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」
