澳门大学提出 CubeFormer: 一种简单但有效的轻量级图像超分辨基线 !

向量数据库大模型机器学习

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

轻量级图像超分辨率(SR)方法旨在使用轻量级神经网络提高图像分辨率并恢复图像细节。然而,当前的轻量级SR方法仍然存在性能不佳和不令人满意的细节问题。

作者的分析表明,这些方法受限于特征多样性不足,这直接影响了特征表示和细节恢复。为了应对这一问题,作者提出了一种简单而有效的 Baseline 方法——CubeFormer,旨在通过完整的信息聚合来增强特征丰富性。

具体而言,作者引入了立方体注意力机制,该机制将2D注意力扩展到3D空间,促进全面的信息互动,进一步鼓励全方位的信息提取,并促进特征多样性的增加。此外,作者还注入了块和网格采样策略以构建局部立方体变换块(Intra-CTB)和全局立方体变换块(Inter-CTB),分别执行局部建模和全局建模。

大量实验证明,作者的CubeFormer在常用SR基准测试中达到了最先进的性能。

  1. Introduction

单张图像超分辨率(SR)是一项关键任务,涉及从退化的低分辨率(LR)图像中获取高分辨率(HR)图像[8]。作为长期存在的问题,该任务已经引起了广泛关注,并取得了显著的进步。一些最近的研究工作利用了视觉 Transformer (ViT)来解决图像超分辨率问题[9, 41]。尽管基于ViT的方法在性能上表现出色,但由于它们需要大量的计算资源,特别是在模型尺寸方面,它们的部署仍然面临挑战[43]。因此,开发兼具计算效率和高性能的轻量级超分辨率模型变得愈发重要。本文专注于设计一种轻量级的SR框架以提升性能。当前基于ViT的轻量级SR方法可以分为两类,根据它们所采用的注意力机制分类:同构结构方法和异构结构方法。同构结构方法使用空间注意力[25]或通道注意力[49]构建 Transformer 网络,以捕捉相关性。异构结构方法将空间注意力与通道注意力结合,以整合异构信息[42]。

然而,这些方法仍存在以下局限性:

1)同构结构方法忽略了空间信息和通道信息之间的交互作用,这对于推理HR图像中的细节至关重要;

2)异构结构方法简单地堆叠两种类型的注意力,未能充分利用低级特征,导致纹理模糊。图1显示了SwinIR[25]、SwinIR-CA(带通道注意力的SwinIR)[49]、Omni-SR[42]和作者提出的CubeFormer的比较和特征可视化。作者观察到SwinIR、SwinIR-CA和Omni-SR在特征多样性方面存在局限,表明其捕捉详细特征的能力有限。因此,重建的HR图像缺乏细腻的细节,如放大视图所示。相比之下,CubeFormer能够提取更多的纹理特征,从而恢复出具有更清晰纹理和更好细节保留的HR图像。

picture.image

为了解决上述问题,作者提出了一种简单而有效的轻量级图像超分辨率方法——CubeFormer,旨在学习细粒度的纹理特征,从而促进更好的细节恢复。具体而言,作者提出了一种新颖的立方体注意力机制,将3D空间中的所有特征划分为立方体,以实现全面的信息交互。因此,CubeFormer能够捕捉全方位的关系,并实现综合的信息整合,使得它能够保留更丰富的低层细节。此外,作者引入了两种transformer块——内部立方体transformer块(Intra-CTB)和跨立方体transformer块(Inter-CTB),以实现全局和局部建模的同时进行。通过对多个基准测试的实验演示,表明提出的CubeFormer在性能和细节恢复方面均优于其他方法。

总之,作者的贡献可以总结如下:

  1. 作者提出了CubeFormer,这是一种简单的轻量化图像超分辨率的有效 Baseline 方法。CubeFormer克服了以往解决方案中特征多样性受限的局限性,能够实现整体特征提取以恢复更多细节。

  2. 作者开发了一种新的注意力机制,称为立方体注意力。立方体注意力将二维注意力推广到三维空间,能够实现全面的交互作用,并提供增强的详细特征提取和推理能力。立方内/立方间 Transformer 块。通过在立方体注意力中嵌入块和网格采样策略,作者构建了立方内 Transformer 块(IntraCTB)和立方间 Transformer 块(Inter-CTB)。

  3. 在多个广泛采用的图像超分辨率数据集上的全面实验表明,CubeFormer在高分辨率图像中实现了更出色的细节恢复,并且始终优于现有方法。

  4. Related Work


基于CNN的图像超分辨率方法。早期,基于CNN的图像超分辨率模型取得了巨大成功。SRCNN [8] 是第一个利用深层神经网络进行图像超分辨率的研究工作,它以端到端的方式学习从低分辨率(LR)图像到相应高分辨率(HR)图像的映射。DRCN [17] 在超分辨率模型中嵌入了递归操作和跳接连接,进一步优化了模型结构,实现了更有效的信息流。CARN [1] 开发了一种包含级联残差网络的端到端超分辨率模型。IMDN [18] 引入了信息多精炼块,包括精炼部分和选择性融合部分,其中精炼部分专注于捕获层次信息,而选择性融合部分则在不同尺度上聚合特征。HPUN [37] 使用了高效的下采样模块,增强了特征表示,实现了更好的HR重建。此外,一些通用策略,如知识精炼 [10, 12, 53] 和神经架构搜索 [7] 也被整合进超分辨率模型,以进一步优化模型架构并提高特征聚合效率。

基于ViT的图像超分辨率方法。近年来,研究行人开发了许多比基于CNN的方法表现更优的基于ViT的解决方案。SwinIR [25] 引入了一个强大的 Baseline 模型,该模型结合了Swin Transformer [28] 层和残差连接,促进了特征交换并实现了高质量的图像重构。ESRT [29] 结合了CNN和Transformer,构建了一个混合网络,由轻量级CNN和Transformer Backbone 网组成。具体而言,这两个 Backbone 网协作提取深层特征,以获得更好的细节恢复效果。HAT [4] 通过属性分析发现,当前的超分辨率方法仅涉及输入信息的有限空间范围。为了缓解这一问题,HAT 开发了一种新的混合注意力机制和重叠交叉注意力模块,以充分利用输入图像的潜在特征。此外,一些研究工作 [2, 23] 尝试引入预训练策略,以改进网络在超分辨率任务上的学习效果。

轻量级视觉Transformer。注意力机制首次被提出并迁移至计算机视觉领域作为Vision Transformer (ViT) [9]。基于ViT的网络逐渐替代了传统的基于CNN的网络,在许多计算机视觉任务中表现出色。然而,vanilla ViT 遭受巨大计算成本的困扰。因此,许多尝试包括集中在进一步减少ViT的网络参数,同时保持类似的结果。LVT [47] 提供了一种轻量级的ViT,并引入了两种增强的自注意力机制:卷积自注意力(CSA)和递归空洞自注意力(RASA),分别用于提取低级和高级特征。MobileViT[34] 提出了一种独特的全局建模方法,展示了一种结合CNN和Transformer架构的视觉 Backbone 网络,以增强表示能力。此外,一些方法 [24, 44] 探索了矩阵分解策略,这可以缩小矩阵乘法的规模并进一步加速推理过程。

  1. Method

3.1. CubeFormer

整体Pipeline。图2展示了所提出的CubeFormer的整体架构。CubeFormer接受一个降质的低分辨率(LR)图像作为输入,并生成一个具有更多细节的高分辨率(HR)图像。Pipeline主要包括三个主要过程:特征提取、 Backbone 网络以及HR图像恢复。

picture.image

特征提取。给定一个输入的降级低分辨率图像,首先使用一个卷积层来提取浅层特征,表示为:

其中, 表示一个 的卷积操作。

Backbone 网络。接着,使用 Backbone 网络提取深层特征,可以表示为:

其中, 和 分别表示抽象的深层特征和主干网络的转换。具体而言,主干网络由cascade立方体 Transformer 组(CTGs)构成。此外,还注入了一个残差连接以挖掘浅层特征的潜力。

高分辨率图像恢复。最后,应用一个基于像素Shuffle的模块[36],用于恢复退化细节并重建高分辨率图像如下:

其中, 和 分别表示HR图像恢复模块的变换和预测得到的HR图像。

立方体Transformer组。作者的立方体Transformer组(CTG)架构如图2所示。可以看到,输入依次通过MBConv块、通道混洗、立方体内注意力块(Intra-CAB)、立方体间注意力块(Inter-CAB)以及增强的空间注意力(ESA)来获得输出。MBConv块[13, 14]和ESA[27]用于预处理和后处理。引入了通道混洗操作[51]以促进通道维度中的信息交互。设计立方体间注意力块(Inter-CAB)和立方体内注意力块(Intra-CAB)分别完成全局和局部建模。

3.2.Cube Attention

在以往的研究中,常用的局部操作,如空间和通道注意力,通常要么单独使用,要么简单组合使用。然而,这些方法可能会限制捕捉和推理细微低层级特征的能力。因此,作者开发了立方体注意力,它将二维注意力推广到三维空间,以追求全面的信息交互。利用立方体注意力,作者进一步引入了两个基础模块:Inter-CAB 和 Intra-CAB,分别采用了基于块的和基于网格的采样策略。

立方注意力。立方注意力范式分为四个核心阶段:qkv生成、立方嵌入、亲和矩阵计算和立方合并。假设输入的3D特征图表示为,其中、和分别代表空间高度、宽度和通道维度。最初,通过卷积层进行变换以提取 Query 、键以及值,形式上定义为:

输出立方体:

其中,、 和 分别表示生成 Query 、 Key和Value 的转换函数。不同于传统的基于窗口的注意力机制,后者将输入划分为二维区域,作者的立方体注意力机制将三维空间划分为不重叠的立方体。令 、 和 分别表示从 Query 、 Key和Value 表示中抽取的个体立方体。随后,每个立方体被重新整形为维度为 的向量。接着,通过应用softmax函数计算 Reshape 后的 Query 向量与键向量的内积,得到亲和矩阵

其中 表示最终的立方体输出,而 表示 softmax 激活函数。为了确保空间分辨率的一致性,随后将这些立方体合并,生成最终输出 。立方体内的注意力机制。立方体内的注意力机制在每个立方体内实现自注意力,从而能够充分进行局部信息交互。立方体内的注意力机制的具体工作机制详见图3(a)。在立方体划分阶段, 和 被通过块采样分成不重叠的三维立方体,其尺寸为 ,公式如下:

picture.image

这种采样结构使得亲和矩阵能够捕捉每个立方体内各 Voxel 间的复杂关系。与主要建模空间关系的2D窗口注意力机制不同,提出的局部立方体注意力通过在每个局部3D立方体内聚合信息,整合了更为广泛的特征集合,从而增强了特征表示的能力。

跨立方体注意力。跨立方体注意力实现了跨立方体特征交互,支持全面而长范围的信息抽象。跨立方体注意力的架构在图3(b)中详细说明。在立方体分割阶段,给定、和,这些张量通过网格采样被分割成hwc三维立方体网格,其中每个立方体的维度为。这一变换可以形式化地描述为:

立方间注意力通过建模不同立方体之间的关系来运作,充当了一种稀疏的全局注意力机制,能够高效地聚集广阔空间范围内的信息。这种设计增强了模型捕捉跨立方体依赖关系的能力,促进了全方位特征抽象的发展,从而提升了全局感知能力。

立方体内部/间 Transformer 块 作者提出了两种专门的 Transformer 块,即立方体内 Transformer 块(Intra-CTB)和立方体间 Transformer 块(Inter-CTB),作为作者立方体 Transformer 生成器(CTG)的基础组件。Intra-CTB 设计用于通过利用立方体内部注意机制来捕捉局部细节,从而在每个独立的立方体内实现全面的信息交互。相比之下,Inter-CTB 促进跨立方体信息交换,支持提取全局稀疏特征以增强特征表示。这两种块均采用类似于标准视觉 Transformer 的两阶段架构,但集成了不同的注意力机制,如图2 所示。

首先,输入特征先进行层归一化(LayerNorm),随后再进行立方体内的或立方体间的注意力计算,这可以形式化地表示为:

其中,、、 和 分别代表输入特征、中间特征、层归一化和立方体间/内注意力。

接下来, 通过额外的层归一化(LayerNorm)层和前向传播网络(FFN)层处理,得到最终输出 。

其中 表示前向网络,包含卷积层和深度可分离卷积层。

3.3.CubeFormer-lite

在本文中,作者介绍了CubeFormer-lite,这是对所提出CubeFormer进行高效超分辨率优化的一种轻量级变体。CubeFormer-lite在保留竞争力性能的同时大幅减少了网络参数。为了构造CubeFormer-lite,作者简化了原始CubeFormer架构中的CTG模块,由此产生了被称为CTG-lite的简化模块。

通道分裂。如图4所示,CTG-lite 在通道混洗操作之后引入了额外的通道分裂操作 [31],沿通道维度将特征图分为两个相等的部分。一部分继续通过 intra-CTB 和 inter-CTB 模块进行进一步处理,而另一部分则跳过这些计算,并在稍后与处理后的特征进行连接。这种选择性特征参与减少了 intra-CTB 和 inter-CTB 的参数数量,从而提高了 CTG-lite 的效率。

picture.image

这一系列操作可以形式化地描述为:

其中, 和 Shuffle 分别表示通道分割和通道混洗操作,而 表示 MBConv。

在该配置中, 经过后续操作,而 跳过了这些计算,并随后与变换后的 进行 Concat 操作以形成 。综合特征 然后通过增强的空间注意力(ESA)模块 [27] 处理以生成最终输出 。整个过程可以表示如下:

其中, 和 分别对应内CTB和跨CTB的变换, 表示ESA模块内的变换,而 表示通道级连接操作。

3.4. Learning Strategy

为了有效训练作者的模型,作者采用了空间重建损失和频率重建损失。

空间重建损失。作者首先定义空间重建损失,该损失鼓励预测的高分辨率图像在空间域上接近 GT 图像。具体而言,空间重建损失可表示为:

其中, 表示ground truth 高分辨率图像, 是重构损失, 表示范数。

频率重构损失。为了进一步增强CubeFormer捕捉细粒度细节的能力,作者引入了一种频率重构损失[6, 38],专注于高频信息。频率重构损失定义如下:

其中, 表示频率重建损失,而 是快速傅里叶变换。

总损失。然后,总目标函数定义为这两个损失的加权组合:

其中, 表示总损失, 是一个在实验中设置为 0.01 的权衡参数。

  1. Experiments

4.1. Experimental Setup

数据集与评估指标。与先前的研究[40, 42]保持一致,作者采用DIV2K数据集[40]进行训练,并使用以下已建立的标准基准:BSD100[32]、Urban100[15]和Manga109[33]来评估模型性能。作者采用PSNR和SSIM[46]作为评估指标,两者均在从RGB转换到YCbCr空间后的Y通道上计算。PSNR和SSIM值越大,表示超分辨率质量越高。

实施细节。在训练阶段,通过将HR图像以2倍、3倍和4倍的比例因子应用三次样条下采样[50]生成LR图像。采用随机水平翻转、90/270度旋转以及RGB通道Shuffle等数据增强技术来提升模型的鲁棒性。作者的CubeFormer使用了六层CAG层,每层64个通道。对于立方体内的注意力和立方体间的注意力,应用了四头多头注意力结构。立方体内的注意力立方体和立方体间的注意力立方体的维度分别为和网格大小,均设置为。训练过程使用Adam优化器[20],批量大小为32,共进行80万次迭代。初始学习率为,每20万次迭代减半一次,以确保稳定收敛。对于每个批量,随机裁剪64×64的LR图像块作为输入。所有模型均在PyTorch中实现,并在NVIDIA RTX 4090 GPU上进行了评估。

4.2. Comparison with the State-of-the-art Methods

比较的方法。作者在轻量级和高效超分辨率方法上进行了比较。具体而言,所比较的解决方案包括IMDN [18]、RFDN [27]、LatticeNet [30]、SwinIR [25]、RLFN [21]、ESRT [29]、Shuffemixer [38]、GASSL [43]、MLRN [11]、SAFMN [39]、OSFFNet [45]、SeemoRe [48]、SRConvNet [22] 和 OmniSR [42]。

定量结果。在基准数据集上的轻量级超分辨率比较结果呈现在表1中,揭示了几点关键洞察。总体而言,CubeFormer 在所有尺度因子上均取得了最佳性能。此外,基于异构结构的方法,包括 OmniSR 和 CubeFormer,始终优于像 SwinIR 这样的同构方法,这表明异构和全向信息抽象的有效性。表2总结了高效超分辨率的数值结果。CubeFormer-lite 在 BSD100、Urban100 和 Manga109 指标上表现出色,建立了新的性能标准。与当前最先进的高效超分辨率方法 ShuffleMixer、GASSL-S、MLRN 和 SAFMN 相比,虽然参数量更低,CubeFormer-lite 达到了更佳的表现,突显了其在资源受限环境中的高效性和能力。

picture.image

picture.image

定性结果。为了进一步展示所提出的CubeFormer的有效性,作者与当前最先进的方法进行视觉比较,包括EDSR、SwinIR和OmniSR。图6在Urban100和Manga109数据集上展示了这些比较结果。在第一张图像中,仔细检查放大后的局部 Patch 可以发现,其他方法往往会产生模糊的边缘或伪影。相比之下,CubeFormer成功恢复了更清晰、更精细的细节,接近真实的HR图像。对于Manga109数据集中第二张图像,方法如EDSR、SwinIR和OmniSR生成了不清晰的绿色线条,而CubeFormer则重建了更复杂的纹理并提高了清晰度。总体而言,CubeFormer在捕捉细微的低级特征方面表现出更强的能力,有效地恢复了降质低分辨率图像中的缺失局部细节。

picture.image

参数分析。作者展示了在 Urban100 数据集上通过 缩放因子比较先进轻量级和高效超分辨率方法的 PSNR-参数图,如图5 所示。结果表明,CubeFormer 在不同模型大小下始终优于其他方法。值得注意的是,随着参数数量的增加,CubeFormer 在 PSNR 改进趋势上表现出更明显的优势,而一些竞争方法尽管增加了更多参数,但在 PSNR 方面却出现了边际效益递减的情况。这一分析突显了 CubeFormer 在模型复杂度和性能之间取得最佳平衡的能力,并确立其作为轻量级和高效超分辨率任务的优秀解决方案的地位。

picture.image

4.3.Ablation Study

Cube Attention的有效性分析。作者首先分析了Cube Attention的影响。为此,作者在CTG中进行了三项额外实验,分别用空间注意力、通道注意力以及两者组合替代了Cube Attention模块。空间注意力来源于SwinIR[25],而通道注意力则来自Restormer[49]。结果显示,使用同构结构的模型,如仅含空间注意力或仅含通道注意力的模型,相比异构结构,如空间注意力和通道注意力的组合或作者提出的Cube Attention,性能相对较低。这一结果突显了异构建模对于提升高分辨率图像细节恢复的优势。值得注意的是,CubeFormer甚至超过了空间注意力和通道注意力组合配置,表明作者提出的Cube Attention在细节恢复方面的有效性优于同步的空间和通道注意力在中的效果。

CTG内部/跨区域CTG的效果评估。作者进一步通过四项额外实验评估了Intra-CTG和Inter-CTG的影响。表4报告了Urban100数据集下尺度上的数值性能。如表4所示,作者列出了四种用于比较的模型。Intra-CTG表示去除CubeFormer中的跨区域CTG,而Inter-CTG表示去除其内部CTG。Inter-CTG-2和Intra-CTG-2表示相互替换跨区域CTG和内部CTG。结果显示,当任何一种内部CTG或跨区域CTG缺失时,性能都会下降。这归因于内部CTG提取局部特征的能力和跨区域CTG促进全面全局信息提取的角色。这些功能共同促进了高质量的恢复高分辨率图像。

picture.image

参考

[0]. CubeFormer: A Simple yet Effective Baseline for Lightweight Image Super-Resolution .

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论