5k参数 | 微型多路径卷积神经网络设计成就了单图超分模型TMSR - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

在本文中，作者提出了一种基于超分辨率（SR）的微型多路径卷积神经网络（CNN）方法，称为TMSR。作者主要参考了一些在5k参数以下的基于CNN的SR方法。所提出的方法的改进之处在于提高了多路径学习和自定义激活函数。

实验结果表明，在5k参数以下，TMSR在图像质量（即峰值信噪比（PSNR）和结构相似性指数（SSIM））方面具有竞争力。

1 Introduction

单图像超分辨率（SISR）的研究在学术界和工业界都得到了持续的发展。随着技术进步，照片传感元件的大小从最初的100x100灰度像素演变成了今天的超像素标准，这一过程已经过去了48年。因此，有必要将作者最早存储的低分辨率图像数据放大，以适应当前的高分辨率显示器，这正是当前SISR研究的主要焦点。

一些著名的算法包括双三次插值、双线性插值和最近邻插值，这些算法在迄今为止的图像缩放应用中已经证明是足够的。然而，当将这些图像放大到更高的分辨率时，会出现一些不希望的伪影，例如Aliasing。为了处理放大后的图像的粗糙度问题，2014年，香港大学的Dong Chao等人提出了一种人工智能（AI）应用，即SRCNN（超分辨率卷积神经网络）。这种AI应用通过深度学习上采样方法[4]增强图像中的像素数据，并生成合理的高分辨率图像数据，从而减少伪影并提高图像质量。

进入21世纪，大数据和计算速度的指数增长使得AI取得了突破性的发展。使用AI从低分辨率图像重建高分辨率图像的技术已经远远超过了插值方法所实现的效果。然而，文献和实证观察表明，虽然更深更复杂的神经网络模型可以显著提高成像结果，但这也意味着更长的训练时间和更高的计算成本。如今，随着流媒体平台的普及和数字成像的普及，设计像电视、数字相机、便携式游戏设备以及作者最常见的智能手机等数字显示产品时，必须考虑到带宽限制和硬件成本。因此，本文的重点是探索如何构建具有较少参数的神经网络模型，但仍能实现更好的成像效果，以便用户在不同硬件平台都能体验到清晰的图像。

2 Related Works

最近，深度神经网络（DNNs），特别是卷积神经网络（CNNs）在计算机视觉的各个领域都表现出了非凡的性能。它们通常用于分类、目标检测、图像分割和其他与图像相关的任务。在这篇论文中，作者将介绍如何将CNN应用于单图像超分辨率（SISR），从而帮助解决与计算机视觉相关的各种其他问题。已经提出了几种基于CNN的SR（超分辨率）方法[1]-[7]。这些CNN结构包括多个卷积层和非线性函数，旨在在超分辨率模型中生成高质量的高分辨率（HR）图像。最初，大多数关于AI模型中单图像超分辨率的研究都集中在增强模型的预测能力。通过“预测”，作者指的是在批量学习训练之后，这些超分辨率模型可以通过各种因素放大新或未训练的图像数据，同时仍然保持出色的性能，在峰值信噪比（PSNR）方面。

然而，在这篇论文中，作者必须在速度和成本之间找到平衡。因此，作者提出了一种基于CNN的经济高效的超分辨率方法。作者使用FSRCNN[2]的特征（i）不需要对输入图像进行预处理，(ii)非线性映射，并将其与MobileNets[5]结合（iii）深度可分卷积和（iv）1x1卷积以减少整个神经网络模型的训练维度。作者还采用了VDSR[3]的残差连接技术。对于残差连接，作者使用分布式多层残差链接来减少整个神经网络模型中使用的神经元参数的数量。

Reduce the quantity of parameters in the CNN filter

多路径残差连接。

训练神经网络的一个挑战是作者通常需要更深层次的网络来实现更好的准确性和性能。然而，网络越深，训练过程中的收敛就越困难。在作者的提出的两阶段多 Scale 残差（TMSR）模型中，作者将采用两阶段残差连接，这是一种简单但非常有效的技术，使深度神经网络的训练更加易于管理。在传统的神经网络中，数据是按顺序将每一层的输出传递到下一层的。相比之下，残差连接跳过一些层，为数据提供了一种到达神经网络后部分的替代路径，如图2所示。

picture.image

在作者提出的超分辨率（SR）模型中，作者定义了残差图像，如图2中的蓝色矩形区域所示。它的值大部分可能是零或非常小的。在提取特征后得到后，作者对提取的特征信息进行压缩，并立即将其恢复到原始尺寸，以获得残差连接的值。此外，作者的实验发现，在执行残差连接之前，在残差块层中添加多个卷积操作可以提高重构图像的峰值信噪比（PSNR）和结构相似性指数（SSIM）值，如图1所示的架构所示。

picture.image

为了追求成本效益并与其他SR模型进行比较，作者尝试调整模型中Residual Block层的滤波器大小，以接近2.5K个神经元参数的数量。作者的方法受到了ResNeXt[6]的启发，该方法在2017年的CVPR会议上提出，如图3所示。这种方法在增加参数数量的同时，保持了较高的准确性，简化模型结构，并实现了模块化。最重要的是，它降低了计算复杂性。

picture.image

在作者的两阶段多 Scale 残差（TMSR）模型中，作者适当地修改了ResNeXt[6]的原有架构。类似于ResNeXt，作者首先将原始的高维卷积层分成多个卷积层。然而，ResNeXt将具有相同维数的卷积层分组，而在作者的TMSR模型中，作者修改了卷积核的大小，采用3x3、1x3和3x1不同的核大小。然后，进行卷积操作，最后，使用残差连接将这些卷积层融合在一起。术语“基数”表示输入数据的大小，例如，对于一个3x3卷积核，基数为9，因为每个输入数据有9个参数。

Receptive field

卷积神经网络的接收域的垂直和水平。

因为作者已经使用ResNeXt[6]架构将单路径残差连接分割成三层，如前所述，作者也修改了原始ResNeXt[6]结构。通过实验观察，作者发现，如果所有三个分组路径都使用3x3卷积核大小进行卷积操作，最终输出图像的质量并不比使用不同核大小的核好。因此，作者将每个层中的卷积操作从最初使用相同核大小改为使用不同大小。

picture.image

通过修改核大小，作者发现，在多路径残差中，在水平和垂直方向上添加卷积核不仅扩大了感受野，而且经过残差连接操作后可以得到更高的峰值信噪比（PSNR）值。这是因为网络结构可以更好地利用图像中的上下文信息和模型中的信息，如图4所示。三路径残差连接的核大小分别为3x3、1x3和3x1。作者使用这些不同大小和方向的感受野来验证它们对图像重建的影响。

Activation Function

还有一个值得注意的点是，作者的TMSR模型使用的是PReLU激活函数，而不是标准的ReLU激活函数。ReLU激活函数是非零中心化的，并且在零处不可导，如图5(a)所示。然而，在其他地方它是可导的。作者观察到ReLU激活函数的另一个问题是Dying ReLU问题，其中一些ReLU神经元实际上变得不活跃，无论提供何种输入，它们都保持非响应。如果神经网络中存在大量不活跃的神经元且没有梯度流动，其性能将会受到负面影响。

picture.image

因此，作者使用参数化的ReLU，它与Leaky ReLU中使用的固定斜率0.01不同，如图5(b)所示，根据方程（2-13）根据模型中x小于0的参数a进行调整。通过使用权重和偏置，作者可以通过反向传播在多个层上调整通过反向传播学习的参数。

(2-1)

请注意，这段文本是数学公式，没有实际的内容需要翻译。

III Proposed Method

Implementation Detail

训练数据集。

为保证客观性和公平性，作者使用现有文献中提到的T91图像数据集[2]作为模型训练的样本集。T91数据集被广泛用作基于学习的超分辨率（SR）方法的训练集。虽然深度模型通常需要大量的数据集，但作者的研究发现仅91张图像对于深度模型来说是不够的，以达到最佳性能。为了充分利用图像数据集，作者采用数据增强[9]，增加图像数量，为模型提供更多的学习参考。作者将数据集扩展了两种方式：（i）作者将T91数据集中的所有91张图像按照0.9、0.8、0.7和0.6的比例缩放，并（ii）进一步将缩放后的图像旋转90度、180度和270度。在数据增强后，作者将拥有原图像数量的19倍，即总共1820张图像，如图3-1所示。

原始图像 (3-1)

测试和验证数据集。

为了确保实验的公平性，作者使用了最广泛使用的测试数据集，如Set5和Set14。此外，作者还使用了B100数据集，该数据集包括来自伯克利分割数据集的自然图像，用于Timofte等人以及Yang和Yang的基准测试。最后，作者还使用了黄等人提供的城市图像数据集Urban100。Urban100数据集特别有趣，因为它包含许多现有方法失败的具有挑战性的图像。

训练样本。

作者通过数据增强生成了1,820张图像，并准备开始提取训练数据特征。首先，作者从原始高分辨率（HR）训练图像中提取大小为的子图像，步长k为14像素。提取的子图像的高度和宽度均为32像素。提取过程从右向左横向移动14像素，直到达到宽度边界，然后返回起点，向下垂直移动14像素，直到图像宽度和高度边界被达到。这个特征提取过程导致了每个图像的宽度和高度限制内的成对HR/LR图像。由于每个图像的尺寸不同，作者最终得到了240,288个子图像。作者知道，在训练过程中，增加训练样本可以防止过拟合。

此外，作者的实验发现，如果作者从General 100训练数据集中提取增强特征的样本，作者将获得3,820张图像。在从General 100提取的3,820张特征图像上进行额外的增强，作者将得到1,218,292个子图像。尽管作者的TMSR模型的训练时间延长了，但通过增强的放大重构图像的质量提高了0.02dB-0.03dB。

训练策略。

作者使用均方误差（MSE），如公式3-2定义，作为训练图像增强的损失函数。然后，作者使用公式3-3中描述的方法计算峰值信噪比（PSNR），以评估重构图像的有效性。更高的PSNR值表示更好的重构质量。作者通过计算PSNR值来评估神经网络模型的卓越性。

(3-2)

(3-3)

此外，作者计算了结构相似性指数测量（SSIM），如公式3-4定义。SSIM指数是针对不同图像计算的。对于大小为NN的两个相同大小的图像x和y，其间的度量评估如下：

(4-4)

其中，表示x的平均值，表示y的平均值，表示x的方差，表示y的方差。SSIM值越接近1，说明超分辨率模型在重构与高分辨率（HR）图像在亮度、对比度和结构方面的相似图像方面越成功。对于初始化，每个层过滤器的权重都从零开始。作者使用PReLU作为激活函数设计卷积滤波器。训练周期设置为5000个epoch，学习率设置为0.0001。通过实验，作者发现较小的学习率有助于网络收敛。

Different Configuration

作者通过将作者提出的TMSR模型中的激活函数从PReLU更改为ReLU进行了实验。

picture.image

如表2所示，Set5和Set14验证数据集上的PSNR值降低了0.02-0.06dB。这表明，在卷积操作后使用PReLU作为激活函数有助于增加PSNR值，这意味着TMSR模型生成的放大重构输出图像质量更高。

picture.image

尽管在卷积操作后使用PReLU作为激活函数会产生计算代价，但我们从表3中观察到。与使用ReLU相比，使用PReLU作为激活函数需要额外的10毫秒。

实验结果

在这里使用TMSR模型来验证Set5、Set14、B100和Urban100数据集。使用公式（3-3）和（3- 4）来计算和比较定量图像质量的差异。

picture.image

表1.总结了所有验证数据集的数据。我们观察到，TMSR模型在PSNR值和SSIM值方面都优于其他基于cnn的SR模型。

picture.image

此外，在表4中，我们列出了Set5数据集中图像的平均PSNR和SSIM值，而表V显示了Set14数据集中图像的平均PSNR和SSIM值。

picture.image

图6显示了原始的HR图像，以及使用双边插值和基于cnn的SR方法重建HR图像的效果，其中包括我们提出的TMSR和RTSRCNN[7]。尽管我们的方法使用了最少的参数，重建的HR图像仍然保持了尖锐的边缘和最小的伪影。

picture.image

此外，在图7中，我们提出的TMSR模型在具有挑战性的Urban100数据集中输出的HR图像与其他基于cnn的SR方法相比，在视觉上显示出了优越的图像质量。

picture.image

V Conclusion

观察当前基于深度学习的SR模型，可以看出它们使用更深、更复杂的网络结构来维持图像放大后的高质量输出结果。然而，这种折衷是需要更多神经网络参数来实现这些输出的。为了解决这个问题，作者总结了FSRCNN和RTSRCNN架构的最佳特征，并优化和重新设计了一种SR模型，它不仅保持了一定的图像输出质量，而且使用了比FSRCNN少40%的神经参数，比RTSRCNN少4%的参数。

通过大量的实验数据，作者证明了作者的TMSR模型可以得到令人满意的结果。由于模型的参数数量相对较少，它也可以在硬件平台上实现。与像VDSR和FSRCNN这样的SR模型相比，在Set5测试数据集上的输出重构的PSNR值分别达到了37.53dB和37.0dB，这留下了与作者的提出的SR模型相比的一小段差距。

在未来，为了缩小这个差距，作者可以考虑改进模型。除了超参数调优外，作者的实验还表明，多路径残差连接有效地提高了图像输出质量。另一种方法是在训练期间收集或增强更多的训练样本，通过利用额外的训练特征来增强重构图像的质量。

参考

[1]. TMSR: Tiny Multi-path CNNs for Super Resolution.

picture.image

点击上方卡片，关注「AI视界引擎」公众号