超越MobileNet V3 | 详解SkipNet+Bias Loss=轻量化模型新的里程碑 - 文章 - 开发者社区

picture.image

简介

近年来，Compact卷积神经网络(CNNs)的性能有了显著的提高。然而，在参数众多的情况下，它们仍然无法提供与普通CNN相同的预测能力。这些层捕获的多样且丰富的特征是这些CNN的一个重要特征。

然而，大型CNN和小型CNN在这一特性上的差异很少被研究。在Compact CNN中，由于参数数量有限，不太可能获得丰富的特征，特征多样性成为本质特征。在模型推断期间，从数据点派生的激活映射中呈现的不同特征可能表明存在一组惟一描述符，这是区分不同类的对象所必需的。

相比之下，特征多样性较低的数据点可能无法提供足够数量的描述符来进行有效预测;作者称之为随机预测 。随机预测会对优化过程产生负面影响，并损害最终性能。

picture.image

本文提出通过重塑标准交叉熵来解决随机预测带来的问题，使其偏向具有有限数量独特描述特征的数据点。本文所提出的新型Bias Loss 将训练重点放在一组有价值的数据点上，防止大量学习特征差的样本误导优化过程。此外，为了说明多样性的重要性，作者提出了一系列SkipNet模型 ，其体系结构增加了最后一层的唯一描述符的数量。实验表明，所提出的损失函数优于交叉熵损失。此外，与MobileNetV3 Large相比，Skipnet-M在相似的计算条件下，在ImageNet上分类准确率提高了1%。

picture.image

总结起来，本文的贡献有3个方面:

设计了损失函数，以减少随机预测在Compact CNN优化中的误导;
提出了一个有效的神经结构SkipNet模型 ，以增加数据点的数量与大量独特的描述特征;
在资源受限的条件下，SkipNet模型 在ImageNet分类任务上达到了最先进的性能。

Bias Loss

本文所设计的Bias Loss是为了解决在深度卷积神经网络优化过程中由于随机预测而导致的误导问题。作者认为在compact神经网络中，数据点无法提供足够数量的独特特征来描述物体，迫使模型产生随机预测，也就是说，在没有特征多样性的情况下进行预测。

作者在所有的实验中，作者采用信号方差来作为多样性的一个简单度量，它可以表明特征图从平均值扩散到多远。这种选择背后的直觉是，方差越高获得大量独特特征的机会就越高。

对于方差计算，作者使用最后一个卷积层(在池化和dropout操作之前)的特征映射。这有助于避免在结果和估计更好的学习信号的数据点。设为卷积层的输出，其中b为batchsize，c为输入通道数量，h和w为张量的高度和宽度。在方差计算之前，T被展开成一个二维数组，其中。批处理中第个数据点的特征图方差为:

picture.image

其中：

picture.image

此外，在损失函数中方差被缩放到[0,1]范围内，即:

picture.image

式中，在每次迭代时，Max和min分别为该批特征图中激活量的最大值和最小值。这样做是为了确保方差值中的异常值不会导致损失的大变化，也不会使模型不稳定。

此外，作者建议将关于缺乏唯一描述特征的知识注入优化过程中，为此，作者提出了新的损失函数，即Bias Loss 。Bias Loss是一种动态缩放的交叉熵损失，其尺度随着数据点方差的减小而衰减。

设为特征空间，其中c为若干输入通道，h,w为输入数据的高度和宽度，为标签空间，其中k为类的数量。在一个标准场景中有一个数据集，其中每个，神经网络，其中θ为模型参数。通常，训练的目的是通过最小化训练集的期望损失来学习模型。一般来说，分类问题的交叉熵损失为:

picture.image

其中，作者认为神经网络的输出层是一个softmax。为了校准每个数据点对累积损失的贡献，作者建议添加一个非线性尺度函数，其目的是在低方差和高方差的数据点之间产生bias。bias loss定义为：

picture.image

式中，α和β为可调参数，v为卷积层输出的缩放方差。下图显示了几个α和β值的偏置函数。

picture.image

作者注意到偏差函数的2个性质:

当方差较低时，函数值达到最小值(1−β)，这些数据点的影响是向下加权的。随着方差的增加，z(v)的值随着数据点的影响呈指数增加。
参数α平滑地调整高方差示例的影响率。随着α的增大，高方差数据点的影响也增大。

此外，下图给出了基于方差和预测得分的偏差损失值。

picture.image

对于正确和错误预测的低置信度和低方差数据点，损失是向下加权的。此外，对于高置信度和高方差的错误预测，它是向上加权的，因为从这类具有大量独特特征的数据点学习，可以对优化过程产生积极的影响。实验结果表明，选择α=0.3;β=0.3获得最佳性能。

从直观上看，所提出的函数有助于将学习重点放在能够提供大量独特特征的样本上，并减少在优化过程中可能因随机预测而造成的误导。

SkipNet

作者还引入了一个新的计算块。所提出的block可以很容易地集成到现有的体系结构中，并且不需要额外的工作就可以促进向最后一层的信息流。

4.1 Skip Block

skip block想法是直接将low-level features从第一层传递到最后一层。块的设计是由U-Net架构驱动的，在自动编码器风格的架构中，编码器和解码器中具有相同空间维度的层的输出通过skip connections连接起来。

一般来说，在分类网络中，层空间大小逐渐减小，无法直接使用skip connections。为了解决这一限制，作者提出了一个中间块，它将不同空间大小的层连接起来，并利用从第一层提取的low-level特征来丰富最后一层。

picture.image

如图所示，skip block由池操作和卷积组成。首先，为了保持关键特征和减小空间大小，作者采用自适应平均池化，然后采用3个卷积层。批处理归一化(BN)和ReLU非线性应用在每个卷积层之后，除了最后一个没有使用ReLU的卷积层。选择自适应平均池化是因为它考虑了所有的特性，使得skip block可以处理所有的输入值。卷积层参数采用了MobileNetV3中对inverted residual blocks的setting。

4.2 SkipNet

由于主要目标是增加compact神经网络中独特描述特性的数量，同时降低计算复杂性，因此提出了一种部署skip blocks的SkipNet架构。由于MobileNetV3优越的性能，所以将其作为设计基准。

picture.image