轻量级神经网络——shuffleNet - 文章 - 开发者社区

🍊作者简介：秃头小苏，致力于用最通俗的语言描述问题

🍊专栏推荐：深度学习网络原理与实战

🍊近期目标：写好专栏的每一篇文章

🍊支持小苏：点赞👍🏼、收藏⭐、留言📩

轻量级神经网络——shuffleNet

shuffleNet1

在之前，已经讨论过一种轻量级神经网络——MobileNet，文中对MobileNet的三个版本都做了详细的介绍，读此篇之前，建议先了解MobileNet，特别是要对其中的深度可分离卷积有较清晰的认识，因为shuffleNet中的分组卷积和MobileNet的逐深度卷积(Depthwise Convolution)非常相似,故在此篇的描述过程中，我认为大家已经有了MobileNet的基础🆗🆗🆗

shuffleNet1的论文只有9页，是不是还是很轻量的🎈🎈🎈我认为shuffleNet1中最主要的思想有两点，一是逐点分组卷积（Pointwise Group Convolution），二是通道重排（channel shuffle）。下面就来具体的谈谈这两点🧨🧨🧨

逐点分组卷积(Pointwise group convolution)✨✨✨

在说明逐点分组卷积之前先来了解一下什么是分组卷积和逐点卷积。所谓分组卷积，就是将原始的特征图分成几组后再分别对每一组进行卷积。用下图来进行解释，左图表示普通卷积，右图表示分组卷积。左图普通卷积输入特征图个数为12，采用了6个卷积核对输入图像进行卷积，得到了6个输出的特征图；右图分组卷积输入特征图的个数也是12，但其将12个特征图分成了3组（红、绿、黄），每组有4个特征图，这时同样需要6个卷积核，但需要注意的是这6个卷积核也被分成3组，即两两一组。然后将每组的输入特征图和对应的两个卷积核进行卷积，这时每组都会产生2个特征图，一共也会有6个输出特征图。【注意：虽然普通卷积核分组卷积都需要6个卷积核，但他们卷积核的通道数是不一样的，对本列来说，普通卷积的卷积核通道数为12，而分组卷积的卷积核通道数为4。】

picture.image

上面谈到了普通卷积和分组卷积的区别，其实看过MobileNet的同学，应该感觉很熟悉，这和MobileNet里面的逐深度卷积（DW卷积）是非常像的，相当于DW卷积把组分得足够多，每个通道的特征图都为一组，因此不理解分组卷积的可以结合DW卷积思考思考🔮🔮🔮

读到这里，很多读者可能要问了，为什么要采用分组卷积呢？分组卷积相对于普通卷积有什么优势呢？其实分组卷积可以有效的减少网络的容量，使网络更加轻量。下面还是结合上图来算算普通卷积核分组算计各自所消耗的参数量和计算量（不会计算参数量和计算量的请移步：神经网络参数量、计算量（FLOPS）、内存访问量（AMC）计算详解）【注意：这里假设卷积核大小为K*k，输出特征图大小为H*W】

picture.image

通过上图，可以很明显的看出，分组卷积的参数量和计算量都比普通卷积要小。定量观察会发现，普通卷积的计算量和参数量都是分组卷积的3倍，刚好是所分的组数，这是一个一般性的结论。

至此，分组卷积应该是叙述清楚了。这回再来谈谈逐点卷积，这个似乎真没啥好谈的了，再我的MobileNet博客中也提到过，逐点卷积其实就是卷积核为1*1的卷积。

讨论完分组卷积和逐点卷积，就可以来定义逐点分组卷积了。顾名思义，逐点分组卷积就是将分组卷积核逐点卷积相结合，即表示卷积核大小为1*1的分组卷积。

通道重排(channel shuffle)✨✨✨

上面介绍了逐点分组卷积，这里可以看一下逐点分组卷积后的效果，如下图所示：

picture.image

可以看到，不同组之间是没有任何联系的，即得到的特征图只和对应组别的输入有关系。论文中也有这样的描述，这种分组因不同组之间没有任何联系，学习到的特征会非常有限，也很容易导致信息丢失，因此论文提出了channel shuffle。

picture.image

channel shuffle具体是怎么实现的呢？下图标绿框部分即为channel shuffle的操作，即从得到的特征图中提取出不同组别下的通道，并将他们组合在一起，最终channel shaffle完成后的结果如（c）中黄色虚线框所示。

picture.image

上图中从绿框传变成黄色虚线框的过程即为channel shaffle通道重排过程，现将其分解出来，看看channel shaffle通道重排具体过程，如下图：

picture.image

图片来源于B站UP主：同济子豪兄

shuffleNet Unit✨✨✨

(a)是最原始的残差结构，(b)、(c)都是shuffleNet的单元结构。先来看看(a)是如何变成(b)的，首先是用逐点分组卷积代替了逐点卷积，同时在其后跟了一个channel shuffle操作，然后中间的3x3DWConv没有变化，最后的逐点卷积依旧换成了逐点分组卷积。(c)是用来降采样的，和(b)主要区别在shortcut分支中采用了3x3d的步长为2的AVG Pool、主分支中DWConv中的步长变成了2以及最后使用的是Concat而不是add,这样的结构会使输入图像尺寸减半，通道数翻倍。

picture.image