TPN: FPN的变革者,你所用检测器的Neck该更新了

MySQLNoSQLService Mesh

关注 AIWalker 星标

从此AI不迷路

注:原解读文发于 2021/10/12

picture.image

arXiv:2110.04004

arXiv:2110.04004 Abstract

特征金字塔已成为多尺度CV任务(比如目标检测)中普遍存在的模块。考虑到其重要性,我们将CV模型分为三个部分:

  • backbone: 用于生成特征金字塔
  • core:用于对特征金字塔进行提炼
  • head:用于生成最终的输出

picture.image

现有对特征金字塔进行处理方案往往比较浅,往往聚焦于top-down或者bottom-up方式 通讯处理 (communication-based processing)。本文提出一种新的新的架构TPN(Trident Pyramid Network),它可以进行更深设计,同时在通讯处理与字处理之间具有更好的均衡。

当在COCO检测任务上使用TPN时可以看到一致性性能提升, 以1.5AP指标优于BiFPN基线 。此外,我们发现:当为TPN添加更多计算量(而非Backbone)时, ResNet50+TPN以1.7AP指标超过约了ResNet101+FPN ,同时两者具有相当的计算复杂度。

Method

TPN Core Architecture

picture.image

一般来讲,Core模块以特征金字塔作为输入,输出更新后的特征金字塔,一种的主流的特征金字塔为。上图给出了Core模块的三种构建方式:

  • top-down
  • self-processing
  • bottom-up

picture.image

接下来,我们将主要聚焦于如何对上述操作进行最佳组合。采用这些通用模块,我们可以对主流的FPN与PANet进行重设计,见上图。注:上图仅为FPN与PANet架构的核心结构示意图,移除了transition部分操作。从上图我们可以看到两点:

  • top-down与bottom-up操作是sequential形式的;
  • 两种结构中均无self-processing操作。

首先, 我们对sequential与paralle两种形式操作的均衡性进行讨论 。在sequential操作中,通过新的进行更新而非未更新者,这就使得这些操作必须顺序执行且新特征必须可用。相反;parallel可用使用未更新者进行特征更新。sequential与parallel的操作选择可视作同等内存占用下的速度与精度均衡考量。考虑到高分辨率特征导致的计算量问题,top-down与bottom-up的sequential处理方式更为常见,即FPN与PANet中的操作。

然后, 我们在来讨论FPN与PANet中的缺失的Self-processing操作 。以PANet为例,bottom-up操作紧接top-down操作,我们认为这种处理方式是次优的。以的top-down操作为例,其后紧接,也就是说:刚经由更新后又立刻对进行更新而并未进行特征消化与提炼。我们认为:top-down与bottom-up操作之间应该通过self-processing操作分离。这也就给了特征在同进行通讯之前与自身协同处理的机会。

最后,我们组合上述讨论得到了本文的TPN,见下图,它包含top-down、self-processing以及bottom-up等操作。

picture.image

Communication vs Content

以上面的Figure4图示的TPN为例,它在两边进行基于comminication的top-down与bottom-up处理,在中间进行基于content的self-processing处理。可能有人会问: communication与content之间如何进行最佳均衡呢

picture.image

首先,我们来看一下self-processing操作。我们将其定义为上图形式。其中Bottleneck层的数量B决定了TPN中self-processing的数量。

然后,每个TPN层包含一个top-down、一个bottom-up,TPN层的数量L决定了TPN中的communication-processing的数量。因此,通过改变B和L,我们可以对两者进行均衡。

Top-down and Bottom-up Operations

picture.image

一般来讲,top-down与bottom-up操作通过额外的特征对当前特征进行更新,要么更低分辨率,要么更高分辨率。上图给出了本文关于top-down与bottom-up的实现:

  • 对于top-down操作,先对进行特征提取然后再进行双线性插值,最后与相加得到更新后的;

  • 对于bottom-up操作,对采用三个卷积(中间卷积stride=2)进行特征提炼,然后再与相加得到更新后的。

Experiments

在实验方面,训练数据集为MS-COCO,基线模型为一阶段检测器RetinaNet。其他训练细节与超参建议查看原文,这里略过。

TPN Experiments

picture.image

上图给出了对标的FPN改进版示意图,前者加深了backbone,后者加深了head部分,这种改进版是为了确保计算量的相当。

picture.image

上表给出了不同TPN配置的性能对比,从中可以看到:

  • 四种不同的TPN架构的性能非常相近,均在413-41.8AP之间。更大的L参数要比更大的B参数带来稍高的性能,这说明:两者之间的均衡更强于communication-processing,但是当完全移除content-processing后,TPN退化为PANet架构,性能大幅下降到38.8;
  • 对比TPN与PANet以及BiFPN,我们可以看到: TPN架构以1.0-1.5AP指标显著优于BiFPN
  • 对比TPN与bFPN以及hFPN,我们可以看到: TPN表现最佳 。比如, ResNet50+TPN组合以1.7AP指标优于ResNet101-FPN ,而ResNet101-FPN具有与ResNet+hFPN、ResNet50+bFPN相当的性能。

总而言之,TPN不仅优于PANet以及BiFPN等知名结果,同时优于重backbone基线与重head基线。

Comparison with Other Methods

picture.image

上表对比了TPN与其他方案的性能,从中可以看到:

  • 在不同目标尺寸下,所提方案均具有更优的性能;

  • 相比DETR与Deformable DETR,所提方案在小目标方面表现尚可,在大目标方面表现较差(这个对比不是那么公平,一个是模块一个架构,不是很方便进行公平对比)。

个人思考

这篇论文目前尚未开源,其性能几何暂时不可知。仅从笔者有限的经验来看:TPN比FPN和PANet有效是肯定的,但与最近一年其他FPN的改进对比如何就不可知了。

从应用角度来看,TPN不是那么实用。对于算法的应用来说,速度与精度均非常重要,甚至速度优于精度。而TPN的这种设计方式无疑会很大程度上导致推理速度变慢,故实用价值只能说不怎么样。

从创新角度来看,TPN的出发点其实很简单,就是对常见的FPN与PAN“缺失点”出发进行探索,这样就比较容易找到一个新的切入点,FPN与PAN中间插入一个并行的操作,也就是文中的self-processing。这种处理方式非常简单,其实还可以更简单,直接大一统是不是也可以呢?也许吧。

从实验对比来看,TPN一文的实验对比做的太粗糙了,对比的Neck方法均是非常“古老”的,而对最新的一些FPN改进则并未纳入对比中,一个小小的“败笔”。

推荐阅读

  1. Timm助力ResNet焕发“第二春”,无蒸馏且无额外数据,性能高达80.4%
  2. PPLCNet:CPU端强悍担当,吊打现有主流轻量型网络,百度提出CPU端的最强轻量型架构
  3. GPU端精度最高速度最快的强悍担当:GENet
  4. 新一代移动端模型MobileNeXt来了!打破常规,逆残差模块超强改进,精度速度双超MobileNetV2
  5. “重参数宇宙”再添新成员:RepMLP,清华大学&旷视科技提出将重参数卷积嵌入到全连接层
  6. 新坑!谷歌提出MLP-Mixer:一种无卷积、无注意力,纯MLP构成的视觉架构

---------- © THE END ----------

公众号「 AIWalker 」期待你的关注!

☆☆☆☆☆

如果你关注以下方向,请关注一下「AIWalker」~

底层视觉处理 :如图像超分、图像降噪、低光增强、图像复原、人脸复原、等图像处理相关方向;

基础AI技术栈 :如算子解析、轻量化网络、CNN、Transformer、MLP、VLM等视觉相关架构;

图像分割方向 :如语义分割、人体解析、人像抠图、显著性分割以及单目深度估计等相关方向;

检测跟踪方向 :如通用检测、人脸/人体检测、YOLO、DETR、DeepSORT等相关技术栈;

模型部署维度 :如知识蒸馏、模型量化、NCNN、TFLite、TensorRT、RKNN等技术与工具链。

扫码加微信, 备注:「研究方向+学校/公司+昵称

picture.image

扫码或加微信号: AICVerX2,获取最新深度视觉论文

▲点击上方卡片,关注AIWalker公众号

整理不易,请点赞和在看

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
边缘云打通大模型物理世界
《火山引擎边缘智能,打通大模型的物理世界》 张俊钦 | 火山引擎边缘智能资深研发工程师
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论