涨点明显 | 简单复制-粘贴进行数据增强,全面刷新COCO检测和分割Top-1(附论文下载)

智能内容智能语音交互

picture.image

刷新COCO目标检测和实例分割新记录!复制-粘贴是用于实例分割的强大数据增广方法拿下COCO目标检测和实例分割双料第1名!目标检测数据刷到57.3AP;实例分割刷到49.1AP!
作者单位 :谷歌大脑, 加州大学伯克利分校, 康奈尔大学

1 简介

建立数据高效且可以处理稀有对象类别的实例分割模型是计算机视觉中的一项重要挑战。利用数据增广是解决这一挑战的有效方向。作者对Copy-Paste增广进行了系统研究,例如将对象随机Paste到图像上的Mask。先前关于复制粘贴的研究依赖于对周围的视觉环境进行建模以粘贴对象。但是,作者发现随机Paste对象的简单机制足够好,并且可以在强大的Baseline之上提供可靠的收益。此外Copy-Paste在半监督方法下是加法的,该方法通过伪标签利用额外数据。

picture.image

在COCO实例分割上,实现了49.1%的Mask AP和57.3%的Box AP,与之前的最新方法相比,分别提高了0.6%和1.5%。进一步证明,Copy-Paste可以显著改善精度。该文所提Baseline模型在LVIS 2020挑战赛获胜者的基础上提升3.6%。

2 相关方法

2.1 数据增强

与主干网络和检测/分割框架的工作量相比,计算机视觉研究者们对于数据增强的关注相对较少。随机裁剪、颜色抖动、Auto/Rand-Augment等数据增强在实现图像分类、自监督学习和半监督学习的ImageNet基准上发挥了巨大的作用。这些方法在本质上是更一般的用途,主要用于对数据转换不变量的编码,这个原则很适合于图像分类。

2.2 Mixing数据增强

与在数据转换中编码不变量的增强相比,存在一类增强,它们混合了包含在不同图像中的信息,并对groundtruth标签进行了适当的更改。一个典型的例子MixUp增强方法,它创建新的数据点,不受输入像素和输出标签的组合的影响。有混合的适应,如CutMix粘贴矩形Crops的图像,而不是混合所有像素。

在目标检测中也有MixUp和CutMix的应用。YOLOv4中使用的Mosaic数据增强方法与CutMix有关,因为它创建了一个新的复合图像,它是多个独立图像以及它们的真实背景的矩形网格。虽然MixUp、CutMix和Mosaic是有用的结合多个图像或他们的裁剪版本创建新的训练数据,他们仍然不具有目标对象的意识,并没有专门为实例分割的任务设计。

2.3 Copy-Paste数据增强

Copy-Paste数据增强是以目标对象感知的方式组合来自多个图像的信息;一种简单方法是复制来自一个图像的目标对象实例并将它们粘贴到另一个图像上。Copy-Paste类似于Mixup和CutMix,但只是复制一个目标对象对应的精确像素,而不是对象边界框中的所有像素。

本文的工作与Contextual Copy-Paste和InstaBoost的一个关键区别是本文方法是进行随机放置而不需要建模周围的可视上下文来放置被复制的对象实例。并在Baseline模型上进行可靠的改进。

Instaboost与以前的Copy-Paste工作的不同之处在于,它不是通过Paste来自其他图像的实例,而是通过对图像上已经存在的实例进行抖动。

Cut-Paste-and-Learn建议提取目标对象实例,混合并粘贴到不同的背景上,并在原始数据集之外的增强图像上训练。

2.4 本文与前人的区别

虽然使用相同的方法,但有一些不同:

  • (1)、没有使用几何变换(如旋转),并发现粘贴实例的高斯模糊是无效的;
  • (2)、研究了复制粘贴,将一幅图像中包含的目标对象粘贴到另一幅已经填充了实例的图像中,在拥有目标对象实例和背景场景库的情况下提高性能;
  • (3)、将复制粘贴与自训练相结合,研究半监督学习环境下复制粘贴的有效性。

一个关键的贡献是,论文展示了在COCO和LVIS上使用Copy-Paste改进最先进的实例分割模型。

3 本文方法

本文使用Copy-Paste生成新数据的方法非常简单。首先 ,随机选择2张图片,并应用随机缩放抖动和随机水平翻转;然后 ,从其中1张图片中随机选择1个物体子集,并将它们粘贴到另一张图片上;最后 ,相应地调整GT:移除完全遮挡的对象,并更新部分遮挡目标对象的Mask和Box。

picture.image

与Instaboost和Contextual Copy-Paste不同的是本方法没有对周围的环境建模,因此,生成的图像在物体的共同出现或物体的相关尺度方面可能与真实图像非常不同。例如,长颈鹿和不同比例的足球运动员会出现在一起(见上图)。

3.1 混合粘贴目标对象

为了将新目标对象合成为一幅图像,使用Ground Truth Annotations计算粘贴对象的二值Mask(α),并将新图像计算为:

其中为粘贴图像,为主图像。为了平滑被粘贴对象的边缘,对应用高斯滤波器,类似于在Cut-Paste-and-Learn中的 “blending”。但与其不同的是不进行任何混合(blending)的简单组合也有类似的性能。

注: 这里的思想或许也可以应用到目标检测的数据增广之中,可能也会有朋友担心边界框Box的边界问题,作者在这里做了实验说明即使对于paste的图像不进行边缘模糊化的处理,也不会影响结果,或许我们用肉眼看觉得模型或许可能会学到边界的信息,但是我们的数据增广是给模型本身使用的而不是给我们自己看的,所以这个问题不用太多的担心,不过具体的结论还是需要时间才可以知道。

3.2 大尺度抖动

本文使用了2种不同类型的扩展方法与Copy-Paste一起贯穿整个文本:标准尺度抖动(SSJ)和大规模抖动(LSJ)。

picture.image

picture.image

标准规模抖动 (SSJ)调整和裁剪图像的大小,调整范围为原始图像大小的0.8到1.25。
大规模抖动 (LSJ)的调整范围在原始图像大小的0.1到2.0之间。如果图像比原始尺寸小,那么图像将填充灰色像素值。这两种缩放抖动方法也使用水平翻转

这些方法随机调整和裁剪图像。上图给出了这2种方法的图形说明。在实验中观察到大规模抖动产生了显著的性能改进,在大多数以前的工作中使用的都是标准尺度抖动。

3.3 自训练Copy-Paste

除了研究在监督数据上的Copy-Paste,作者还用它作为一种合并额外的无标签图像的方法进行实验。自训练Copy-Paste程序如下:

  • 1、对标记数据进行Copy-Paste数据增广来训练监督模型;
  • 2、对未标记数据生成伪标签;
  • 3、将Ground-Truth实例粘贴到伪标记和监督标记的图像中,并使用新数据训练模型。
  1. 实验

4.1 鲁棒性实验

Copy-Paste适用于各种不同的模型架构、模型大小和图像分辨率。

picture.image

4.2 尺度抖动实验

picture.image

picture.image

Copy-Paste在低数据区域(10%的COCO)最有帮助,SSJ带来6.9%的提升,LSJ带来4.8%的提升。

4.3 SOTA方法对比

picture.image

picture.image

5 参考

[1] Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation.

原文获取方式,扫描下方二维码

回复【 Copy-Paste 】即可获取论文

picture.image

扫描下方二维码即可加入【 AI人工智能初学者 】交流群

picture.image

声明:转载请说明出处

扫描下方二维码关注【AI人工智能初学者】公众号,获取更多实践项目源码和论文解读,非常期待你我的相遇,让我们以梦为马,砥砺前行!!!

picture.image 点“在看”给我一朵小黄花呗 picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动云原生降本增效实践
本次分享主要介绍字节跳动如何利用云原生技术不断提升资源利用效率,降低基础设施成本;并重点分享字节跳动云原生团队在构建超大规模云原生系统过程中遇到的问题和相关解决方案,以及过程中回馈社区和客户的一系列开源项目和产品。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论