涨点明显 | 简单复制-粘贴进行数据增强，全面刷新COCO检测和分割Top-1(附论文下载) - 文章 - 开发者社区

picture.image

刷新COCO目标检测和实例分割新记录！复制-粘贴是用于实例分割的强大数据增广方法拿下COCO目标检测和实例分割双料第1名！目标检测数据刷到57.3AP；实例分割刷到49.1AP！
作者单位 ：谷歌大脑, 加州大学伯克利分校, 康奈尔大学

1 简介

建立数据高效且可以处理稀有对象类别的实例分割模型是计算机视觉中的一项重要挑战。利用数据增广是解决这一挑战的有效方向。作者对Copy-Paste增广进行了系统研究，例如将对象随机Paste到图像上的Mask。先前关于复制粘贴的研究依赖于对周围的视觉环境进行建模以粘贴对象。但是，作者发现随机Paste对象的简单机制足够好，并且可以在强大的Baseline之上提供可靠的收益。此外Copy-Paste在半监督方法下是加法的，该方法通过伪标签利用额外数据。

picture.image

在COCO实例分割上，实现了49.1%的Mask AP和57.3%的Box AP，与之前的最新方法相比，分别提高了0.6%和1.5%。进一步证明，Copy-Paste可以显著改善精度。该文所提Baseline模型在LVIS 2020挑战赛获胜者的基础上提升3.6%。

2 相关方法

2.1 数据增强

与主干网络和检测/分割框架的工作量相比，计算机视觉研究者们对于数据增强的关注相对较少。随机裁剪、颜色抖动、Auto/Rand-Augment等数据增强在实现图像分类、自监督学习和半监督学习的ImageNet基准上发挥了巨大的作用。这些方法在本质上是更一般的用途，主要用于对数据转换不变量的编码，这个原则很适合于图像分类。

2.2 Mixing数据增强

与在数据转换中编码不变量的增强相比，存在一类增强，它们混合了包含在不同图像中的信息，并对groundtruth标签进行了适当的更改。一个典型的例子MixUp增强方法，它创建新的数据点，不受输入像素和输出标签的组合的影响。有混合的适应，如CutMix粘贴矩形Crops的图像，而不是混合所有像素。

在目标检测中也有MixUp和CutMix的应用。YOLOv4中使用的Mosaic数据增强方法与CutMix有关，因为它创建了一个新的复合图像，它是多个独立图像以及它们的真实背景的矩形网格。虽然MixUp、CutMix和Mosaic是有用的结合多个图像或他们的裁剪版本创建新的训练数据，他们仍然不具有目标对象的意识，并没有专门为实例分割的任务设计。

2.3 Copy-Paste数据增强

Copy-Paste数据增强是以目标对象感知的方式组合来自多个图像的信息；一种简单方法是复制来自一个图像的目标对象实例并将它们粘贴到另一个图像上。Copy-Paste类似于Mixup和CutMix，但只是复制一个目标对象对应的精确像素，而不是对象边界框中的所有像素。

本文的工作与Contextual Copy-Paste和InstaBoost的一个关键区别是本文方法是进行随机放置而不需要建模周围的可视上下文来放置被复制的对象实例。并在Baseline模型上进行可靠的改进。

Instaboost与以前的Copy-Paste工作的不同之处在于，它不是通过Paste来自其他图像的实例，而是通过对图像上已经存在的实例进行抖动。

Cut-Paste-and-Learn建议提取目标对象实例，混合并粘贴到不同的背景上，并在原始数据集之外的增强图像上训练。

2.4 本文与前人的区别

虽然使用相同的方法，但有一些不同:

(1)、没有使用几何变换(如旋转)，并发现粘贴实例的高斯模糊是无效的;
(2)、研究了复制粘贴，将一幅图像中包含的目标对象粘贴到另一幅已经填充了实例的图像中，在拥有目标对象实例和背景场景库的情况下提高性能;
(3)、将复制粘贴与自训练相结合，研究半监督学习环境下复制粘贴的有效性。

一个关键的贡献是，论文展示了在COCO和LVIS上使用Copy-Paste改进最先进的实例分割模型。

3 本文方法

本文使用Copy-Paste生成新数据的方法非常简单。首先，随机选择2张图片，并应用随机缩放抖动和随机水平翻转；然后，从其中1张图片中随机选择1个物体子集，并将它们粘贴到另一张图片上；最后，相应地调整GT:移除完全遮挡的对象，并更新部分遮挡目标对象的Mask和Box。

picture.image

与Instaboost和Contextual Copy-Paste不同的是本方法没有对周围的环境建模，因此，生成的图像在物体的共同出现或物体的相关尺度方面可能与真实图像非常不同。例如，长颈鹿和不同比例的足球运动员会出现在一起(见上图)。

3.1 混合粘贴目标对象

为了将新目标对象合成为一幅图像，使用Ground Truth Annotations计算粘贴对象的二值Mask(α)，并将新图像计算为:

其中为粘贴图像，为主图像。为了平滑被粘贴对象的边缘，对应用高斯滤波器，类似于在Cut-Paste-and-Learn中的 “blending”。但与其不同的是不进行任何混合（blending）的简单组合也有类似的性能。

注：这里的思想或许也可以应用到目标检测的数据增广之中，可能也会有朋友担心边界框Box的边界问题，作者在这里做了实验说明即使对于paste的图像不进行边缘模糊化的处理，也不会影响结果，或许我们用肉眼看觉得模型或许可能会学到边界的信息，但是我们的数据增广是给模型本身使用的而不是给我们自己看的，所以这个问题不用太多的担心，不过具体的结论还是需要时间才可以知道。