3D-COCO数据集开源 | COCO数据集迎来3D版本开源，为COCO数据集带来3D世界的全新任务，2D-3D完美对齐 ! - 文章 - 开发者社区

picture.image

作者介绍了3D-COCO，这是对原始MS-COCO [1]数据集的扩展，提供了3D模型和2D-3D对齐标注。3D-COCO旨在完成计算机视觉任务，如3D重建或图像检测，这些任务可以通过文本、2D图像和3D CAD模型 Query 进行配置。作者在ShapeNet [2]和Objaverse [3]上收集了28K个3D模型，以此来完善现有的MS-COCO 数据集。通过使用基于IoU的方法，作者将每个MS-COCO [1]标注与最佳的3D模型匹配，以提供2D-3D对齐。3D-COCO的开源特性是首创，应该为3D相关主题的新研究铺平道路。

点击关注，私聊获取数据集及其源代码。

1 Introduction

近十年来，目标检测已经成为计算机视觉领域的核心话题。这种日益增长的兴趣源于自动驾驶、人群计数、异常检测和智能视频监控等新挑战。因此，多年来已经开发出了许多创新型的神经网络，如Faster R-CNN [4]，YOLO [5]，SSD [6]和DETR [7]。大多数这些架构的性能都是通过像Pascal VOC [8]，Open Images [9]和MS-COCO [1]这样的广泛使用的数据集进行评估和比较的。

对这些架构进行了迭代改进，从而使得可以对在训练过程中出现的物体实现最佳性能的检测。一个新的研究领域涉及在训练过程中未出现的新的语义类的检测。这种创新将使目标检测器能够在不需要重新训练的情况下满足更广泛的应用领域。例如，OV-DETR [10]使用基础模型作为主干，将DETR [7]架构转化为可配置文本和图像的开词汇检测器。然后，开发可配置3D模型的检测网络可能很有趣，但传统的检测数据集不包括3D模态。

与此同时，基于神经网络的3D重建方法也得到了发展。这些架构可以用于例如工业或虚拟现实应用。最近，出现了有前景的3D重建方法，如3D-C2FT [11]，LegoFormer [12]或VPFusion [13]。它们的性能通常是在ShapeNet [2]上评估的。尽管这个数据集包括了广泛遇到的物体，但它可以补充MS-COCO [1]等检测数据集中存在的新语义类别。此外，ShapeNet [2]只提供合成渲染，这限制了3D重建网络在现实世界情况下的应用。

因此，作者提出了3D-COCO，这是广泛使用的MS-COCO [1]数据集的一个扩展版本，适用于可以通过文本、2D图像或3D CAD模型 Query 进行配置的目标检测，以及单视图或多视图3D重建。3D-COCO数据集为图像检测提供了新的视角，它提供了自动与2D标注对齐的3D模型。它还为实现将实拍图像用于3D重建开辟了道路，这种重建在此之前仅限于合成图像。

此外，3D-COCO为3D重建提供了比ShapeNet [2]更丰富的语义类别。使用ShapeNet [2]和Objaverse [3] 3D模型数据库为MS-COCO [1]的每个80个语义类别提供足够数量的物体。利用基于IoU的简单而有效的自动类别驱动检索方法，实现了收集到的3D模型与MS-COCO [1] 2D标注之间的对齐。

总结一下，作者做出了以下贡献：

作者提出了3D-COCO，一个适用于2D到3D可配置检测以及单视图或多视图3D重建的数据集。这个数据集以原始的MS-COCO [1]检测数据集为基础，并扩展了从ShapeNet [2]和Objaverse [3]收集的3D模型。
作者展示了一个基于IoU检索的自动类别驱动方法，用于匹配每个MS-COCO [1] 2D标注与数据集中在形状和几何相似性方面最佳的3D模型。

2 Related Work

在计算机视觉领域，将图像模态与3D结合具有重大意义，因为它有望提高场景理解和生成任务的准确性。通过整合这些互补的模态，计算机视觉系统在空间感知和目标识别能力上得到提升，有效地解决了遮挡、可变光照和透视失真等问题，这些问题在基于2D图像的分析中是常见的。

在可配置 Query 的目标检测的背景下，许多研究已经提出了相关数据集。例如，作者可以引用MS-COCO [1]，3DObject [14]，EPFL Car [15]，或NYU Depth [16]。实际上，这些数据集提供了带有标注文件的图像，文件中包含了边界框和标签，可以用于简单的检测任务，或者分别从标签和边界框中提取文本 Query 和2D图像 Query 的检测任务。其他一些检测数据集还提供了3D CAD模型，如ObjectNet3D [21]，ABO [22]等。

同时，也提出了其他用于3D重建任务的数据集，如ShapeNet [2]，PASCAL3D+ [20]，以及最近的广泛数据库Obiayverse [3]和ObiayverseXL [28]。

在这些数据集中，3D模型可以以多种不同的格式提供：

KITTI [18]中的多视图图像
SUN-RGBD [17]中的RGB-D图像
Google Scans [24]和CO3D [25]中的点云
IKEA [19]，PASCAL3D+ [20]，ObjectNet3D [21]，ABO [22]，3DFuture [23]，Pix3D [26]和PhotoShape [27]中的网格
ShapeNet [2]中的 Voxel 网格

此外，可以注意到，这些数据集要么表示广泛的概念，如MS COCO [1]或ObjectNet3D [21]，要么表示非常专业化的目标类别，如EPFL Car [15]或KITTI [18]。

picture.image

关于所有这些数据集的相关信息在表1中进行了总结。3D-COCO背后的动机是提供一个通用的目标数据集，解决大多数场景理解和3D重建任务。为了达到这样的目标，使用了MS-COCO [1]检测数据集作为 Baseline 。

实际上，这个数据集提供了164K真实图像和大量的检测标注（约897K），代表了80个语义类的实例。此外，该数据集被用作检测、分割和姿态估计任务的参考。

3D-COCO数据集在格式上与ObjectNet3D [21]等效，因为它提供了训练经典检测网络所需的所有数据，包括3D模型和2D-3D。最后，为了应对各种应用，3D-COCO提供了多种格式的3D CAD模型。因此，这些标准化输入将供每个用户共享。

3 Dataset Creation Method

Collection of 3D models

首先，收集3D模型以创建MS-COCO[1]的扩展版本，该版本不含任何CAD模型。如图1左侧所示，先将80个MS-COCO[1]标签与55个ShapeNet[2]标签进行匹配。实际上，

picture.image

ShapeNet[2]提供了各种常见物体的高质量模型，这对于作者新的数据集非常重要。图1中由深色圆圈表示的22个匹配类别构成了对3D-COCO的第一个贡献，提供了26,254个模型。

剩下的58个标签然后使用Obiayverse[3] 3D数据库进行补充。实际上，如前所述，Obiayverse[3]提供了大约800K个来自众多语义类别的CAD模型。因此，在Obiayverse网站上进行了手动选择，以补充相关的3D-COCO模型。首先，使用标签名称在Obiayverse[3]网站上搜索，然后存储手动选择模型的通用标识符（UID），稍后使用Obiayverse[3]的python API以GLB格式收集所选模型。最后，收集的3D模型使用本文后面描述的文件夹架构进行存储。

手动模型收集的结果是，Obiayverse[3]向3D-COCO提供了1,506个模型。图1展示了以下方法论。关于MS-COCO[1]语义类别、它们的标识符和模型的所有信息在表2中总结。

picture.image

收集完毕后，Obiayverse[3]上的3D网格通过使用trimesh python模块从GLB转换为OBJ格式，以匹配ShapeNet网格格式。然后，对3D-COCO的每个模型进行居中操作，通过计算其顶点的均值来实现，其中每个顶点坐标由包含该顶点的面的总和加权。在此操作之后，对模型进行预处理，使它们以下列格式可用：32大小的 Voxel ，包含10,000个元素的点云以及62种视图的不同性质的渲染图像（纹理、灰度合成、深度图和二值）。

点云和 Voxel 分别使用open3d1和binvox2 python模块生成。使用Blender的Python API 3为每种4种渲染类型生成渲染视图。这62个渲染视图在一个Isdydakis二十面体结构（由62个顶点组成）中均匀采样。图像和 Voxel 大小被选择以适应大多数3D重建网络处理的大小。这些操作使得数据集在更广泛的应用中可用，如图1的右侧部分所示。

2D-3D匹配

然后，基于自动类驱动检索方法的IoU实现2D-3D对齐。实际上，CAD模型包含大量关于形状的信息，而IoU在量化元素之间形状相似性方面非常有效：因此，这个指标适合解决3D-COCO所需的2D-3D对齐任务。通过这种方式，每个MS-COCO[1]标注与在几何和形状方面最具代表性的3D CAD模型进行匹配。

如图2所示的基于IoU的匹配方法需要在MS-COCO[1]标注和3D-COCO模型上进行一些预处理。实际上，使用MS-COCO[1]标注和API生成每个标注的二值 Mask ，如图2左侧所示。此 Mask 保存在图像上，并按比例进行归一化，使表示的元素触及图片边缘。对于每个CAD模型，在3.1中进行了相同的处理，以获得图1右下侧表示的62个二值 Mask 。这个过程使得可以得到相似大小的图像上的轮廓，这些轮廓将兼容IoU计算。

picture.image

如图2右侧所示，对于每个MS-COCO[1]标注，计算标注的二值 Mask 与所有具有相同标签的3D模型的渲染视图的二值 Mask 之间的IoU。最佳匹配模型是提供最高IoU的那个。因此，每个MS-COCO[1]标注与其在3D-COCO中最具代表性的3个模型相匹配。

Specific issues addressed in the annotation process

picture.image

在观察MS-COCO [1]图像及其标注时，某些情况可能会损害检索操作或在进行目标检测时：

标注太小（图3a）。如果边界框中的像素数与图像中的像素数之比低于一个阈值（此处为），则可以检测到此情况。然后，将标注标记为。
标注由单个标注中出现的几个实例组成（图3b）。此情况通过使用现有的MS-COCO [1]标志来检测。
标注被截断（图3c）。如果边界框与图像边缘的距离与图像尺寸之比低于一个阈值（此处为），则可以检测到此情况。然后，将标注标记为。
标注被图像中的另一个标注遮挡（图3d）。如果标注蒙版与图像中的另一个蒙版相交，导致IoU分数不为0，则可以检测到此情况。然后，将标注标记为。
实例被划分为多个分离的区域（图3e）。此情况通过在实例的二值蒙版上应用连通组件标记来检测。考虑到如果每个像素与其连接的像素具有相同的标签，在应用该方法后如果出现不止一个标签，则将标注标记为。
MS-COCO [1]图像的标注准确性不足，以及收集的3D模型多样性不足（图3f）。在这个例子中，实例被标注为“香蕉”，但所有带有此标签的3D模型都代表整个香蕉。这个实例应该然后被标注为“香蕉片”，或者CAD模型数据库应该用代表香蕉片的网格来完成。这种情况很难自动确定。

图4展示了两个基于IoU的自动类别驱动检索的例子。## 4 许可和伦理

picture.image

从许可的角度来看，MS-COCO [1]和ShapeNet [2]都采用CC-BY 4.0许可，而Obiayverse [3]采用ODC-BY许可。因此，3D-COCO在与所使用数据集兼容且非限制性的方式下进行许可。

关于伦理考虑，3D-COCO对该领域的贡献仅限于添加3D CAD模型和实施2D-3D对齐技术。这种对MS-COCO的增强不会改变或影响原始数据集遵守隐私和伦理标准的情况。

5 Conclusion

总之，3D-COCO被视为原始MS-COCO [1]数据集的扩展，包括了来自ShapeNet [2]和Obiayverse [3]的27,760个3D CAD模型，涵盖了80个不同的语义类别。作者实现了一种基于IoU的自动类别驱动检索方法，以提供860,001个训练或36,781个验证标注与收集的3D模型之间的2D-3D对齐。这个扩展弥合了MS-COCO [1]与3D世界之间的鸿沟：由于3D-COCO，可以开展新的任务，如可配置3D模式的检测网络，合成多视图3D重建网络，或真实单视图3D重建网络。

3D-COCO的理念在于其透明性、开放获取以及允许用户通过代码共享对原始提出的数据集进行迭代。

然而，对于数据集的未来迭代，3D-COCO可以通过以下方式进行改进：

对诸如人或动物等关节式3D模型采用更好的2D-3D对齐方法。
探索基于神经网络特征提取的其他检索方法。
整合新的3D模型，以使每个类别的CAD模型数量更加平衡。

参考

[1].3D-COCO: Extension of MS-COCO dataset for Scene Understanding and 3D Reconstruction.