EVA 与 CLIP 的融合力量 | 在 V3Det 数据集上展现强大的语义特征提取能力！ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

在本技术报告中，作者展示了在Vast Vocabulary Visual Detection（V3Det）数据集上针对监督大词汇视觉检测任务的研究成果。如何处理复杂类别和检测框已成为这一赛道的难点。

原始的监督检测器不适用于此任务。

作者设计了一系列改进措施，包括调整网络结构、改变损失函数以及设计训练策略。

作者的模型在 Baseline 基础上有所提升，并在2024年V3Det挑战的大词汇目标检测（监督）赛道和开放词汇目标检测（OVD）赛道的排行榜上取得了优异的成绩。

1 Introduction

V3Det数据集[38]是一个大规模、丰富标注的数据集，包含超过13,000个目标类别的检测边界框标注，这些标注是基于真实图像的。它包括一个分层的类别结构，详细的类别隶属关系形成一个完整的关系树。如图1所示，V3Det包含245,000张标注图像和专家生成的描述，对于计算机视觉中高级目标检测研究来说是一个宝贵的资源。

picture.image

本次研讨会设有两个赛道。第一个赛道（监督学习），称为大规模词汇目标检测，旨在评估针对V3Det数据集中的所有13,204个类别进行监督学习模型的目标检测。检测任何目标一直是计算机视觉领域的长期目标。由于现实世界中有无数的多样目标，理想的视觉检测系统应该能够检测大量的类别，并适用于开放词汇类别。

目前广泛使用的目标检测数据集，如COCO [23]、Objects365 [32]和OpenImages v4 [19]，尽管提供了大量的图像和类别，但词汇量仍然有限。这些数据集有限的词汇量限制了类泛化检测器的训练潜力，因为理想的检测器应该能够识别训练集之外的类别。

即使是像LVIS [16]这样的大词汇目标检测数据集，也无法完全在类别数量和多样性方面代表现实世界的复杂性。V3Det为研究界提供了一个大词汇目标检测数据集，这可以加速探索更通用的视觉检测系统。基准级联结构非常适合处理V3Det数据集的分层类别结构。

作者将监督学习赛道I视为一个具有复杂标签的传统目标检测任务，使用常见的检测改进策略。通过改进特征金字塔网络（FPN）结构，作者希望网络能够有效地学习更深层的语义信息。此外，作者还通过调整损失函数来平衡类别标签。

结合CLIP [29]的基准EVA模型[12]展示了强大的语义特征提取能力。由于时间和计算资源的限制，作者仅依赖监督训练进行赛道II，但即使在新颖类别上也能获得良好的检测结果。

这在一定程度上表明，V3Det数据集涵盖了来自现实场景的广泛标注，优秀的检测器从中学习到丰富的语义信息，因此展现出良好的泛化性能。

2 Related Work

深度学习的发展在计算机视觉、自然语言处理和语音识别领域带来了重大突破。近年来，深度神经网络在各种领域成为主导方法，在广泛的任务上取得了最先进的表现。

在视觉识别领域，卷积神经网络（CNNs）展现出了非凡的能力，这激发了人们探索它们在目标检测、图像分割和视频分析等潜在应用的可能性。

Object Detection

目标检测是计算机视觉中最为传统的任务之一，在自动驾驶[41, 39, 28]、机器人技术[9]、遥感[4]等不同行业有着广泛的应用。它以图像作为输入，定位并分类给定词汇表内的物体。每个检测到的物体由带有类别标签的边界框表示。

基于经典CNN的目标检测器可以分为两大类：两阶段和单阶段检测器。两阶段检测器首先生成物体 Proposal ，然后在第二阶段对它们进行细化，这提供了更高的精度，但代价是复杂性增加。单阶段检测器，如YOLO [30, 15, 37, 36]和SSD[25]，直接对预定义的 Anchor 框进行分类和回归，或者搜索几何线索，如点[35]、中心[11]和角点[20]，这提供了更快但可能准确性较低的结果。基于Transformer的检测器[33, 17, 3, 48]使用自注意力机制捕捉图像中的全局上下文信息，无需额外的组件，如 Anchor 框和非极大值抑制（NMS）。端到端的架构更为简单，使得训练和推理过程更加直接。

目前，基于扩散的新颖检测器正在兴起[6, 7]。同时，目标检测正与大型语言模型（LLM）结合，以实现开放词汇检测[42, 8, 40]和万物检测。这种方法使得目标检测不仅局限于检测器架构的设计，还使模型具有更好的适应性，以处理复杂场景和各种类型的物体。

Data Augmentation

数据增强是在机器学习和深度学习中常用的技术，旨在转换和扩展训练数据，以增加其多样性和丰富性。除了常见的数据增强方法，如翻转、抖动和缩放，有效的目标检测数据增强技术可以大致分为基于切割[46, 10]和基于混合[44, 43, 18]的方法。还有由YOLOv4[1]提出的广泛使用的马赛克方法。

3 Our Method

在本节中，作者详细阐述了作者方法的技术细节。基于 Baseline ，作者做了两项改进：(a) 对模型架构的调整，(b) 对损失函数和训练策略的改进。作者将在以下小节中介绍每个组成部分。

Baseline Framework

在这项挑战中，组织者基于MMDetection[5]和Detectron2构建了两个 Baseline 。基于Detectron2的 Baseline EVA3使用了一种级联RCNN架构，其主干网络为ViTDet[22]。EVA的预训练任务包括 Mask 图像建模（MIM），旨在重建由CLIP[29]生成的对齐的图像-文本 Mask 视觉特征。这个网络展示了强大的泛化性能，并且在许多视觉任务上达到了最先进（SOTA）水平。基于MMDetection Baseline 4，表现最佳的模型同样基于级联R-CNN[2]，并以Swin-Transformer[26]作为其主干网络。级联结构非常适合于通过逐步细化边界框和分类结果的多类别检测任务。级联头中的每个阶段都使用两个共享的全连接层，这有助于在不同阶段捕捉目标的高级语义特征。为每个阶段设置的IoU阈值确保了检测框在每一级都变得更加精确。

Model Architecture Adjustment

Backbone 网络。 Baseline 采用了Swin Transformer [26]作为特征提取的 Backbone 网络，通常使用的版本有Swin-S、Swin-B和Swin-L5。不同的版本会影响参数数量、计算成本和准确度。因此，作者对不同的 Backbone 网络进行了多次尝试。组织者提供的 Baseline 预训练模型使用ImageNet-1K预训练权重来初始化 Backbone 网络。作者也尝试使用ImageNet-22K预训练权重来初始化Swin-B Backbone 网络。作者还尝试使用了分辨率为384×384的预训练模型。除了使用Swin Transformer作为 Backbone 网络外，作者还尝试了基本的Vision Transformer模型，特别是使用ViT-B和ViT-L。路径聚合特征金字塔网络（PA-FPN）。 尽管FPN结构已经整合了浅层特征信息，但浅层特征到顶层网络路径过长，导致浅层特征的利用效率低下。为了有效地捕捉图像语义信息，受到PA-Net [24]的启发，作者在 Baseline 级联R-CNN中添加了一个自下而上的结构。这缩短了从浅层特征到顶层网络的传输路径，增强了网络中浅层特征的传输，使得更多的浅层特征能够被有效利用。如图2所示，特征图与具有相同的尺寸。、、通过下采样和融合获得。对于高分辨率特征图和低分辨率特征图，生成新的特征图。

picture.image

Other Improvements

数据增强。 为了提高训练数据集的大小和质量，作者对原始输入图像进行了数据增强，包括翻转、抖动和缩放。作者尝试了MMDetection-transforms内置的数据增强策略，例如Mixup、Cutout、Corrupt和PhotoMetricDistortion。需要注意的是，并非数据增强越多越好，特别是在目标检测任务中。过度的数据增强可能导致原始目标位置的偏移或失真，使得模型难以学习准确的目标边界。已有研究表明[34]，在训练阶段，两阶段算法可以不使用随机几何变换进行数据增强。

损失函数。 在本节中，作者引入DIoU损失函数来解决在使用 Baseline 级联R-CNN网络中的损失函数时坐标点相互关系的问题。

受到Zheng Zhaohui等人[45]的启发，DIoU损失考虑了两个关键问题：

(a) 通过最小化预测框和目标框之间的标准化距离来实现快速收敛。

(b) 当与目标框有重叠甚至包含时，如何使回归更准确和快速。DIoU损失函数的取值范围为[-1,1]，定义如下：

表示欧氏距离。惩罚项被定义为两个框的中心点和之间的欧氏距离的平方，由包含这两个框的最小外接框的对角线长度的平方进行标准化。这种形式确保DIoU损失直接最小化两个中心点之间的距离。

受到Li等人[21]的启发，为了减少检测过程中样本度量的经济不平衡以及由模糊边界框导致的检测结果不准确，作者适当地将广义Focal Loss（GFL）函数引入到区域 Proposal 网络（RPN）中，以平衡损失函数中正负样本的比例。GFL函数通常如方程(3)所示。

表示真实的IoU，而和是边界框预测和真实IoU的下界和上界。是一个可调整的超参数，控制损失函数的斜率（）。和是模型预测的概率值，满足。最终的预测是和的线性组合，使得分类值可以从离散变为连续。公式中的平衡因子最小化预测和真实IoU之间的偏差，而分类损失函数计算误差以增强模型对目标位置和大小的理解。GFL采用焦点机制，动态调整权重以平衡比例，促进正负样本的学习差异。

训练技巧。 在训练过程中，作者发现原始数据集中的超过30个图像的格式文件与对应的图像不匹配。作者执行数据清洗并移除这类错误数据。作者使用同步批量归一化来解决多GPU跨卡同步问题。对于学习率设置，作者借鉴了YOLOv3[31]的训练策略，在前3000次迭代中使用 Warm up 逐渐将学习率从0增加到预设的基础学习率，后续迭代使用余弦策略，这有利于训练过程的稳定性。作者使用基于Apex的混合精度训练来加速训练，同时尽可能减少精度损失。作者还启用了自动缩放学习率，这意味着在使用不同数量的GPU和不同的批量大小时，可以有效地利用GPU资源，使模型快速收敛。

4 Experiments

在本节中，作者提供了实现细节，并给出了主要的实验结果和分析。

Implementation Details

表3：在OVD Track II测试集上的检测结果，其中代表新类别，代表基础类别。

picture.image

按照挑战赛的指导方针，作者使用183,354张图像作为训练集，29,821张图像作为验证集。作者仅在V3Det数据集上进行训练，并不使用任何额外的数据。作者在训练集上训练完整的模型，并在验证集上进行评估，以验证算法并进行超参数调整。最后，作者使用选定的超参数在完整训练数据上重新训练并保存模型。作者使用PyTorch 2.1.0实现模型，并在配备4 H100 GPU的系统上进行实验，批处理大小为48。作者使用带解耦权重衰减的Adam（AdamW）[27]，学习率为0.001。作者采用COCO检测评估[23]来衡量性能。COCO检测评估包括多尺度物体（，），其中代表小物体，面积小于32，代表大物体，面积大于96。对于监督Track I，和召回率用作测试集的评价指标。对于OVD Track II，和召回率分别为基础类别和新类别分别计算。

Results and Analysis

如表1所示，作者正在尝试各种模型 Backbone 方法。当使用ImageNet 22k预训练时，模型的值变化不大，但召回率有了显著提升。召回率_all从64.3%提高到69.5%，表明模型漏检的目标更少了。对于目标检测任务来说， Backbone 网络的预训练初始化尤为重要。使用像Swin-L这样更大的模型作为 Backbone 会引入额外的参数和计算复杂性，导致推理时间更长。然而，尽管有这些缺点，模型的检测性能却下降了。

picture.image

如表2所示，作者引入了一系列改进措施，包括优化原始检测器的损失函数和修改其FPN结构。令人惊讶的是，在引入PA-FPN结构后，模型的检测性能（以衡量）并没有提升，反而下降了近2%。PA-FPN结构在许多任务中被证明是有效的，并被广泛应用于各种检测和分割任务中。作者推测，这种意外结果可能是由于低层特征中的噪声或无关信息的影响，导致融合特征的质量下降。自下而上的结构可能导致不同 Level 特征之间的过早或过度融合，从而造成信息丢失或混淆。引入自下而上的结构可能增加了网络的复杂性，使训练变得更加困难，需要更多的调整和优化。由于时间限制，作者没有进行详细的实验，进一步的验证将逐步进行。

picture.image

当然，将RPN分类损失函数修改为GFL函数，并将边界框回归损失改为GIoU损失函数被证明是有效的。如图3所示，由于V3Det数据集类别众多，在训练过程中少数类的学习性能不佳。GFL引入了可调整的参数来对不同类别的损失函数进行加权，使模型能够更多地关注具有挑战性的样本。GFL引入调整参数来对不同类别的损失函数加权，使模型更加关注难以分类的样本。

picture.image

遗憾的是，尽管进行了大量实验和调整，并在 Baseline 上取得了一些改进，但作者的结果仍然无法超越基于Detectron2的组织者提供的复现EVA模型。EVA模型采用了MIM训练方法，优化了CLIP并展现了强大的性能和优越的结果。EVA模型出色的性能表明，在当前大型模型的时代，仅修改和设计模型结构已不足以实现重大突破。EVA模型成功的关键在于其创新的训练方法和预训练模型的有效利用，这为作者的未来研究和改进指明了方向。

如表2所示，对于OVD Track II，作者遵循了传统的监督目标检测迁移学习方法，没有融入文本信息。根据比赛要求，作者使用了基于MMDetection的级联R-CNN模型，以Swin-B作为来自Track I的 Backbone ，在V3Det基础类的train集上进行了重新训练，并直接在测试数据集上进行推理。作者惊喜地发现，这种方法也取得了不错的结果。与 Baseline 相比，作者新类别的从11%提升到20%，达到29%。这可能是因为V3Det数据集已经包含了丰富的语义信息，使模型具备了一定的泛化能力。