尺度损失与分布损失，Elastic-DETR 让多尺度图像分辨率更灵活，超越 DN-DETR ！ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

多尺度图像分辨率是现代目标检测器（如DETR）中的一个标准做法。

这种技术允许从多种图像分辨率中获取不同尺度的信息。然而，手动选择分辨率的超参数会限制其灵活性，这依赖于先验知识，并需要人工干预。本文提出了一种学习分辨率的新策略，称为Elastic-DETR，使多尺度图像分辨率的使用更加灵活。

作者的网络基于图像内容提供了一个紧凑的尺度预测模块（<2 G F L O P），生成可适应的尺度因子。作者方法的关键在于如何在没有先验知识的情况下确定分辨率。

作者提出了两种源自关键组件的损失函数，用于分辨率优化：尺度损失，该损失根据图像增加适应性；

分布损失，该损失基于网络性能确定整体缩放程度。通过利用分辨率的灵活性，作者可以展示出各种模型，在准确性和计算复杂性之间表现出不同的权衡。

实验证明，作者的方案能够在不约束灵活性的情况下释放广泛图像分辨率的潜力。作者的模型在MS Coco数据集上的最大精度提升为3.5% P或计算量减少26%，优于MS训练的DN-DETR。

Introduction

目标检测[49]是计算机视觉中一个基础的研究领域，它在确定物体类别的同时识别物体的位置。自然语言处理(NLP)中 Transformer 的成功应用[34]促使基于 Transformer 的网络在多种视觉应用中得到普及，包括目标检测。在这个领域中，DETR（检测器 Transformer ）[3]引入了第一个基于 Transformer 的检测器，凭借简洁的架构设计取得了卓越的性能。

与基于CNN的检测器[26, 27]不同，DETR采用了一种灵活的架构，结合了可学习的query和二分匹配机制。这种机制使得静态框分配方法，如非极大值抑制，变得不再必要，从而消除了手动选择 Anchor 点的需求。由于 Anchor 点大小在预测中作为关键参考点，这些大小必须精心选择，通常依赖于先验知识。用一种可学习的方法取代这一静态过程，可以使网络拥有更为灵活的训练空间，并减少人为干预。这一成功引发了一个重要问题：是否可以通过一种可学习策略来消除在核心超参数上依赖先验知识的必要性？在传统的网络缩放[31, 32]中，图像分辨率、深度和宽度被视为决定网络性能的关键超参数。在目标检测中，分辨率主要与先验知识相关，因为其与目标尺度分布有关[24, 29]。多尺度(MS)方法[22]，利用多种图像分辨率，已成为现代目标检测器的标准方法之一。这种方法通过从预定义的超参数集合中随机选择图像分辨率来确定分辨率，从而可以获得不同尺度的信息。然而，依赖预定义的参数可能会限制分辨率的灵活性，因为这些值需要手动选择。这一手动过程往往要求对数据分布有深刻的理解或经过大量的尝试，这在实际应用中带来了较大的负担。如果以可学习的方式优化分辨率，网络可以动态适应各种数据分布，使其具备弹性和高效的特点。

为了探索这一潜力，作者首先集中研究分辨率的变化如何影响网络性能，以确立可学习分辨率的优化目标。图1展示了在网络不同超参数配置下，分辨率变化对网络响应的影响。作者可以观察到随着分辨率的提高，准确率有所提升，但分辨率超过800后，准确率的提升幅度非常小。随机化的策略在处理广泛的超参数时不够高效，这为提高性能提供了更多的可能性。此外，在测试时应用随机方法会导致性能下降约1-2%，这表明适应性并没有有效地转移到测试阶段，体现了随机性的局限性。有关此实验的更多分析详见Sec. A.1。

picture.image

基于这些观察，作者的目标可以定义如下：

1）可学习性，2）消除对先验知识的依赖，3）处理广泛谱系的能力，以及4）测试中的适用性。为了实现这些目标，作者提出了一种新型方法Elastic-DETR，该方法以可学习的方式优化图像分辨率。

如图3所示，作者的网络生成一个用于分辨率缩放的图像 Level 尺度因子。作者使用一个紧凑型网络，称为尺度预测器，来生成从指定最小值到最大值范围内的尺度因子。这个尺度因子是根据图像信息内容特定地获取的，具有适应性。此紧凑型网络与检测器联合训练，有助于端到端的训练和测试机制。

picture.image

作者方法的主要挑战是在没有先验信息的情况下确定图像分辨率。最初，作者从人类行为中识别出分辨率确定的关键组成部分：为了观察难以看到的目标，作者会根据物体的大小和视觉敏锐度调整自己的位置。作者提出了一种基于这些元素的比例因子优化损失函数：尺度损失用于基于大小的优化，分布损失则用于基于检测能力的优化。尺度损失通过调整比例因子使其适应目标的大小来提高其可调性。在这个过程中，这一优化是基于两个尺寸边界之间的相对大小来决定的，这两个边界分别对应导致最大值或最小值的尺寸范围。分布损失则通过对描述网络在特定尺度下检测能力的概率分布进行优化来优化这些边界。

如图2所示，作者的网络在图像分辨率增加时表现出单调的准确性提升。通过利用分辨率的灵活性，作者展示了各种网络，在MS COCO [17]数据集上，这些网络的最大收益为3.5个百分点或计算量减少了26%。作者的主要贡献总结如下：

作者提出了一种新的可学习图像分辨率策略，使得可以灵活地利用多种分辨率。该策略提供了一种通用方案，以学习的方式优化超参数，从而为网络优化提供了见解；
作者建立了紧凑的尺度因子架构，允许自适应且内容特定的预测。作者提出了新型的损失函数来进行优化，而不依赖先验知识，这些损失函数基于人类行为特征化的组件定义而成；
根据作者所知，这是第一次在DETR基网络中优化图像分辨率的尝试。作者实验证明，作者的方案能够释放宽范围图像分辨率的潜力，实现了高达3.5个百分点的提升。

picture.image

Related Work

2.1. Hyperparameter Optimization

如前所述，深度、宽度和图像分辨率被认为是经典扩展定律中的关键组成部分[31, 32]。通常，这些参数通过参数搜索[6, 7, 31]或手动设计比例方案[32, 42]来进行优化。另一种方法是动态神经网络[12]，它能够进行动态调制，从而在运行时优化参数。分层早期退出[38]或级联多个网络[20, 25]允许处理可变深度。

在基于CNN的网络中，信道级 Shortcut [13, 16]可通过执行关键信道来实现动态宽度调整。对于分辨率优化，在图像分类中提出了分支级动态选择[41, 47]来处理各种分辨率。这些优化方案主要利用架构调制，预测定义架构组件的执行概率。而作者策略则是仅指定一个范围来预测此类定义组件。

2.2. Transformers for Object Detection

传统的目标检测器包含全卷积层，并且往往采用多尺度架构[18, 46]。DETR[3]引入了一种基于Transformer的目标检测器，通过使用单尺度编码解码架构实现了显著的性能提升。尽管取得了显著进展，但仍然存在一些限制，例如对小目标容量有限或在训练过程中收敛速度较慢。为了应对这些挑战，提出了多种方法，包括引入多尺度特征或优化目标 Query [15, 23, 40, 44]。动态网络被提出以通过动态调制[8]或动态 Query 设计[14, 21]来缓解这些限制。作者提出的策略也采用了一种动态图像分辨率的方法，从而缓解了小目标的问题。此外，作者的策略还解决了对先验超参数知识依赖的问题。

Methodology

3.1. Overview

整体流程。弹性-DETR利用了一个基于DETR的检测器，并引入了一个尺度预测器来确定图像特定的尺度因子。如图3所示，尺度预测器被作为模块化组件附加到检测网络之前，以实现自适应分辨率缩放。网络接收输入图像并生成一个尺度因子，这可以表示为。通过缩放操作调整图像分辨率，该操作将图像的宽度和高度分别调整为和。然后，缩放后的图像被送入检测器以从输入图像预测框的位置和类别。整个过程可以表示为，

在缺乏预测器的情况下，检测器会直接预测输出为。训练目标方面，请注意，尺度预测器只优化输入图像，并与检测网络联合训练。现有检测器的损失函数，即分类损失和定位损失，间接地帮助获取一个最大化性能的尺度因子。然而，由于缺乏针对分辨率确定的调制，这些损失无法在整个尺度因子范围内提供适应性。这是因为，不同于依赖于分支选择的方法 [37, 39, 41]，作者旨在独立地优化尺度因子，不依赖任何先前的架构知识。

在这个过程中，如第 1 节所述，尺度因子通过两个新定义的损失函数进行优化：尺度损失，增强图像特定的适应性；分布损失，细化尺度因子的整体偏差。这两个函数允许尺度因子被训练以最大化网络性能，使其基于检测能力进行图像特定的调整。

3.2.Architecture of Scale Predictor

对于尺度因子预测，作者构建了预测器 ( s ) 的架构，包含两个主要组件：一个 Backbone 网络用于分析图像的视觉属性，以及 Head 层用于预测尺度因子。ResNet-18 [36]，这是一种广为人知的轻量级分类网络，被用作 Backbone 网络。为了处理 Head 层，从 Backbone 网络提取的特征被矢量化为一维向量。随后，一个紧凑的Transformer编码器，接着是一个全连接层，用于预测给定图像的一个单一尺度因子。此编码器块的应用旨在增强尺度因子的适应性，该块由三个集成单头自注意力机制的层组成。

预测完成后，每个图像的原始尺度因子被获取，并使用Sigmoid激活函数进行归一化，随后通过取最大值操作限制在期望范围内。这一操作表示为，其中和分别表示最小和最大阈值。最终的尺度因子包含在和之间的一个范围内，这些参数可以在准确性和推理效率之间进行调整。尺度预测网络的计算和内存开销总结在表1中。

picture.image

3.3. Loss Functions for Scale Factor Optimization

3.3.1.Scale Loss

如前所述，作者定义了尺度损失来优化基于物体大小的比例因子，对小物体使用较高比例因子，对大物体使用较低比例因子。作者打算从概率的角度优化这个比例因子，通过引入一个上尺度概率。这个概率表示物体的上尺度程度，它与物体大小之间存在相同的反比关系。

这种关系使得可以从这种概率中优化得出的尺度因子得到优化，这是通过修改尺度因子来实现的。作者建立了这种修改方式，即将的最大值进行归一化处理，并将的最小值映射到，这可以表示为，其中。然后，尺度因子的优化问题可以被解释为单一概率的优化问题。

处理单概率问题通常是指二分类问题，该问题将概率调整为0或1。这种优化通过使用二元交叉熵（BCE）损失[11]来实现，其公式表示为：

其中，和分别表示目标概率和预测概率。该损失函数通过对预测概率进行修改，使其在正标签（）的情况下取得高值1，而在负标签（）的情况下取得低值0。与分类问题的主要区别在于，作者的概率范围表现出从0到1的连续光谱，这是因为放大和缩小概率的现象相互出现，除非物体过于微小或过大。

因此，作者引入了一个连续值来表示的目标概率，利用基本形式的BCE损失。为了确定，作者建立了可学习的边界，其中点在该边界处产生最大值（=1）或最小值（=0），从而识别整体优化程度。给定目标大小的目标概率则通过这两个变量之间的相对比例来确定。这一计算过程通过修改后的Sigmoid函数实现，基于边界给出相对概率，并沿轴反映这些值。

其中，和分别表示下界和上界。随后，确定的值为，

其中 (b_{w}) 和 (b_{h}) 分别表示 Ground Truth 目标 (b) 的宽度和高度。这些边界的优化通过一个额外的损失函数——分布损失来实现，该损失函数将在下一节中进行解释。

给定输入和目标概率，尺度因子可以在目标 Level 进行优化，如下所示：

该函数的形状如图4所示，表示其与物体大小之间存在连续且反比的关系。在现实场景中，单一场景内往往包含多个物体。因此，有必要同时考虑多个实例，这导致了使用帕累托最优性的需求。这种考虑可以通过将最优性应用到目标 Level 的损失来实现。最终的批次尺度损失定义为：

picture.image

3.3.2.DistributionLoss

请注意，使用尺度损失可以优化相对于给定边界 ( B ) 的尺度因子，其中尺度会产生最大概率或最小概率。为了根据检测性能调整这些边界，引入了一个额外的损失称为分布损失。由于这些边界是尺度值，作者旨在从网络的尺度特定能力中确定这些参数，例如找到性能趋势发生变化的尺度值。分布损失的目标是训练描述网络整体特性的每尺度倾向，并从学到的趋势中定义这些边界。这种优化导致整个尺度因子程度与网络性能的对齐，因为边界控制了尺度因子的偏差。

在这一背景下，采用可学习的概率分布来表示检测倾向。作者使用贝塔分布，通过调整参数和可以表达多种形状。为了定义目标分布，作者利用从物体获取的损失值，例如定位损失，来确定目标分布。作者还引入了一个额外的损失形式来解释性能，即从原始损失中导出的似然性。该值代表物体的可检测概率，显示为归一化且广泛的值，如图5所示。目标分布仅通过输入值之和进行除法操作即可获得。

picture.image

对于接近目标的概率分布的beta分布，作者利用Wasserstein距离[10]，该距离最小化输入和目标概率分布之间的距离。作者的分布损失定义为，

其中，并且表示目标分布。边界由均值和标准差表示，即。

稳定收敛性。在初始训练阶段，由于网络在早期迭代中通常会产生噪声输出，因此分布的收敛可能会不稳定。作者通过使用低通滤波器（LPF）来稳定这种收敛性，LPF 定义为，其中是可调参数。作者希望通过关联收敛性与目标尺度和损失之间的相关度来实现这一目标，因为分布损失利用了这两个组件之间的关系。这可以通过将参数与两个组件的相关度耦合来实现，即：

其中，表示xi相关系数[5]，可以度量非线性相关性。这种归一化的分布可以在式(7)中用作目标分布。

Experiments

4.1. Implementation Details

架构。作者的Elastic-DETR基于DNDETR [15]，虽然其基本架构类似于DETR，但收敛速度更快。由于GPU内存限制，作者采用了轻量级的ResNet-50和Swin-Tiny作为 Backbone 网络。作者将设置为0.2并固定，而通过调整从1.25到2.25来控制准确性和计算复杂度之间的权衡。每增加0.25时，候选分辨率的数量几乎增加18%。预测得到的分辨率通过四舍五入调整为8的倍数，以适应常见的内存大小要求。

数据集与训练。作者的模型采用600作为基础分辨率，最大分辨率为1000，以便保留图像的空间比例。在MS训练中，使用480到800之间的分辨率，步长为32，最大尺寸为1333。模型使用detrex框架[28]进行训练，批量大小为16张图像。

4.2. Main Results

性能比较。作者训练了不同分辨率范围的模型以展示图像优化的灵活性。随着分辨率的增加，模型表现出一致的性能提升，如图2所示。（作者的网络在最高精度方面，即使不使用多尺度架构，也能达到与多尺度网络相当的性能，同时显著降低计算复杂度。表2列出了详细的性能比较。值得注意的是，利用ResNet的模型相对于 Baseline DN-DETR [15] 在不同规模的模型从小型(S)到巨型(H)之间，在AP上表现出从到的增长。作者的方法还显示出对Transformer主干的有效性，实现了高达的AP提升。具体来说，小型模型的准确性比作者实现的DN-DETR低，但该模型能够分别减少使用ResNet-50和Swin-Tiny主干的模型计算复杂度26%和22%。对于中型到大型模型，每增加0.25会使AP大约增加。使用ResNet-50作为主干的巨大模型相比使用两倍分辨率的小型模型获得了的提升。

分辨率缩放与物体尺度之间的关系使作者的策略能够缓解小物体相关的局限性。在几乎所有尺度上，作者的模型都表现出性能提升，特别是在小尺度上的提升尤为显著。随着分辨率的增加，小尺度的表现明显提升，相对于 Baseline 模型最高可提升5.2个百分点。这种改进在两个 Backbone 网络中都能观察到，其中基于Swin-T的 Backbone 网络获得了3.2个百分点的提升。

多尺度策略的应用性。作者通过实验验证了自适应分辨率方案在MS训练模型中的适用性。如表3所示，图像级优化使基模型的最大改进率达到0.9%。有趣的是，与完全训练的模型相比，小模型和中模型分别展示了0.3%和0.2%更高的得分（参见表2）。这表明作者的策略能够在MS策略的配置内进行调整，而无需重新训练，能够提高已训练网络的性能。然而，大模型仅表现出0.4%的增益，这是因为分辨率的光谱与MS训练存在不匹配。在缺乏微调的情况下，响应与训练数据显著不同的未见过的分辨率会带来挑战。

picture.image

该技术在Transformer主干网络中的应用也同样有效，如表4所示。作者的模型能够达到与ResNet相似的基模型最大增益，即0.9%。规模因子分析。图6展示了预测规模因子的分布情况。所有模型的规模因子倾向于对于小型物体显示高值（对于大型物体显示低值），这符合预期。随着目标尺寸或实例数量的增加，规模因子的幅度也随之增大。这表明作者的规模因子能够适应目标尺寸的变化或目标尺寸分布的变化，从而能够处理包含复杂内容的图像。在这组网络中，小型模型显示出最大的高频规模因子，而基准和大型模型显示出类似的数量。对于低频规模因子，这种趋势有所反转，基础模型的数量略大于大型模型，这表明规模因子也根据网络性能进行了优化。

picture.image

训练后边界分析。如图7所示，训练后的分布及其边界得到了展示。损失值的变化在小型到中型目标尺寸上最为显著，而在所有模型中的大型目标上则有所减弱。这种趋势在小型模型中尤为明显，该模型的检测能力相对其他模型而言较弱。该模型由于指数函数的归一化作用，生成了对称形式的贝塔分布，而使用简单损失进行训练的模型则表现出不对称分布。这种形状上的不同导致了边界的基础位置也有所不同，这些位置的值较高，直接反映了可能性。不对称分布的形状直接匹配了损失的分布，因为损失的变化在超过边界后会减少。否则，高值边界并不直接与损失分布匹配，但它们可以补充网络性能的不足。

picture.image

4.3.Ablation&Analysis

分辨率调整的影响。图像分辨率同时影响输入尺寸和特征图尺寸，进而改变感受野。因此，如图8所示，分辨率增加对于小而复杂的信息更为有效。

picture.image

类别对比。表5展示了与MS方法相比的各项类别的性能提升。作者的方法可以提升大多数类别的性能，但有六个类别的性能没有提升。

负收益的类别主要由简单且较大的物体以及同一场景中的许多小物体组成，如图9所示。这表明退化是由小物体和大物体之间的权衡引起的。否则，正收益的类别通常较小且复杂，难以观察。

picture.image

提出损失函数的影响。如果不使用提出的损失进行网络训练，准确率会下降 (4.3%)，如表6所示。在这种情况下，尺度因子的标准偏差变得极其低，没有针对特定图像的适应。

相同配置下的对比。在表7中，作者将 Baseline 网络与MS测试进行了比较，后者是在与作者相同的分辨率配置下训练的，结果显示其准确率比作者的方法低7.6%。

平损失与似然度的对比。展示了两种分布损失设置下的性能比较（见表8）。仅小型模型，在作者的模型中性能最低的小型模型，显示出较高的似然度增益。否则，大型模型在似然度上的AP较低，表明高值边界对于缺乏能力的模型是有效的。

L 和 P 分别代表似然和原始数据。

低通滤波器的影响。图10展示了早期迭代过程中边界的收敛情况。具有xi相关性的低通滤波器在边界过渡过程中表现出更平滑和更稳定的动态，且在第5000次迭代时数值略有下降。

picture.image

参考

[0]. Elastic-DETR: Making Image Resolution Learnable with Content-Specific Network Prediction .

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」