点击下方卡片,关注
「集智书童」
公众号
导读
基于对现有DETR-like模型中广泛采用的级联解码器架构特性的分析,本文提出了一种新的解码器架构。级联解码器架构限制了目标 Query 在级联方向上的更新,仅允许目标 Query 从图像特征中学习相对有限的信息。然而,自然场景中目标检测的挑战(例如,极小、严重遮挡和与背景混淆混合)要求目标检测模型充分利用图像特征,这促使作者提出了一种具有并行多时间 Query (MI)机制的新解码器架构。
MI使目标 Query 能够学习更全面的信息,基于MI的模型MI-DETR在COCO基准测试中,在不同 Backbone 网络和训练轮次下均优于所有现有的DETR-like模型,相较于最代表性的模型DINO和SOTA模型Relation-DETR在ResNet-50 Backbone 网络下,实现了0.6AP 的提升。此外,一系列诊断和可视化实验展示了MI的有效性、合理性和可解释性。
- 引言
首个被广泛认可的目标检测模型,Viola Jones检测器[41],于2001年提出。得益于显著的R-CNN[10]和DETR[3],基于CNN的工作[1, 4, 9, 21, 24, 32-34, 40]自2014年以来显著推动了目标检测技术的发展,而基于Transformer的类似DETR模型自2020年以来进一步将该技术推向了新的领域。一个类似DETR的模型包括一个 Backbone 网络、一个Transformer编码器、一个Transformer解码器和预测头。从功能角度来看, Backbone 网络和编码器负责图像特征提取,解码器利用图像特征来适应目标检测任务(即“特征利用”),预测头预测物体的位置和类别。
本文旨在探索一种新的解码器架构以优化特征利用。每个Transformer解码器层包含一个自注意力(SA)、一个交叉注意力(CA)和一个 FFN (FFN),其中目标 Query 通过与图像特征交互进行优化。类比来说,就像一个学生(目标 Query 在解码器层的开始阶段类似于一个对图像“一无所知”或知之甚少的学生)向一个老师(图像特征可以类比为老师,因为他“知道”图像中的所有信息)提问,并根据老师的回答获取图像信息。因此,本文将每个解码器层中的
架构类比称为“ Query 头”。现有DETR-like模型的Transformer解码器采用“级联 Query ”架构。目标 Query 逐层向图像特征进行 Query ,以学习级联方向中逐渐细化信息。
该解码器架构的鲁棒性已在之前的DETR-like模型中得到充分验证。然而,从特征利用的角度来看,该架构具有一个值得注意的特点。下一解码层中目标 Query 的表示直接由当前解码层的表示决定,因此 Query 表示的更新被限制在级联方向上,这表明级联 Query 架构倾向于学习相对有限的信息。此外,在相同级联方向上的深层解码层中学习到的过度精细的信息可能是冗余的,甚至可能是负面的。更多分析可在实验和讨论部分找到。
由于自然场景的多样性和复杂性,物体可能非常小、严重遮挡,或者与背景混淆。为了适应不同的场景,需要充分利用图像特征来学习全面的信息。然而,根据上述分析,现有模型采用的级联多时间 Query 架构倾向于学习相对有限的信息。这促使作者探索一种新的解码器架构以优化特征利用。受传统基于CNN的方法发展的影响,作者注意到许多方法[19, 37-39, 46]通过合理的并行架构来增强特征利用。因此,作者提出了一种新的解码器架构,具有并行多时间 Query (MH)机制。如图1a所示,该架构简单,目标 Query 并行通过多个参数独立的 Query 头进行多时间 Query ,然后进行融合。并行MI机制在独立的分支中进行特征利用,允许逐步学习逐渐精细的多模式信息,这些信息可以融合以获得全面的信息。除了MI机制之外,作者还设计了一个类似于
的特征交互(UFI)模块,以进一步提高特征利用。
需要注意的是,所提出的解码器架构与近期提出的类似DETR模型中采用的参数共享并行解码器有所不同,例如
DETR [16]和Group-DETR [5],其解码器架构如图1b所示。差异主要体现在两个方面。首先,从动机角度来看,图1b中的架构旨在解决正目标 Query 不足的问题(即由Ground Truths监督的目标 Query ),因此引入了辅助目标 Query 和一对一监督。而MI-DETR则是为了通过挖掘多模式信息来优化特征利用。其次,从架构角度来看,图1b中的主目标 Query 和辅助目标 Query 被连接在一起,然后输入到同一个 Query 头,因此参数是共享和同时更新的。在作者看来,这种参数共享的并行架构,从特征利用的角度来看,是伪并行架构,因为参数共享使得两种 Query 学习相同的信息模式。相比之下,作者的参数独立并行架构允许目标 Query 学习多模式信息以提高特征利用。更多分析可以在讨论部分找到。
所提出的具有并行互信息(MI)机制的解码器架构简单易用,可以轻松集成到现有的DETR-like模型中。在实验中,通过将其集成到最具代表性的模型DINO [47] 和 SOTA Relation-DETR [13] 中,获得了令人印象深刻的性能提升,分别在ResNet-50 Backbone 网络和收敛条件下实现了
AP和
AP的提升。据作者所知,这些是目前现有DETR-like模型中的最佳结果。
贡献如下:
-
- 本文提出了一种新的解码器架构,通过挖掘多模式信息来优化特征利用,作者的MI-DETR(即多时间 Query DETR)在现有的DETR-like模型中取得了最佳性能;
-
- 所提出的解码器架构简单且易于集成到现有的DETR-like模型中。
-
相关工作
Original DETR [3] 存在收敛速度慢的问题,需要500个epoch才能达到43.3 AP。近年来,大量工作集中于提升DETR的检测性能和加速训练收敛,使得在12个epoch内取得了51.7 AP的重大性能突破。
在早期阶段,大多数方法集中于优化目标 Query 的表示。目标 Query 是可学习的向量,用于捕捉图像中目标的信息。一些研究[12, 18, 44, 47, 51, 52]指出,初始目标 Query 的设计将对收敛速度产生显著影响,并提出了两阶段初始化方法,从最后一个编码器层中选择前K个编码器特征以增强初始目标 Query 。此外,许多研究[15, 22, 25, 28, 49]考虑将先验知识引入目标 Query 。此外,注意力机制也是早期研究的关键领域。交叉注意力执行目标 Query 与图像特征之间的交互,使目标 Query 能够集中在图像的相关区域。几种方法[6, 7, 43, 45, 52]在解码器中优化了交叉注意力,以提高目标 Query 快速定位相关区域的能力。
在过去的两年里,许多研究行人关注了一对一监督在收敛速度和性能上的局限性。一些近期的研究[5, 16, 30, 42, 50]提出了一些有效的多对一匹配策略,允许目标检测器与多个目标 Query 进行匹配,以加速训练速度。
- 方法
3.1. 前言
DETR-like模型的框架。DETR-like模型通常具有与原始DETR [3]相似的框架。首先,将图像输入到主干网络以获取多尺度图像特征,这些特征被展平成特征 Token ,然后连接起来作为transformer编码器的输入以细化图像特征。其次,一组可学习的目标 Query (目标候选以目标 Query 的形式表示 [50])与transformer解码器中的图像特征进行交互,以获得细化的目标 Query 。第三,使用细化的目标 Query 来预测目标的边界框和类别。
3.2. U-like特征交互
在现有的类似DETR的模型中,尽管 Backbone 网络和Transformer编码器有效地提取了图像特征,但这些特征尚未得到充分利用。具体来说,只有Transformer编码器最后一层的特征被用作Transformer解码器的键(Key)和值(Value)。实际上,Transformer编码器每一层的特征都包含不同层次的有价值信息。受经典U-Net [35]的启发,作者提出了类似于U-Net的特征交互(U-like Feature Interaction,UFI)方法,以充分利用不同Transformer编码层级的特征。
DETR是一种典型的编码器-解码器架构。总体而言,DETR的学习过程是将Low-Level详细特征编码为High-Level抽象特征,然后再将它们解码回详细表示。编码器逐层提取图像特征。随着编码器层数的增加,提取的特征变得更加全局和抽象。解码器持续细化物体 Query ,逐步学习局部和详细信息。因此,编码器和解码器对应层的交互有助于利用Low-Level和High-Level信息。
编码器层的图像特征定义为
,其中
表示编码器层的数量。UFI 使用 Transformer 编码器的第
层的特征(即
)作为第
解码层的 Key和Value ,其中
。具体来说,
首先将 Transformer 编码器最后一层的特征(
)与其他层的特征
进行融合。
然后使用这些融合特征作为相应解码器层的键(Key)和值(Value)。第
个解码器层可以表示如下:
代表第
层解码器层。
3.3 多次 Query 机制
平行多时序 Query (MI)机制的关键思想是通过使目标 Query 与图像特征进行多次交互来提高特征利用率。具体来说,作者将MI机制应用于原始的Transformer解码器层,得到MI解码器。每一层可以划分为两部分:多时序 Query 和 Query 融合。
多时间 Query 。如图2所示,第
层多时间 Query 解码器的输入是目标 Query
(即第
层多时间 Query 解码器的输出)和由公式(1)定义的对应图像特征
。作者使用
个不同的 Query 头来处理目标 Query
。与传统 Transformer 解码器层的网络架构相同,每个 Query 头由一个自注意力层、一个交叉注意力层和一个前馈神经网络(FFN)层组成,其形式化如下:
表示第
个 MI 解码器层在第
个 Query 头输出的目标 Query 。
、
和
分别代表第
个 MI 解码器层第
个 Query 头的自注意力层、交叉注意力层和 FFN 层。
是解码器的层数。
Query 融合。基于公式(3),计算了M组目标 Query
。不同的目标 Query 组传达不同的信息模式。因此,有必要进行融合,使它们相互协作并有益。作者采用经典的拼接融合方法,首先沿着特征维度拼接多组目标 Query ,然后将拼接后的特征投影到原始维度。
其中Concat表示拼接操作,Linear代表线性层。
3.4 轻量级多时间 Query
轻量级多时次 Query (Lite-MI)是
的轻量级版本。如图3所示,不同 Query 头的自注意力层参数是共享的,其公式如下:
表示共享的自注意力层。
Lite-MI的动机有两方面。首先,如[14]中所述,自注意力机制的主要功能是消除重复候选者。此外,图像特征
不参与自注意力层。因此,在所有 Query 头中配置单独的自注意力层可能是多余的。其次,它能够减少参数。
- 实验
4.1. 设置
作者在COCO [20]数据集上进行了实验。遵循常规做法,COCO train2017分割(118k张图像)用于训练,COCO val2017分割(5k张图像)用于验证。使用AdamW [27]进行优化,学习率为
,权重衰减为
。作者报告了在1x(12个epoch)和
(24个epoch)训练计划下,使用两种常用 Backbone 网络(包括在ImageNet-1k [36]上预训练的ResNet-50 [11]和在ImageNet-
上预训练的Swin-L [26])的实验结果。评价指标是在不同IoU阈值和物体尺度下的标准平均精度(AP)。当 Backbone 网络为ResNet-50时使用RTX3090 GPU,当 Backbone 网络为Swin-L时使用A100 GPU。 Query 头的数量为4。
4.2 比较实验
为了进行全面的比较,MI-DETR在不同训练计划和 Backbone 网络下,与自2023年以来提出的系列DETR变体[2, 5, 13, 14, 16, 23, 31, 47, 48, 50]进行了比较。比较结果总结于表1中。
在ResNet-50下的比较。随着DETR变体的快速发展,收敛速度显著加快。大多数方法可以在24个epoch内达到收敛,而一些方法(例如DINO [47]、Rank-DETR [31]、
-DETR [16]和Group-DETR [5])需要36个epoch才能达到收敛。因此,作者报告了在12个训练epoch(通常用于现有方法)下的实验结果以及达到收敛的条件(即24或36个epoch,取决于模型本身)。如表1所示,MI-DETR在不同训练条件下都表现出优势。与第二好的方法(即Relation-DETR [13])相比,MI-DETR在12和24个训练epoch下分别实现了
AP和
AP的提升。无需任何花哨的技巧,MI-DETR确立了迄今为止的最佳结果,达到了
。
在Swin-L下的比较。作为更强的 Backbone 网络,Swin-L Backbone 网络已经展示了其卓越的性能。然而,很少有方法在Swin-L Backbone 网络上报告结果。为了进一步验证MI-DETR的有效性和鲁棒性,实验在12个训练周期的训练计划下使用Swin-L Backbone 网络进行,结果在表1中报告,从中作者可以观察到,MI-DETR仍然实现了最佳结果,与现有最佳性能模型Relation-DETR相比,获得了
。
4.3 消融实验
4.3.1. 主要组件的消融测试
作者对主要组件进行了系列诊断实验,包括MI、Lite-MI和UFI。结果总结在表2中,从中作者可以观察到所有组件相对于 Baseline 都有所提升(分别提升了0.8 AP、0.6 AP和0.5 AP),这表明每个组件都是有效的(将第2、第3和第4项与第1项进行比较)。组合
(#5)和“Lite
”(#6)代表了MI-DETR两种不同的结构。
呈现了最佳结果,表明作者架构的有效性。Lite-MI通过共享自注意力层来降低模型复杂度。与
相比,“Lite-
”在轻微的性能下降的代价下需要更少的参数。
4.3.2. MI对其他模型的影响
信息熵(MI)是MI-DETR的核心机制。得益于其简化,MI可以友好地集成到现有的类似DETR模型中。为了验证其有效性,作者考察了将MI集成到DINO [47] 和 Relation-DETR [13] 后的性能提升。DINO是目标检测领域广为人知的代表性模型,而Relation-DETR是呈现SOTA性能的最新模型。因此,作者选择它们作为 Baseline 。为了避免实验结果的随机性,作者在不同的 Backbone 网络和训练计划下进行实验,结果如表3所示。
从表3中作者可以观察到:
-
- 与 Baseline 方法相比,MI-DETR实现了持续的性能提升。特别是,基于最强的 Baseline 方法Relation-DETR,该方法在解码器中利用了一对多匹配机制,MI-DETR仍然能够获得性能提升,在12个epoch时比Relation-DETR高出
AP,在24个epoch时高出
AP。这表明MI可以有效增强目标 Query 的表示,即使目标 Query 已经通过一对多匹配机制得到了强化; 2. 2. 在12个epoch的训练计划下将MI插入到Relation-DETR中,其性能优于在24个epoch训练的Relation-DETR(52.4 AP对52.1 AP),这表明MI-DETR可以加速训练收敛。
4.3.3. MI的 Query 头数量
作者关注MI解码器层中 Query 头的数量如何影响最终性能。直观上看,随着 Query 头数量的增加,性能应该会提升,因为多时间 Query 使得目标 Query 能够学习到多种模式信息。然而,随着 Query 头数量的进一步增加,性能可能会下降,因为过多的信息模式可能会产生干扰,甚至产生对抗。因此,作者进行了实验来检验 Query 头数量对模型性能的有效性,结果见表4。当 Query 头数量从1增加到4时,性能提升了+0.7 AP,验证了多个 Query 头的有效性。然而,当
时,性能下降,这可能证实了作者的猜测,即过多的信息模式可能会产生干扰,甚至产生对抗。
4.3.4. MI的 Query 头组合
上述实验验证了MI(表3)的有效性,并考察了MI Query 头数量的影响(表4)。为了实验性地解释MI为何有效,作者进一步在不同 Query 头组合下进行实验。基于表2中的训练模型#6,作者测试了启用每个 Query 头或多个 Query 头时的性能,结果报告在表5中。具体来说,当启用某个 Query 头时,使用第k个(k=1,2,3或4) Query 头的目标 Query 来预测最终结果。当启用多个 Query 头(例如, Query 头1&2)时,这些 Query 头的目标 Query 被融合以预测最终结果。当 Query 头数量为2或3时,存在许多 Query 头组合,因此作者展示了两种任意组合的结果。
总体而言,配置一个 Query 头的模型性能明显落后,而融合所有 Query 头的信 息则实现了最佳性能。具体来说,随着 Query 头的增加,性能逐渐提升。原因很简单,单次 Query 只能使目标 Query 学习到相对有限的信息,这类似于CNN中每个卷积核只提取特定通道的特征。多次 Query 允许模型融合从不同 Query 头学习到的多模式信息,尽管这些信息可能高度协作(例如,头2和4)或弱协作(例如,头1和2)。
4.3.5 可视化分析
表4和表5中的实验表明,在设置合理的 Query 头数量时,不同的 Query 头能够相互学习协作信息,从而提高目标检测性能。为了进行更深入的分析,还进行了一些可视化实验。
实验1 - 目标 Query 可视化:在最后一个解码器层对目标 Query 进行目标检测,因此可视化最后一个解码器层的目标 Query 有助于区分各个 Query 头最终学习到的信息类型。因此,作者利用T-SNE工具来可视化最后一个解码器层的目标 Query 分布。在此,作者想要解释的是,与CNN特征图不同,目标 Query 是一个向量,其元素与图像像素没有对应关系,因此采用了T-SNE可视化。考虑到大多数目标 Query 代表背景,且COCO数据集中有
的图像包含少于20个目标,因此图4中可视化的是前20个目标 Query 。
实验2 - 目标检测结果可视化:如果可以可视化基于单个 Query 头的目标检测结果,那么MI的相互协作机制就可以直接观察到。因此,作者使用单个 Query 头和所有 Query 头可视化目标检测结果,如图5所示。
从图4中作者可以观察到,不同 Query 头中的目标 Query 通常呈现不同的分布,有的聚集,有的分散。反思检测结果,不同的 Query 头倾向于关注不同类型的信息。例如,如图5所示, Query 头2似乎关注大目标,而 Query 头4则倾向于关注小目标。同时,一些 Query 头可能关注相似的信息模式,因为在一定程度上共享信息是协作的基础。例如,在图5的第一个例子中, Query 头1和 Query 头3似乎都在努力检测图像的所有区域中的目标。这可能在一定程度上解释了表4中的结果,即不断增加 Query 头并不会持续提高性能。然而,作者注意到,由于图像的多样性和神经网络的“黑盒”特性,很难明确不同 Query 头学习到的具体信息模式,并且也很难在多样化的图像上持续反映这些模式。
作者还可以从图5中观察到 Query Head 之间存在相互协作。例如,在第一个例子中, Head 2、3和4没有检测到“时钟”,而左侧人的手中的“杯子”在 Head 1、2、3和4中也没有被检测到,但这两个物体在 Head 1-4中被检测到,且置信度得到提升。多 Query Head 的协作使得MI-DETR在检测具有挑战性的物体方面表现出更强的能力。例如,如图6a所示,遮挡的“泰迪熊”被成功检测到,而 Baseline 模型未能检测到。还可以避免一些误检,如图6b所示。
4.4 复杂性分析
所提出的
通过并行添加解码器层来实现,这很容易导致人们误解性能提升可能源于参数复杂度的增加。因此,为了消除这种误解,测试了具有不同解码器层数和 Query 头数的模型,并将结果总结在表6中。请注意,在实验中作者没有添加UFI(具有100万参数),以确保与 Baseline 模型的公平比较,并消除其对测试的干扰。
通过检查表6中DINO使用6、12和24个解码器层的实验结果,作者可以观察到增加层数并不会带来性能提升。相反,会生成大量的参数和计算量,甚至导致性能下降。潜在的原因如下。由于解码器层的级联架构,目标 Query 表示的更新受到级联方向的限制。当解码器层数进一步增加时,表示可能变得冗余甚至负向,从而导致性能下降。
与具有12个解码器层的DINO相比,MI-DETR采用6个解码器层和2个 Query 头,所需的参数和计算量更少,并且性能更优(49.5比49.0)。与具有24个解码器层的DINO相比,MI-DETR采用6个解码器层和4个 Query 头,同样需要更少的参数,并展现出更好的性能。这些结果证明了作者提出的MI(而不是增加计算复杂度)有助于性能提升。
- 讨论
级联多时间 Query 与并行多时间 Query 。现有DETR-like模型的解码器层实际上执行的是级联多时间 Query 。相比之下,作者提出的MI解码器层采用并行多时间 Query 。作者希望讨论它们之间的区别。
Query 头的本质是目标 Query 通过与图像特征交互来更新其表示。如引言中所述(第1节),一次性 Query 类似于学生向老师提问,并根据老师的回答获取关于图像的信息。对于级联多时间 Query ,学生在第一个 Query 头中提出一个初始问题,并在后续的 Query 头中只提出与初始问题相关的问题。不同之处在于,并行多时间 Query 允许学生在第一个解码层中从不同视角同时提出多个问题,并在后续的解码层中不断接收这些问题的逐渐细化答案。
真实并行与伪并行。图像中目标 Query 的数量远远大于目标GTs的数量。因此,GTs与目标 Query 之间的匹配是一个现有工作努力解决的问题。主流的想法是为一对一匹配设置目标 Query [5, 16, 50]。然而,为了避免NMS[29]后处理操作,也需要一对一匹配的目标 Query 。因此,一对一匹配的目标 Query 和一对多匹配的目标 Query 是并行存在的。然而,如引言(第1节)所述,这种参数共享的并行架构是一种伪并行。相比之下,作者提出的参数依赖并行架构是真实并行,能够学习多模式信息。此外, Query 融合机制使得多模式信息能够相互协作和补充。
- 结论
本文提出了一种新的解码器架构,其核心是并行多时间询问(MI)机制。该机制具有以下优势:
-
- 该机制通过使目标 Query 能够从图像特征中学习到多个信息模式,从而提高了特征利用率;
-
- 该机制结构简单,易于集成到现有的DETR-like模型中;
-
- 不同询问头学习到的信息相互协作和补充。
参考
[1]. MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism
扫码加入👉
「集智书童」
交流群
(备注:
方向
学校/公司+
昵称
)