多光谱互补特征融合 | DPDETR在目标检测领域的突破性进展！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

红外可见目标检测旨在通过利用红外图像和可见图像对互补信息来实现稳健的目标检测。然而，现有的模式错位问题提出了两个挑战：将错位互补特征融合在一起是有困难的，现有方法在错位条件下无法准确地定位两种模式中的物体。

在本论文中，作者提出了一种解耦位置检测 Transformer （DPDETR）来解决这些问题。

具体来说，作者明确地定义了物体类别、可见模式位置和红外模式位置，使网络能够学习这两种模式之间的内在关系并输出两种模式中物体的准确位置。为了准确地融合错位物体特征，作者提出了一种解耦位置多光谱交叉注意力模块，可自适应地采样和聚合多光谱互补特征，同时受到红外和可见参考位置的限制。

此外，作者设计了一种 Query 解耦多光谱解码器结构来解决作者任务中三种物体信息优化之间的差距，并提出了一种解耦位置对比正则化训练策略，以增强DPDETR学习解耦位置的能力。

在DroneVehicle和KAIST数据集上的实验表明，与最先进的现有方法相比，取得了显著的改进。

代码将在https://github.com/gjl45/DPDETR中发布。

I Introduction

目标检测是计算机视觉领域的基本任务，已在各种实际应用中得到应用，例如视频监控、自动驾驶以及空中目标检测。随着深度学习的发展，目标检测技术取得了巨大进步 [1, 2, 3]。然而，这些方法主要针对可见图像，因此仍受到低照度、烟雾、雾等成像条件差的挑战。为了实现强大的全天时目标检测，近年来有越来越多的研究将其转向红外-可见目标检测，通过将红外图像与可见图像的信息互补融合。

然而，红外-可见物检测中的模式错位问题是一个主要的挑战。大多数特征融合方法通常假设红外-可见图像对是高度对齐的。然而，如同图1（a）所示，即使进行手动对准，精确对准也是困难的，因为红外-可见图像经常展现出明显的视觉差异，而且并非总是在同一时间戳被捕获 [13]。因此，在两种模态中对同一成像目标的错误对齐通常很常见。这将破坏当前方法融合的特征表示的一致性，影响网络性能。模式错位问题在空中目标检测中更为突出，因为目标通常被带有紧密指向的边界框进行标注，需要对检测任务中的物体特征进行更精确的对齐。

picture.image

当红外和可见图像对对齐时，大多数方法的表现通常会降低，难以在两种模式中得到准确的目标检测结果。尽管在一种模式（参考模式）中的目标可以正确定位，但这也将在另一模式中导致明显的错误检测和混淆的重复检测结果。如图1（b）所示，错位检测误差和困惑的重复检测严重妨碍了两种模式中的同一物体的识别，尤其在物体密集的情况下，精确的局部定位是关键。这种现象还表明，这些方法可能潜在地选择与标注的边界框匹配的最佳模式作为主要参考模式，这可能导致在特征融合期间对两个模式的不公平处理，从而导致对参考模式的偏宠。因此，准确确定同一物体在红外和可见模式中的位置至关重要。

近几年来，一些方法开始解决红外可见目标检测中的偏移问题。张等人[14]、周等人[15]和袁等人[11、12、16]通过在RoI头中预测两模态 Proposal 之间的偏移或在特征融合之前预测特征点偏移来解决模态偏移问题。尽管这些方法在某种程度上解决了物体特征的对齐问题，但由于这些方法使用了主要的参考模态 Proposal 直接预测其他模态中的目标 Proposal 偏移，没有充分利用红外和可见图像的特征，因此无法保证两个模态特征的对齐。此外，这些方法通常输出参考模态中物体的位置，但无法同时输出两个模态中物体的准确位置和对应关系。

在本文中，作者提出了一种新颖的解耦位置检测 Transformer （DPDETR）方法，以实现实例级特征对齐和两个模态中同一物体的准确位置输出。具体而言，作者将目标检测中的物体位置分为红外和可见两部分，并用类别、红外位置和可见位置信息表示一个物体。作者通过利用互补特征明确地优化这三个方面，为了实现对齐的互补特征融合，作者提出解耦位置多光谱变形交叉注意力，它在目标在红外和可见模态中的解耦参考位置上进行自适应采样和聚合。由于同时优化这三种信息更具复杂性，它们之间存在模态差距，因此作者设计了一个 Query 解耦结构，以实现每个类型信息的解耦交叉注意力。此外，作者还设计了解耦位置对比正则化训练，以增加两种模态中偏移情况的多样性，帮助网络学习和加速解耦位置优化的范式。

总之，作者的贡献如下：

作者提出了一种新颖的方法DPDETR，具有解耦多光谱变形交叉注意力，来解决模态错位问题，并获得每个物体在两种模态下的准确位置。据作者所知，这是首次将红外和可见模态中的物体位置解耦，并利用多模态特征同时优化它们。
作者设计了一种 Query 解耦结构，以实现对每种类型的信息进行解耦交叉注意力，并提出了解耦位置对比正则化训练来辅助网络训练。这两种方法进一步增强了DPDETR进行解耦学习的能力。

为了评估作者方法的有效性，作者在定向和水平红外可见物检测任务上将DPDETR进行了测试。在DroneVehicle数据集和KAIST数据集上的广泛实验表明，所提出的方法实现了最先进的性能。

II Related work

Infrared-visible Object Detection

在红外与可见光目标检测的前期研究中，主要依赖一阶段检测器，如YOLO和两阶段检测器，如 Faster RCNN [1]。为利用红外和可见图像的互补信息，Wagner 等 [19] 首先构建了早期和晚期 CNN 融合架构，以提高检测的可靠性。 Konig 等 [20] 引入了全卷积融合 RPN 网络，通过 ConCat 方式融合特征，并得出中途融合可获得更好结果的结论 [21]。在这个基础上， [22, 23, 24] 设计了基于 CNN 的注意力模块来更好地融合红外和可见特征。引入了基于变换的融合模块来融合红外和可见图像之间的更多全局互补信息。除了直接融合图像特征外，采用照明意识融合方法来融合红外和可见图像特征或后融合多层检测结果。为了实现不同区域的差异融合，引入了边界框 Level 的语义分割来指导分割区域的融合，并 [32] 通过区域感兴趣 (ROI) 预测实现区域 Level 的特征融合。 [33, 9] 进一步利用区域的确信或不确定性分数来后融合多分支预测。然而，这些方法忽略了模态错位问题，导致其无法利用错位的物体特征。因此，作者提出了一种新颖的 DPDETR 方法来解决红外与可见目标检测中的错位问题。

Alignment Learning in Infrared-visible Object Detection

语义错位是红外与可见物检测中的一个关键问题。最近，已有一些研究工作致力于解决这个问题。张等人[7, 14]首先通过预测另一个模态中参考 Proposal 的位移偏移，并融合对齐的 Proposal 特征来解决对齐问题。[16, 11] 进一步考虑了参考 Proposal 的尺度偏移和偏移角，以实现空中目标检测中更准确的位移特征融合。 [12] 计算参考模态和另一个模态中的特征点之间的注意力值，以实现错位物体特征的融合。然而，这些方法仅基于参考模态预测另一个模态的偏移，没有充分利用红外和可见特征来学习两个模态中同一物体之间的内在关系。相反，作者的方法明确定义了物体在红外和可见模态中的位置，充分利用多光谱特征来学习这种内在关系，并输出物体的准确位置。

End to End Object Detectors

近年来，Carion等人[34]首次提出了基于 Transformer 的端到端目标检测器称为DETR。它将目标检测视为一套预测问题，并在训练过程中直接用二进制匹配直接预测一对一的目标集。然而，DETR存在训练收敛速度较慢的问题，为了解决这个问题，出现了许多DETR的变体。变形DETR[35]通过预测2D参考点并设计变形交叉注意力模块加速训练收敛速度。条件DETR[36]将内容和位置信息解耦，并提出了条件交叉注意力以加速训练收敛。高效DETR[37]通过将密集预测和稀疏预测结合构建了一个更高效的工作流程。DAB-DETR[38]引入了4D参考点以逐层优化 Anchor 框层。DN-DETR[39]通过引入 Query 去噪训练组加速训练过程和标签匹配效果。DINO[40]集成了一系列工作构建了一个强大的DETR检测工作流程。考虑到DETR的计算效率，RT-DETR[41]通过设计高效混合编码器实现实时目标检测。

一些工作还将DETR应用于定向目标检测。ODETR[42]是第一个将DETR应用于定向目标检测的工作，而AO-DETR[43]引入了定向建议生成机制和定向建议精炼模块以实现定向目标检测。ARSDETR[44]提出了一种角度嵌入的旋转变形注意力模块，以将角度信息用于提取定向目标检测中的对齐特征。

最近，一种基于DETR的红外可见目标检测网络称为DAMSDet[45]，该网络通过自适应稀疏采样融合了错位物体特征。然而，这种方法缺乏显式约束，当错位情况超过参考位置时可能导致失败。相反，作者的DPDETR实现了更精确的特征对齐，不受错位程度的限制。

III Proposed Method

本文提出的DPDETR的整体架构如图2所示。一对匹配的红外线和可见图像作为输入。首先，每个图像的特征由特定的后骨架网络（例如，ResNet50 [46]）提取。接下来，两个特定的高效编码器分别编码这些特征。然后，将编码的特征进行扁平化、 ConCat 、输入到成对IoU感知的竞争 Query 选择模块。这个模块选择包含更准确信息关于分类、可见模态位置和红外模态位置的显著模态特征作为初始匹配目标 Query 。然后，作者将这些匹配目标 Query 复制到三个副本，作为初始分类 Query 、初始可见位置 Query 和初始红外位置 Query 。这些副本然后被输入到解耦多光谱解码器进行解耦学习和对齐融合以获得精细解耦匹配 Query 。最后，这些改进的匹配 Query 映射到目标的分类、可见模态位置和红外模态位置。

picture.image

此外，在学习阶段，作者实现了解耦位置正则训练策略以增强网络的解耦学习能力，并增加错位情况的一致性。更多的细节将在以下子节中进行解释。

Paired IoU-aware Competitive Query Selection

DETR [34] 中的目标 Query 是一组可学习的嵌入，包含目标的属性和位置信息。除了将目标 Query 设为可学习的嵌入外，几种方法 [35, 37, 40] 使用置信度分数从编码器中选择 Top-K 特征以初始化目标 Query 。置信度分数表示特征中包含前景目标的的可能性。在红外-可见目标检测任务中，DAMSDet [45] 实现了模态竞争 Query 选择，全面考虑特征表示的分类和位置置信度来选择模态特定的目标 Query 。然而，作者明确表示目标具有类别、可见模态位置和红外模态位置信息。检测器需要同时模拟这些目标的三个方面，所有这些都决定了特征的质量。因此，选中特征的置信度应同时反映目标分类、可见模态位置和红外模态位置，而不仅仅是表示前景的可能性。为此，作者提出了一种名为 Paired IoU-aware Competitive Query Selection 基于模态竞争 Query 选择的方法 [45]。具体而言，作者将红外和可见模态的编码特征序列连接在一起，并输入到线性投影层中，以获得分类得分。然后，作者选择得分最高的 Top- 特征作为初始目标 Query 。这种方法可以定义为：其中表示选中的个模态特定的特征，和分别表示红外和可见模态的归一化特征序列。

为了确保选中的 Query 同时反映高分类得分、可见模态位置置信度和红外模态位置置信度，作者将检测器的优化目标用两个模态目标位置的 IoU 重新定义为：其中、和分别表示可见模态边界框损失、红外模态边界框损失和分类损失。在这里，和分别表示预测和真实值，其中，。在这个背景下，、和分别表示类别、可见模态边界框和红外模态边界框。作者引入可见和红外 IoU 分数到分类分支的损失函数中，以实现对选定 Query 的分类、可见模态定位和红外模态定位的一致性约束。

Decoupled Multispectral Transformer Decoder

在配对 IoU（IoU aware）竞争 Query 选择之后，作者得到了一组初始化目标 Query ，有效地表示了目标类别、可见模态位置和红外模态位置。然而，在网络优化这三种信息方面存在差距。例如，类别信息倾向于关注目标的中央特征，而位置信息倾向于关注边缘特征[47]。此外，在作者的人工红外和可见模态场景中，类别信息倾向于合并两种模态的特征，而模态特定的位置信息则应该更关注每个模态的特征。这种差距导致了作者在使用标准解码器结构时检测器的性能受限，其中一组 Query 同时优化所有三种信息并共享交叉注意力。因此，作者设计了一个解耦解码器结构，包括解耦 Query 和解耦交叉注意力分支，以便消除这些信息之间的差距。

具体来说， Decoupled multispectral decoder 的详细结构如图3（a）所示。在输入解码器之前，作者通过将初始目标 Query 复制成三组来得到解耦匹配 Query ：初始分类 Query 、可见模态位置 Query 和红外模态位置 Query 。在解耦多光谱解码器层中，作者首先将三种类型的匹配 Query 合并在一起，并应用自注意力，其公式如下：

picture.image

其中，, 和分别表示分类 Query 、可见模态位置 Query 和红外模态位置 Query ，和分别表示目标可见和红外参考位置嵌入。通过这个自注意力方法，网络可以在三个类型的目标信息上学习跨类的内在关系和全局关系。然后，作者将三个类型的自注意力 Query 以及两个模态的目标参考位置嵌入，分别输入到三个独立的位置解耦交叉注意力分支中。每个分支寻找其匹配的利益模态和特征区域，提取相关特征并避免三个模态信息之间的优化差距。

图3（b）显示了解耦多光谱交叉注意力（Decoupled Position Multispectral Cross-attention）的详细结构。作者添加了 Query 特征，以及可见模式参考位置嵌入，并使用线性层来预测多尺度可见特征图上的采样位置偏移。类似地，作者添加了红外模式参考位置嵌入，用于预测多尺度红外特征图上的采样位置偏移。然后，作者使用各自的参考位置（即可见和红外参考位置）明确地约束两种模式各自的采样范围，以实现对齐目标特征采样。最后，作者将 Query 特征与两种模式参考位置嵌入结合，为采样特征点分配聚合权重，并将它们聚合以获得输出 Query 。具体而言，给定输入多语义红外和可见特征图，作者将可见和红外参考位置的第个归一化中心点和分别作为二维可见参考点和红外参考点。作者定义位置解耦多光谱变形交叉注意力模块如下：

其中表示第个 Query 特征，表示可见和红外模式，索引注意力头，索引输入语义 Level ，索引采样点。和分别表示第个语义 Level 和第个模式中的第个注意力头以及第个采样点时的注意力权重和采样点。注意力权重通过进行归一化。函数将和缩放到第个语义 Level 特征图，而函数则将预测偏移限制在和的范围内，从而实现目标特征对齐。

为了优化可见和红外边界框，作者采用级联优化方法。具体来说，在具有D层的解耦多光谱解码器中，作者从第d层中的第-次模态位置 Query 和映射到精化的红外和可见参考边界框和。这个过程可以描述为以下形式：

其中，由两个线性投影层组成，表示 sigmoid 函数，表示 inverse sigmoid 函数，而是来自成对 IoU 感知的竞争 Query 选择阶段的初始边界框。对于定向物检测中边界框的角和，作者每个层通过映射可见位置 Query 特征和红外位置 Query 特征独立地预测它们。

Decoupled Position Contrastive DeNosing Training

在作者的网络中，同时优化三种目标信息更为复杂，很大程度上取决于 Query 至真实值匹配的准确性。因此，受到DN-DETR [39]的启发，作者设计了一种解耦位置对比对抗训练策略（DPCDN）。这种方法跳过了匹配过程，直接通过在真实值类别中添加噪声来生成去噪 Query ，同时生成配对的边界框位置、大小和角度的两种模态噪声。

具体来说，作者通过随机翻转真实标签到其他标签，类似于DN-DETR [39]，引入了类别噪声。对于配对的可见与红外边界框噪声，如图4所示，作者对物体可见和红外边界框应用随机偏移、缩放和角度噪声来生成配对正负两式模态去噪 Query 。噪声的强度由超参数控制，负 Query 的噪声大于正 Query 的噪声。配对两模态边界框的随机噪声也增强了两种模态错位情况的多样性。

picture.image

如图5所示，作者与解耦多光谱解码器结构保持一致，将正负去噪 Query 解耦为类别、可见模态位置、红外模态位置去噪 Query 。如果一对红外与可见图像有n对配对的真实值 Box ，那么DPCDN组将拥有6×n个 Query ，每个配对的真实值 Box 产生三个解耦正 Query 和三个解耦负 Query 。作者还使用多个DPCDN组来提高作者的方法的有效性。这些去噪 Query 在解码器中进行自我注意力和交叉注意力操作与匹配 Query 。为了在自我注意力中防止信息泄露，作者引入了注意力 Mask [39]，确保匹配 Query 无法看到去噪 Query ，去噪组也无法看到彼此。最后，正 Query 负责恢复相应的目标真实值类别、可见模态和红外模态框，负 Query 预计预测背景。重建损失为L1和PIOU（对于水平目标检测，使用GIOU）损失进行框回归，使用focal损失[48]进行分类。

picture.image

Matching Cost and Loss Function

与DETR类似的策略一样，作者计算地物真实集和预测集之间的二分匹配，即对于个元素的排列，其中的最小成本：

其中是地物真实值和预测值为的值的匹配成本。这个过程是使用匈牙利算法计算的。由于作者明确地优化目标类别、可见模态位置和红外模态位置，作者定义，其中是目标类别的标签，和是分别表示可见和红外地物定向箱的5D向量。因此，作者定义为，以确保匹配 Query 能够准确地定位到可见和红外模态中的地物。其中是由 L1 成本和 PIOU [49] 成本组成的，用于计算定向箱的匹配成本。

对于 DPDETR 的总损失函数，作者定义如下：

其中是配对IoU感知分类损失，和分别由L1损失和PIOU损失组成，用于计算可见和红外定向箱的回归损失，是解耦位置对比正则化训练损失，而是每个解码层输出计算的辅助损失。

IV Experiments

图6：在解耦多光谱解码器的三个解耦位置多光谱交叉注意力分支中红外和可见特征点的可视化。不同颜色表示不同语义层的采样结果，而蓝色、绿色和红色分别表示低级、中级和高级语义特征图上的采样点。深色和较大的点表示相对较高的聚合权重。

picture.image

图7：在错位场景中红外和可见特征点的可视化。黄色和红色方框分别代表红外和可见模式中同一物体的位置。

picture.image

在此部分，作者首先介绍了用于实验的数据集和评估指标。然后，作者与一些最先进的论文进行了比较。接下来，作者进行了消融研究，并详细分析了作者的方法的有效性。最后，作者分析了作者的方法的计算成本。

数据集和评估指标

作者在两个公共的红外-可见目标检测数据集上进行实验：DroneVehicle数据集 [55]和KAIST多光谱行人检测数据集 [56]。这两个数据集都包含成对的RGB-IR图像和标注，供实验使用。

DroneVehicle数据集。 DroneVehicle数据集是一个大规模的基于无人机的红外-可见目标检测数据集。它包含28,439对RGB-IR图像，覆盖各种场景，如城市道路、居民区、停车场和昼夜不同的时间。该数据集提供独立标注的定向边界框标签，覆盖五个类别：汽车、公共汽车、卡车、面包车和货车。为了验证作者的方法的有效性，作者参考 [11]并对原始标注进行了一些调整：

在只有一个模式标注的目标，将被标注到相同的位置在另一个模式中。
红外和可见模式的目标按照索引进行排序，以确保它们索引相同。

修订后的数据集包括17,990对图像用于训练和1,469对用于测试。

KAIST数据集。 KAIST数据集是一个大规模的红外-可见行人目标检测数据集。它包含95,328对在交通场景（包括街道、校园和乡村）上捕获的图像。由于原始数据集的标注存在问题，作者使用 [14]提供的新标注和通过改进的标注 [21]推理的新的标注。训练集包括7,601对图像，而测试集包括从视频中抽样的2,252帧中的每20帧，其中白天场景的有1,455帧，夜间场景的有797帧。

评估指标。对于DroneVehicle数据集，作者使用平均精确率（mAP）来评估检测性能。具体而言，作者在 IoU阈值0.5处计算mAP，其中TP和FP表示正确的检出和错误的检出。对于KAIST数据集，作者采用每个图像的假正例率（FPPI）的常用对数平均 miss rate（MR^-2），范围在，以评估行人检测性能。数值越小，性能越好。为了进一步评估方法的有效性，作者在 'All' 条件下 [56]评估该方法。同时，作者在测试集的六个白天的子集中评估其性能，这些子集包括不同的人行距离和遮挡 Level 。

Implementation Details

对于DroneVehicle数据集，作者采用定向目标检测版本，而对于KAIST数据集，为了实现水平目标检测，作者移除了角度预测组件。作者选择ResNet50 [46]作为红外和可见分支的backbone，特征图语义层级为L=3。解耦多光谱解码器包含六个层，并设置了注意力头的数量、采样点和所选 Query 数为H=8, K=4和N=300。

在训练过程中，作者使用基本数据增强技术，包括随机旋转和翻转，并将训练和测试图像大小都设置为640x640。对于DroneVehicle数据集，作者加载了在COCO数据集上预训练的ResNet50权重，并训练了42个周期。而对于KAIST数据集，作者加载了作者在COCO数据集上预训练的基检测器，并训练了24个周期。所使用的优化器为Adam，权重衰减率为0.0001，学习速率为0.0001。所有实验均在NVIDIA A100 GPU上进行。

Evaluation on DroneVehicle Dataset

关于红外和可见光方向的目标检测，作者将作者的方法与最先进的单模态检测器进行比较，包括Faster R-CNN [1]，RetinaNet [48]，SANet [50]，Oriented R-CNN [51]，ROI Transformer [52] 和 Oriented RepPoints [53]。作者还与6个红外可见多光谱目标检测方法进行了比较，包括Halfway Fusion [21]，CIAN [54]，ARCNN [14]，TSFADet [16]，C2Former [12] 和 GAGTDet [11]。其中，Halfway Fusion（OBB）是一个通过添加双分支S2ANet特征的多光谱定向目标检测方法。 AR-CNN [7]，TSFADet [16] 和 GAGTDet [11] 都使用红外和可见物体标注作为约束。表1显示了这些方法的比较结果。对于单模态检测结果，红外模态显著超过可见模态，因为夜间场景中的物体很难与可见模态区分开。显然，红外可见多光谱目标检测方法优于单模态方法。作者的方法在'Car'和'Bus'类别中逼近最先进的方法，这些类别的指标已经相对饱和。在'Truck，'Van'和'Freight-car'类别中，虽然难以区分，但作者的方法仍取得显著改进，最终比最佳方法GAGTDet 提升5.24 AP。

作者还提供了一些在DroneVehicle Data Sets中的检测视觉结果。如图8所示，CFormer [12]和w/o DP在错位条件下只能输出一个模态中的物体位置，无法准确地定位另一个模态中的物体。在显眼的错位情况下，w/o DP甚至会遭遇重复检测问题。相反，作者的 DPDETR 可以在错位的两个模态中准确地定位物体，并在成像和运动位移引起的复杂错位场景中建立相同物体的对应关系。 DPDETR 通过充分利用错位物体的特征，实现了更好的分类和定位。

picture.image

Ablation Studies

作者在DroneVehicle数据集上开展详细的消融实验，以说明作者方法的有效性。

消融实验：分别针对解耦位置对比去噪（DPCDN）训练和 Query 解耦结构（QDS）。在表2的第一行和第二行，分别展示了红外和可见模式下作者单模态基检测器的检测性能。第三行显示了基DPDETR在RGB-IR双重模态上的性能。基DPDETR在单模态性能上超过了每个单模态性能，但由于两个模态间解耦位置和对应关系的优化存在挑战，它只比红外模态提高了1.34 AP。如表2第四和第五行所示，作者添加了DPCDN和DQS，使其分别又提高了0.63 AP和1.52 AP。最终，通过结合DPCDN和DQS，作者的方法达到了79.81 AP，相较于红外模态提高了3.75 AP。

picture.image

消融实验： Query 初始化策略. 作者开展了针对 Query 初始化策略的消融实验。具体来说，作者将三种解耦 Query 作为三个可学习的嵌入组与作者的成对IoU感知竞争 Query 选择（PICQS）初始化方法进行比较。如表3所示，作者的PICQS方法在可学习 Query 上比PICQS初始化方法提高了2.33 AP。作者之所以会得出这样的结果，是因为红外和可见图像具有复杂多变且互补的特性，因此基于图像对角线竞争选择的方法比使用预先学习固定的目标 Query 更为有效。

picture.image

消融实验：解耦多光谱解码器层数数量. 此外，作者还开展了关于解耦多光谱解码器层数数量的消融实验。如表5所示，作者发现当解耦多光谱解码器层数为6时，可以得到最佳结果。

picture.image

Effectiveness Analysis of Our Method

如图8所示，作者首先在白天的场景中将白天和夜晚场景下的三个解耦位置多光谱交叉注意力分支的功能进行可视化。在白天场景下，分类分支对物体的主要关注点在于高阶语义内部特征，主要关注可见性模态的高阶语义特征，因为可见性特征包含更丰富的抽象高级语义信息，这对分类非常重要。相反，解耦位置的可见性和红外位置分支更关注物体的低阶语义轮廓特征，这对局部定位更加重要。具体来说，可见位置分支主要关注可见性特征，而红外位置分支主要关注红外特征。在夜晚场景下，分类分支适应性地增加了对红外模态特性的关注度，以确保正确的分类，因为可见性模态中的物体特征非常弱。在可见位置分支，网络通过聚焦红外模态目标的轮廓特征，优化可见位置，展示了作者在自适应互补特征融合方面的方法的有效性。在红外位置分支，网络也正确地关注了红外模态的物体轮廓特征。

另外，如图7所示，作者在一个错位场景下可视化了解耦位置多光谱交叉注意力在实现对齐特征融合的有效性。在所有三个解耦分支中，作者的网络都正确地关注了两个模态中同一物体的准确位置。

Evaluation on KAIST Dataset

关于红外和可见行人检测，作者移除了DPDETR的角预测组件，以实现水平目标检测。在实验中，作者将作者的方法与几种最先进的多元光谱行人检测方法进行了比较，包括ACF [19]，Halfway Fusion [21]，FusionRPN+BF [20]，IAF R-CNN [26]，IATDNN+IASS [57]，CIAN [54]，MSDS-RCNN [28]，AR-CNN [14]，MBNet [15]，TSFADet [16]，CMPD [33]，GAGTDet [11]，以及CFormer [12]。如表4所示，作者的方法在IoU阈值0.5下，在'Day','Night'和'All'条件下的性能分别为26.75 MR，21.01 MR和25.04 MR。具体而言，作者的方法在'Day','Night'和'All'条件下的表现均优于之前的最佳方法CFormer [12]，分别提高了1.73 MR，5.66 MR和3.35 MR。尤其是，在'Night'条件下的显著5.66 MR提升，说明作者的方法在夜间能够有效地自适应融合互补特征，避免可见模态特征带来的干扰。

picture.image

作者还提供了一些在KAIST数据集上的检测可视化结果。如图9所示，作者的DPDETR可以在两种模式下准确地定位行人，即使在明显偏移的场景下也能实现更高的检测置信度。

picture.image

Computational Cost Comparison

作者的方法基于Transformer，它们通常具有大量的参数和计算开销。然而，通过使用单层高效编码器，作者保持了模型的参数数量和计算成本在合理的范围内。表7显示，与其它最先进的多光谱目标检测方法相比，作者的DPDETR并没有显著增加计算成本（GFLOPs），甚至其参数数量还少于这些方法。

V Conclusion

在本文中，作者提出DPDETR来应对模态错位问题，通过明确解耦和优化目标在红外可见目标检测中的位置和对应关系。

通过 Query 解耦结构，DPDETR有效地针对物类的不同多光谱互补特征，可见位置和红外位置进行优化的融合，从而消除优化断层。在位置解耦多光谱变形交叉注意力模块中，作者实现了对错位特征的准确自适应多语义融合，同时受到物体的可见和红外参考位置的约束。

此外，作者的解耦位置对比去噪训练进一步增强了DPDETR的解耦学习能力。

在无人机车辆检测和行人检测上的实验表明，与其他最先进的方法相比，所提出的算法取得了显著的改进。

参考

[1].DPDETR: Decoupled Position Detection Transformer for Infrared-Visible Object Detection.

点击上方卡片，关注「AI视界引擎」公众号

多光谱互补特征融合 | DPDETR在目标检测领域的突破性进展 ！

I Introduction

II Related work

Infrared-visible Object Detection

Alignment Learning in Infrared-visible Object Detection

End to End Object Detectors

III Proposed Method

Paired IoU-aware Competitive Query Selection

Decoupled Multispectral Transformer Decoder

Decoupled Position Contrastive DeNosing Training

Matching Cost and Loss Function

IV Experiments

Implementation Details

Evaluation on DroneVehicle Dataset

Ablation Studies

Effectiveness Analysis of Our Method

Evaluation on KAIST Dataset

Computational Cost Comparison

V Conclusion

参考

多光谱互补特征融合 | DPDETR在目标检测领域的突破性进展！