点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
在光照不良环境下进行目标检测是一项具有挑战性的任务,因为通常RGB图像中的物体不够清晰可见。
红外图像提供了额外的清晰边缘信息,可以补充RGB图像的信息,因此融合RGB和红外图像有可能增强在光照不良环境下的检测能力。
然而,现有结合可见光和红外图像的工作主要集中在图像融合上,而不是目标检测。此外,它们直接融合了两种图像模态,忽略了它们之间的相互干扰。
为了最大化跨模态的优势,作者设计了一个基于双重增强的跨模态目标检测网络DEYOLO,在该网络中设计了语义空间跨模态和新颖的双向解耦聚焦模块,以实现RGB-红外(RGB-IR)的检测中心化互增强。
具体而言,作者首先提出了一个双重语义增强通道权重分配模块(DECA)和一个双重空间增强像素权重分配模块(DEPA),以在特征空间中聚合跨模态信息,从而提高特征表示能力,使特征融合能够针对目标检测任务。
同时,作者在DECA和DEPA中设计了一个双重增强机制,包括对两种模态融合和单一模态的增强,以减少两种图像模态之间的相互干扰。
然后,开发了一个新颖的双向解耦聚焦机制,以在不同方向上扩大主干网络的感受野,从而提升DEYOLO的表现质量。
在和LLVIP上的广泛实验表明,作者的方法在性能上明显优于最先进的目标检测算法。
1 Introduction
作为计算机视觉中的一个基本任务,复杂场景中的目标检测仍然面临着诸多挑战。由于可见光的有限波长范围,在光照条件不佳的复杂环境中(例如浓烟),获取目标信息非常困难。为了解决这个问题,红外信息被广泛引入。然而,由于红外图像质量较低,一般检测器难以从红外图像中提取出有用的纹理和颜色信息。因此,它们单独支持检测任务十分困难。
相比之下,利用可见光-红外图像跨模态的互补信息可以在目标检测中提高性能。常用的方法采用融合-检测策略,即图像融合网络使用目标检测结果作为验证指标。然而,融合-检测方法存在几个不足之处。首先,二模态图像的融合不专注于目标检测任务。其次,它们冗余的模型结构(例如,分别有两个独立的模型用于融合和检测)导致了更高的训练成本。第三,尽管红外(IR)图像富含结构信息,但它们在纹理信息上的缺失是一个缺点。因此,融合模型通常侧重于丰富纹理信息并消除目标的复杂亮度信息。
相反,它们很少考虑两种模态图像之间的相互干扰,比如在融合过程中,红外图像可能会降低可见光成像质量。仅直接融合图像对而不进行跨模态增强不足以提升目标检测性能。
大多数现有的RGB-IR检测模型要么构建四通道输入,要么将RGB图像和红外图像分别置于两个独立分支中,然后在下游融合它们的特征。这些多模态信息融合策略在一定程度上提升了检测性能。然而,作者认为这些方法中的两种模态之间的交互不足。单模态图像的处理与特征融合之间存在明显的界限,导致跨模态信息的利用不够充分。此外,它们缺乏在通道和空间维度上的复合交互,忽视了语义和结构信息之间的潜在关系。
为了实现这一目标,作者提出了一种跨模态特征融合方法,旨在双重提升视觉和红外图像的特征图,以增强检测任务的效果。
这一增强策略能够引导不同尺度的双模态特征的融合过程,确保特征信息的完整性和最佳信息提取。针对目标检测任务,作者设计了DECA和DEPA分别丰富特征图中的语义和结构信息。此外,为了突出各模态的特定特征,在 Backbone 网络中插入了一个新颖的双向解耦焦点模块。该模块在DEYOLO特征提取阶段多向性地提升了感受野,从而获得更好的检测效果。图1展示了DEYOLO和DetFusion [24]、IRFS [30]、PIAFuse [26]、SeaFusion [25]、U2Fsuion [31] 的检测结果。可以看出,所提出的DEYOLO实现了更优的检测结果。本工作的贡献主要有三个方面:
作者提出了一种基于YOLOv8的DEYOLO方法,它在Backbone和检测Head之间实现了跨模态特征融合。与直接融合两类模态图像的其他融合方法不同,作者关注在特征空间中融合两类模态信息,并专注于目标检测任务。
作者提出了两种利用双重增强机制的模块——DECA和DEPA。它们通过重新分配通道和像素的权重来减少两种模态之间的干扰,并实现语义和空间信息的增强。
为了使 Backbone 网络提取出的特征更适合作者的双增强机制,作者设计了双向解耦聚焦模块。该模块以不同方向下采样浅层特征图,增加感受野范围的同时保留周围信息。
2 Related 1 Work
在本节中,作者首先回顾常用的单模态目标检测算法,然后介绍了最近的一些可见光和红外图像融合方法。
2.1 Single-Modality Object Detection
最近,深度神经网络被提出以提高目标检测任务的准确性,包括CNN及其变种,例如Sparse R-CNN[23]、CenterNet2[36]以及YOLO系列,还有基于Transformer的模型,例如DETR[3]和Swin Transformer[18]。尽管这些模型可以实现出色的性能,但它们都仅仅利用了单模态图像的信息。此外,这些模型严重依赖图像的纹理,这妨碍了它们对红外图像的检测能力。
为了处理红外目标检测问题,研究行人不断引入不同的网络结构和机制。ALCNet [5] 使用 Backbone 网络来提取图像的高阶语义特征,并使用模型驱动编码器学习局部对比特征。ISTDU-Net [7] 有效地整合了编码和解码阶段,并通过 Shortcut 促进信息的传递。
这种结构能够在保持高分辨率的同时增加感受野。IRSTD-GAN [34] 将红外目标视为特殊类型的噪声。它能够基于生成对抗网络(GAN)学习的数据分布和层次特征,从输入图像中预测红外小目标。这些模型只考虑了红外图像,而没有从可见光图像中提取信息。
上述单模态方法在复杂光照条件下不适宜进行目标检测。相比之下,双模态融合可以从可见光和红外图像中提取互补信息,从而减少对纹理信息的过度依赖。
2.2 Fusion-and-Detection Methods
考虑到红外图像对光照条件较差的情况更为 robust,已经提出了多种可见光和红外图像融合方法。
U2Fusion [31] 是一种无需监督的端到端图像融合网络,能够解决不同的融合问题。它通过特征提取和信息测量来自动评估相应源图像的重要性,并提出适应性的信息保留程度。
PIAFusion [26] 考虑了光照因素,使用了照明感知损失。SwinFusion [19] 包含基于自注意力机制 [28] 和交叉注意力的融合单元,以便在相同领域内以及跨领域中挖掘长期依赖关系。
CDDFuse [35] 引入了Transformer-CNN提取器,并成功地分解了特定模态和共享模态的特征。经过融合过程后,得到的图像被输入到一个独立的模型中以检测物体。
尽管这些模型可以生成令人信服的结果,保留融合结果与源图像之间的自适应相似性,但它们并不直接针对目标检测任务。另一个缺点是在融合结果中可能存在冲突(例如,红外图像中的无纹理部分破坏了可见光图像中原有的丰富纹理部分),这对检测精度是有害的。
相比之下,DEYOLO 只专注于目标检测,并且新设计的双增强机制可以解决冲突问题。
3 Method
如图2所示,为了处理从双模态图像中提取出的多尺度特征,作者在YOLOv8 [12]模型的主干和 Neck 之间新增了精心设计的DECAs和DEPAs模块(见图3)。通过特定的双重增强机制,语义和空间信息的融合使得双模态特征更加协调。同时,为了更好地提取和保留两张图像模态的有用特征,作者提出了一种新颖的双向解耦聚焦策略。该策略在不同方向上增加了主干的感受野,并确保不会泄露原始信息。
3.1 DECA: Dual Semantic Enhancing Channel Weight Assignment Module
此处的双重增强机制指的是,在通道间使用单模态信息对双模态融合结果进行增强,并进一步通过对双模态融合互补信息的利用对单模态进行增强。因此,DECA能够根据每个通道的重要性分配权重,从而强调语义信息。
第一个增强旨在利用单模态特征来提高RGB和红外特征的双模态融合效果,因为这些特征之间可能存在冲突。令 和 分别表示 Backbone 网络计算得到的可见光图像和红外图像的特征图。首先,为了获取RGB和红外图像的综合信息,作者将两个特征沿通道维度进行拼接。然后,通过卷积操作使组合后的特征图恢复到原始尺寸,并过滤掉冗余信息。最终得到混合特征图。
接下来,作者提出了一种通过卷积实现的新权重编码方法。设计了一个编码器,逐步在空间维度压缩至的大小。
其中, 指的是图3中的跨模态权重提取操作。
另一方面,作者需要获取每种模态的特定特征。SE块[8]通过明确建模其卷积特征通道之间的依赖关系,来提高特征图表示的质量。受这一理念的启发,作者将该结构应用于可见光和红外图像,以获得大小为的特征块,这代表了不同通道的权重值:
其中,指的是图3中的通道权重提取块。和可以通过元素级乘法增强两种模态的混合特征,并重新分配权重,从而突出重要的通道。
为了进行第二次增强,作者尝试使RGB和IR的每个特征图充分利用另一种模态的优势。为此,和将乘以在第一次增强中获得的相关特征权重,从而从另一模态中提取语义和纹理信息:
\left{ \begin{array}{l} \pmb{F}*{I R*{1}}=\pmb{F}*{I R*{0}}\odot\pmb{W}*{e n V*{0}} \end{array} \right.
其中, 表示通道维度上的乘法。增强结果 和 将通过下方描述的DEPA进行处理。
3.2 DEPA: Dual Spatial Enhancing Pixel Weight Assignment Module
与DECA类似,DEPA也采用了双重增强机制。在空间维度上重新编码后,DEPA强调了重要的像素位置,同时减少了无关紧要的像素位置。
specifically,为了获得包含全局信息的混合特征,作者对两个特征图 和 进行了形状变换,使用了卷积操作。然后,在每个结果上应用了元素级乘法。
随后,在上执行Softmax操作。为了在空间维度上完全获得每种模态的特征,作者保留了不同卷积核大小学习到的空间信息差异。
在公式(7)中,使用了两组卷积操作从不同的尺度中提取像素权重。通过在通道维度上进行连接,可以得到 和 。接着,作者通过减少通道数的一半来压缩特征,从而获得 和 。然后,对 和 应用逐元素乘法,并使用软最大化后的 进行加权。
第二个增强通过在输入特征图与第一个增强的结果上进行元素级乘法操作来实现:
Eq.(9) 的目标是在空间维度上从另一模态中提取结构特征。最后,作者对 和 进行元素级相加以进行目标检测。
3.3 Bi-direction Decoupled Focus
在本小节中,作者从单模态的角度出发,旨在提高目标检测性能。为了增强提取目标的能力,作者在DEYOLO中设计了双向解耦聚焦机制,以扩大主干网络的感受野,同时尽量减小对周围像素的信息损失。
YOLOv5中的聚焦模块是一个切片操作,该操作源自YOLOv2中的通过层[22]。这一特定的操作每隔一个像素获取图像中的一个像素点,因此可以在不丢失信息的前提下提供两倍下采样的特征图。
受此下采样方法的启发,作者设计了双向解耦聚焦机制以充分保留多方向的信息。具体地,作者在水平和垂直方向上采用两种特定的采样和编码规则。如图4所示,作者将像素分为两组进行卷积。每组同时关注相邻和远程的像素。最后,在通道维度上连接原始特征图,并使其通过一个深度可分离卷积层[4]。
4 Experiments
4.1 Datasets
由于红外图像通过测量物体发出的热辐射获得,因此它们容易受到环境噪声的影响。事实上,可用的高质量红外和可见光图像数据集数量有限,例如TNO [27] 和 RoadScene [32]。然而,这些数据集通常旨在进行红外和可见光图像融合任务,而不是目标检测,因此缺乏目标检测所需的标签。尽管FLIR[1]数据集提供了目标检测的标注,但其像素级对齐较差。因此,作者选择了公共数据集M3FD [16]、LLVIP [10] 和KAIST[9],这些数据集中的红外和可见光图像对均实现了像素级对齐,并包含目标检测的标注。在这三个数据集中, FD数据集共包括4,200个图像对,总计8,400幅图像。LLVIP数据集包含16,836个图像对,总计33,672幅图像。考虑到原始KAIST数据集中的标注存在噪声问题,作者使用了经过清洗的训练集(7,601个示例)和测试集(2,252个示例)。
4.2 Implementation details
在本小节中,开展了两组实验以验证DEYOLO的有效性。一组与当前最先进的单模态目标检测算法进行比较,另一组与融合检测算法进行比较。在训练单模态检测算法时,作者分别使用红外图像和可见光图像对模型进行训练。为了确保实验公平,作者将数据集中可见光和红外图像结合起来作为这些检测器的训练集。对于融合检测算法,在比较算法中采用预先训练的跨模态图像融合模型,然后利用融合图像进一步训练YOLOv8 [12]。训练在八块NVIDIA RTX 4090 GPU上进行。训练周期为800个,批量大小为64,初始学习率和最终学习率分别为和。作者还在验证集上评估了作者的方法,并使用均方平均精度(mAP,IoU阈值为0.5)和Log平均错失率(LAMR)作为评价指标。
4.3 Ablation Studies
为了验证 DEYOLO 中关键组件的影响,作者在 M3FD 数据集上进行了多项实验,以调查这些组件如何影响作者的最终性能。
首先,作者分别验证了双向解耦聚焦、DECA 和 DEPA 模块对模型的影响,并将实验结果展示在表1 中。可以看出,DECA 和 DEPA 明显提高了模型的检测准确性。单独使用 DECA 和 DEPA 模块相比仅使用可见图像训练的基础网络,可以使 提高 和 , 提高 和 。其中,DECA 的改进更为显著。同时使用这两个模块可以将 提高 和 提高 。此外,同时使用所有三个模块进一步提升了目标检测精度,两个指标分别提高了 和 。
在DECA和DEPA模块中,利用了两个模态中既包括语义信息又包括空间信息的信道权重和空间像素权重,分别增强了单模态信道权重和空间像素权重中的语义信息和结构信息。增强后的权重随后被应用于单模态特征图,从而实现双重增强。通过充分利用每个模态及其在特征空间内的互补信息的优势,使用DECA和DEPA可以提高跨模态目标检测的性能。由于作者利用的是深度特征,因此每张特征图包含更强的语义信息而非空间信息。因此,DECA对模型的增强效果比DEPA更为显著。
此外,为了研究如何使DECA和DEPA中的双重增强机制减轻两种模态图像之间的干扰,并获得更好的跨模态通道权重和像素权重,作者在DEPA的特征混合部分和DECA的跨模态权重提取部分分别选择了不同的超参数。
对于DEPA,作者使用不同的卷积核大小来获取两种模态的空间像素权重。结果见表2。作者相信,随着卷积核大小的增加,每个单一模态内的冗余信息也被越来越多地整合进来,从而增加了两模态之间的相互干扰,阻碍了特征增强。研究发现,对于不同尺度的特征图,当卷积层的数量相同时,的卷积核更好地建模了空间像素信息。
对于DECA,作者尝试使用不同类型的卷积以及不同的层数来提取跨模态通道权重。实验结果见表3。作者首先尝试通过一层与原始特征图相同大小的卷积直接提取每个通道的权重。然而,作者发现当层数设置为1时,模型无法收敛。随后,作者将卷积层数依次设定为2和3,并发现当层数为3时,可以更好地提取每个通道的权重。在通道权重提取方面,作者发现由于其较快的收敛速度,深度可分离卷积[4]更适合指导训练过程,这体现了其优势。
4.4 Comparison with State-of-the-Arts models
最后,作者在M³FD [16]和LLVIP [10]数据集上将DEYOLO与最近的先进融合模型和目标检测模型进行比较。作者选择YOLOv8-n和YOLOv8-l作为 Baseline 。
如表4所示,由于利用了两种模态的不同信息,DEYOLO优于所有单模态目标检测模型。此外,使用可见光图像训练的检测器的mAP值高于使用红外图像训练的检测器的mAP值。但是,没有任何单一模态的检测器能够超越DEYOLO,后者采用了双特征增强机制。特别地,DEYOLO在基于ViT的模型中表现更优,例如Swin Transformer [18]和Sparse RCNN [23]。基于ViT的模型仅考虑了单一模态的全局相关性,而DEYOLO在此基础上还利用了DECA和DEPA提取的两种模态之间的互补信息且无冲突。
可以观察到,一些融合检测方法,例如DetFusion [24] 和U2Fusion [31](如图1(b)和(d)所示),生成的融合图像看起来更像红外图像,缺乏检测任务所需的部分纹理和颜色信息。另一方面,SeAFusion [25] 和Tardal [16]等其他方法得到的融合图像未能有效捕捉红外图像中的丰富结构信息(例如,如图1(c)所示)。这些对比方法无法平衡两种模态的纹理和结构信息以提高检测准确性。相比之下,DEYOLO首先通过双向解耦聚焦利用两模态的优点,然后基于双重增强机制使用DECA和DEPA模块来减少两者之间的相互干扰,从而提高检测准确性。
如表5所示,作者的方法在两个数据集上的性能均优于目前最先进的融合与检测方法。特别是在数据集[16]中,DEYOLO的和分别比其他模型高出至少5.4%和3.1%。而DEYOLO-1的和的提升分别超过10.0%和10.5%。与此同时,在LLVIP[10]数据集中,作者观察到DEYOLOn的和分别提高了至少0.6%和1.4%。此外,在图5和图6中,数据集上每类别的检测结果也显示了作者方法的优势。作者将数据集重新划分为了训练集、验证集和测试集,比例为3:1:1。按上述方法划分测试集后,两个数据集的测试/验证集上分别为85.7%/86.6% 和96.4%/96.8%。
为了验证作者模型的泛化能力,作者在KAIST数据集上进行了实验,如表6所示。与和LLVIP数据集不同,KAIST包含RGB和热成像图片配对。与作者在研究中研究的红外图像相比,这些热成像图片显示出了较低的成像质量和显著的差异。因此,这些实验为作者模型提供了额外的验证。从表6可以看出,作者的方法未能达到最先进的(SOTA)性能,但在大多数现有方法中表现更优。
5 Conclusion
在本文中,作者提出了一种名为DEYOLO的方法,该方法使用双增强机制在复杂光照环境下进行跨模态目标检测。DECA和DEPA被设计用来在 Backbone 和检测Head之间融合两种模态的特征图。
作者在 Backbone 中提出了双向解耦聚焦机制以提高特征提取能力。
这种方法已经在两个数据集上得到了验证。
值得注意的是,本文提出的DECA和DEPA可以作为即插即用模块应用于其他模型中,以解决复杂环境下的目标检测问题。这将是作者在未来工作中的研究方向。
参考
[0]. DEYOLO: Dual-Feature-Enhancement YOLO for Cross-Modality Object Detection .
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」