点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
可见光-红外目标检测由于在低光照、雾天和雨天等复杂环境下的优异检测性能,已受到广泛关注。然而,在复杂场景中,由不同传感器捕获的可见光与红外模态之间存在信息不平衡问题,这会导致跨模态融合不充分,从而降低检测性能。此外,现有大多数方法在空间域使用 transformer 来捕捉互补特征,却忽略了在频域构建 transformer 以挖掘互补信息的优势。
为解决上述缺陷,本文提出一种频域融合 transformer,称为 FreDFT(Frequency Domain Fusion Transformer),用于可见光-红外目标检测。所提方法引入一种新型多模态频域注意力机制(Multimodal Frequency Domain Attention, MFDA),用于挖掘模态间的互补信息;同时设计了一种频域前馈层(Frequency Domain Feed-Forward Layer, FDFFL),通过混合尺度频域特征融合策略,进一步增强多模态特征表示。
为缓解多模态信息不平衡问题,构建了一种跨模态全局建模模块(Cross-Modal Global Modeling Module, CGMM),以在空间与通道维度上实现像素级的跨模态特征交互。
此外,设计了一种局部特征增强模块(Local Feature Enhancement Module, LFEM),通过多种卷积层结构与通道混洗(channel shuffle)操作,强化多模态局部特征表达并促进特征融合。大量实验结果表明,与现有先进方法相比,所提出的 FreDFT 在多个公开数据集上均取得了优异的检测性能。
FreDFT 的代码已开源,链接为:https://github.com/WenCongWu/FreDFT。
1.引言
目标检测(Object detection)作为计算机视觉领域中一项基础且重要的任务,旨在识别图像中物体的位置并确定其类别。以往许多研究主要聚焦于具有丰富纹理和色彩的可见光(RGB)图像,例如 Faster R-CNN [1] 和 YOLO [2, 3]。然而,夜间拍摄的 RGB 图像通常存在光照不足、细节模糊等问题,导致检测性能显著下降。
在雾天和雨天环境下,可见光(RGB)图像质量较差。红外(Infrared, IR)图像利用物体自身发射的热辐射成像,不受上述干扰条件的影响。因此可以得出结论:RGB图像与IR图像之间具有良好的互补性,能够为多光谱目标检测提供重要的语义信息,并有望提升检测性能 [4], [5], [6]。
然而,模态间存在特征不平衡问题。由于RGB与红外(IR)模态由不同传感器捕获,其成像方式的差异导致跨模态特征在语义上不一致。以往许多方法[7], [8]未考虑该问题,导致在跨模态特征融合过程中出现信息冲突,融合结果质量较低。具体而言,Fang等[7]采用由两个CSPDarknet53网络组成的双主干网络分别提取RGB与IR特征,将通过拼接操作获得的多模态特征融合后输入到设计的跨模态融合Transformer(CFT)中,生成最终的融合结果。Cao等[8]则采用双分支ResNet[9]从RGB与IR图像中提取多模态特征,并设计了通道切换与空间注意力(CSSA)模块,以实现RGB与IR模态间通道特征的交互与空间信息的增强,从而在空间-通道层面更好地融合多光谱特征。尽管上述多模态方法在检测性能上优于单模态方法[1-3],但它们均忽视了现有的特征不平衡问题,该问题会干扰多光谱检测性能。为此,Zhou等[10]首次深入研究了模态特征不平衡问题,通过设计差异模态感知融合模块(differential modality aware fusion module)以获取互补的多模态特征,但该方法仅考虑了跨模态通道层面的信息交互,忽略了空间层面的信息交互,导致模态间特征不平衡问题未能得到充分解决。
此外,大多数现有方法倾向于使用空间域Transformer来捕捉跨模态的互补信息以促进特征融合,却忽视了频域Transformer的利用。例如,Xie等人[11]提出了一种特征交互与自注意力融合网络,以促进多模态信息的交换与增强,从而获得具有信息量的融合特征。Yuan等人[12]设计了一种空间域校准与互补Transformer,用于遥感RGB-IR目标检测,其中引入了跨模态交叉注意力机制,生成校准且互补的特征以实现模态融合。尽管这些方法取得了优异的检测性能,但它们均在空间域内进行特征增强与融合,忽略了频域信息的重要性。此外,由于RGB图像和红外(IR)图像存在噪声干扰和目标遮挡问题,仅在空间域内进行多模态特征表示与交互,限制了检测模型的判别能力[13]。在频域中,RGB模态的纹理细节与IR模态的结构化热特征能够更本质地解耦并融合,从而在复杂场景下实现更鲁棒、更准确的检测。Zeng等人[14]首次在频域中对RGB-IR目标检测进行多模态特征增强,随后将这些增强后的特征输入空间域Transformer以捕捉互补信息。然而,在RGB-IR目标检测领域,现有研究尚未将频域与Transformer相结合,构建用于提取互补信息的频域Transformer,导致难以在复杂环境中获得鲁棒的多模态特征表示。
为解决上述问题,作者提出一种新型频域融合Transformer——FreDFT,用于可见光-红外目标检测。FreDFT由局部特征增强模块(Local Feature Enhancement Module, LFEM)、跨模态全局建模模块(Cross-Modal Global Modeling Module, CGMM)和频域特征聚合模块(Frequency Domain Feature Aggregation Module, FDFAM)组成。具体而言,作者利用LFEM通过不同的卷积层和通道混洗(channel shuffle)来增强来自两个主干网络的多模态多尺度局部特征;通过CGMM实现多模态特征在空间和通道维度上的全局交互与表征,以充分减少模态间差异。随后,在FDFAM中,通过多模态频域注意力(Multimodal Frequency Domain Attention, MFDA)精确捕捉RGB与IR模态之间的潜在特征相关性,其中根据卷积定理,作者采用频域中的逐元素乘积操作来估计缩放点积注意力(scaled dot product attention),而非在空间域中进行矩阵乘法运算。此外,FDFAM中设计的频域前馈层(Frequency Domain Feedforward Layer, FDFFL)采用混合尺度频域特征融合策略,以挖掘多尺度表征,促进多模态特征的融合。该创新方法能够增强多模态特征表达,并利用频域Transformer优化多光谱目标检测的性能。
综上所述,本工作的主要贡献如下。
(1) 所提出的 FreDFT 能够增强局部多模态特征,缓解模态间差异,并更好地融合跨模态特征,适用于可见光-红外目标检测任务,在三个公开数据集(包括 FLIR、LLVIP 和
)上均优于其他先进方法。
(2) 设计了一种新颖的FDFAM(Frequency-Domain Feature Aggregation Module),用于有效融合多模态特征,该模块由MFDA(Multi-Modal Feature Distillation Attention)和FDFFL(Frequency-Domain Feature Fusion Layer)组成。MFDA能够捕捉不同模态之间的相关性,以促进跨模态特征融合;FDFFL则将多尺度频率信息融入全局表征中。
(3) 为促进多模态特征的更好融合,提出了一种轻量级特征增强模块(Lightweight Feature Enhancement Module, LFEM),该模块通过使用不同的卷积核聚焦于不同局部信息位置,并引入通道混洗(channel shuffle)以增强通道间的信息交互;同时,提出了一种新的跨模态全局匹配模块(Cross-Modal Global Matching Module, CGMM),通过跨模态像素级的时空-通道交互来缓解多模态异质性,从而挖掘跨模态特征之间的内在关联。
2.相关工作
A. 可见光-红外目标检测
可见光-红外目标检测因其在复杂场景下出色的物体判别能力而受到广泛关注。Zhang 等人 [15] 提出了一种引导注意力特征融合(Guided Attentive Feature Fusion, GAFF)方法,有效融合由双分支 ResNet18 [9] 从 RGB 和红外(IR)图像中提取的多模态特征,并采用 RetinaNet 检测器 [16] 预测多光谱检测结果。Yan 等人 [17] 设计了一种跨模态互补信息融合网络(Cross-Modality Complementary Information Fusion Network, CCIFNet),在 RGB 与 IR 模态之间执行非局部交互,同时保持多模态的空间关系,用于多光谱行人检测。Cao 等人 [8] 采用两个 ResNet50 [9] 作为主干网络以提取 RGB 和 IR 特征,并应用通道切换与空间注意力(Channel Switching and Spatial Attention, CSAA)机制,在通道和空间层面融合不同模态特征,其中选用 Faster R-CNN 检测器 [1] 生成预测结果。Zhang 等人 [18] 提出一种高效的 Triple-I Net(TINet)用于 RGB-IR 目标检测,通过引入光照引导的特征加权模块促进网络学习,多模态特征由两个相同的 ResNet50 与 FPN [19] 获得。此外,Zhang 等人 [20] 设计了一种去除与选择检测器(Removal and Selection Detector, RSDet),用于 RGB-IR 目标检测,其中冗余光谱去除模块被用于消除多模态中的噪声信息。
同时,Fang 等人 [21] 提出一种轻量级跨模态注意力特征融合(Cross-Modality Attentive Feature Fusion, CMAFF)方法,利用双流 CSPDarknet53 在 YOLOv5 检测器中融合多模态特征,并将融合后的特征送入检测Head以获得检测结果。随后,Xie 等人 [11] 开发了一种特征交互与自注意力融合网络(Feature Interaction and Self-Attention Fusion Network, FISAFN),用于多光谱目标检测,其中 YOLOv5 的双分支 CSPDarknet53 用于提取模态间特征,检测Head用于生成最终结果。上述方法均先在模态间进行特征融合,再将融合后的特征输入检测器以获得多光谱检测结果。Liu 等人 [22] 设计了一种目标感知双对抗学习(Target-aware Dual Adversarial Learning, TarDAL)网络用于红外与可见光图像融合,随后在融合图像上采用 YOLOv5 模型以获得检测结果。Chen 等人 [23] 采用后融合策略,通过概率集成技术整合不同模态的检测结果。尽管这些基于 CNN 的多光谱检测方法已取得显著性能,但其主要关注模态间的局部信息交换与融合,忽视了对多模态信息长程依赖关系的挖掘,导致在复杂场景下性能受限,尤其在部分遮挡条件下的目标定位能力不足。
B. 可见光-红外目标检测中的Transformer
为了捕捉不同模态之间的长程依赖关系并更好地融合多模态特征,许多基于Transformer的可见光-红外目标检测模型被提出。Fang等[7]设计了一种跨模态融合Transformer(Cross-Modality Fusion Transformer, CFT),用于RGB-IR目标检测,其中CFT被嵌入到YOLOv5主干网络中的双分支CSPDarknet53中,以挖掘长程依赖关系并融合全局上下文信息,从而实现了具有竞争力的多光谱检测精度。
You等[24]提出了一种多尺度聚合网络(Multi-Scale Aggregation Network, MSANet)用于多光谱目标检测,其中设计了基于多头自注意力机制的多尺度聚合Transformer,以从RGB和IR模态中捕捉丰富的细节与纹理信息,并采用跨模态融合机制来聚合来自不同模态的互补信息。为了实现优异的多模态目标检测性能,Dong等[25]引入了双Transformer特征融合模块,用于融合两个模态的局部与全局特征,并采用对比学习策略促进多模态特征的互补挖掘与信息交互。Yang等[26]设计了一种多维融合网络(Multi-Dimensional Fusion Network, MMFN)用于RGB-IR目标检测,通过挖掘局部、全局及通道维度的多模态特征,以更有效地融合不同模态间的互补信息。Lee等[27]提出了一种基于分层Transformer与跨引导策略的新颖多光谱目标检测器——CrossFormer,其中跨引导注意力模块(Cross-Guided Attention Module, CGAM)由两个并行的Transformer组成,均采用多头自注意力机制,以实现模态间的交互。Shen等[28]提出了一种基于迭代学习策略的新型交叉注意力引导特征融合框架,称为ICAFusion,用于多光谱目标检测,其中引入双交叉注意力Transformer以捕捉跨模态互补信息并实现全局多模态特征交互。
尽管已有诸多进展,基于Transformer的跨模态检测方法在使用自注意力(self-attention)和交叉注意力(cross-attention)机制计算空间域中token之间相似性时,仍存在较高的计算复杂度。据作者所知,本文是首个为可见光-红外目标检测任务设计多模态频域Transformer的工作。此外,由于RGB与IR图像具有不同的成像特性[10],现有许多方法采用双主干网络分别提取多模态特征,并直接使用Transformer架构进行模态间特征融合,这种方法未能有效消除模态间的差异,可能导致检测性能下降。
3.方法论
A. 提出的架构
Image
Image
作者设计的可见光-红外目标检测架构如图1所示。遵循最新的ICAFusion [28]、CrossFormer [27] 和 MMFN [26] 方法,作者的检测框架同样采用 YOLOv5 [2] 作为参考检测器,其结构包括双主干网络(dual backbone network)、三个频率域融合Transformer(FreDFT)、一个 Neck (neck)以及多尺度检测Head。双主干网络由两个相同的 CSPDarknet53 构成,能够分别从 RGB 和红外(IR)模态中提取多尺度特征。作者提出的频率域融合Transformer(FreDFT)用于融合多尺度跨模态特征。FreDFT 的结构如图2所示,包含两个局部特征增强模块(LFEMs)、一个跨模态全局建模模块(CGMM)以及一个频率域特征聚合模块(FDFAM)。LFEM 用于增强跨模态局部特征,CGMM 用于消除模态间的差异,随后通过 FDFAM 有效融合增强后的多模态特征。需要注意的是,最后三对特征图
和
由作者的 FreDFT 进行聚合。这些高维特征能够满足检测任务所需的语义信息,同时降低计算复杂度 [21]。
B. 局部特征增强模块
Image
作者提出的局部特征增强模块(Local Feature Enhancement Module, LFEM)如图3所示。首先,作者采用带有批归一化(Batch Normalization, BN)和SiLU激活函数的
卷积层,在不改变特征图尺寸的前提下增强非线性表达能力。随后,使用标准的
卷积层(‘Conv’)、空洞卷积层(‘D-Conv’)、可变形卷积层(‘Df-Conv’)以及深度可分离卷积层(‘Dw-Conv’),以捕捉不同区域的特征信息,从而增强局部信息的提取能力,其中各卷积层均配备BN和SiLU激活函数。接着,通过拼接操作融合提取到的信息,并利用通道Shuffle(channel shuffle)操作重新排列融合后的特征,以提升模型的表达能力。此外,采用
卷积层进行特征维度压缩。最后,将原始特征信息与增强后的特征相加,以进一步增强局部特征表示。
C. 跨模态全局建模模块
Image
多模态特征通过LFEM(Local Feature Enhancement Module,局部特征增强模块)增强了局部上下文信息。随后,全局建模能力对于消除模态间差异、更好地理解复杂场景至关重要,因为它有助于区分物体与背景,并促进跨模态特征融合。受CABlock [29] 和 SCAM [30] 的启发,作者提出了一种跨模态全局建模模块(Cross-Modal Global Modeling Module, CGMM),以增强跨模态特征的全局表征能力,其结构如图4所示,每个模态采用四个并行分支。
前两个分支分别使用全局平均池化(Global Average Pooling, GAP)和全局最大池化(Global Max Pooling, GMP),以突出跨模态特征的空间全局信息;第三个分支采用一个
卷积层(Conv),并结合批量归一化(BN)和SiLU激活函数,生成多模态特征图的非线性通道响应;第四个分支则采用与第三分支相同的卷积操作,配合归一化和激活函数,以提升模态间特征的表征能力。
随后,采用逐像素特征处理机制,通过矩阵乘法操作
促进信息交互与交换,以消除多模态差异。具体而言,某一模态的第四分支分别与另一模态的前三分支进行矩阵乘法操作,并在每次操作前执行三次Softmax变换,从而实现RGB-IR模态间的相互作用,完成空间-通道上下文信息的联合表征。
进一步地,将经过拼接操作
的两个分支,通过一个卷积层(Conv)进行融合;第三分支则经过卷积层(Conv)、层归一化(LayerNorm)和Sigmoid函数(Sigmoid)处理后,执行广播哈达玛积(Hadamard Product)操作
,以增强RGB与IR模态之间的全局特征关系。为保留更多特征细节,将LFEM增强后的特征与上述乘积结果相加,生成每个模态的最终输出。
D. 频域特征聚合模块
Image
与现有基于空间域Transformer提取RGB-IR图像对互补特征的多模态检测方法[6]、[12]、[28]相比,作者设计了一种频率域特征聚合模块(Frequency Domain Feature Aggregation Module, FDFAM),以更有效地挖掘和融合跨模态互补特征。FDFAM由多模态频率域注意力(Multimodal Frequency Domain Attention, MFDA)、两个频率域前馈层(Frequency Domain Feed-Forward Layers, FDFFLs)、拼接操作以及一个带有激活函数的卷积层组成,如图5所示。
上述检测方法在空间域中利用交叉注意力机制(cross attention mechanism)结合矩阵乘法操作来衡量token之间的相似性,并捕获跨模态互补特征。受卷积定理(convolution theorem)的启发,该定理指出:两个信号在空间域中的相关性等价于其在频率域中的逐元素乘积,作者提出了一种高效的MFDA来捕捉跨模态信息之间的像素级相关性。
具体而言,首先对每种模态的特征分别进行层归一化(LayerNorm)处理,随后通过标准的
卷积层和
深度可分离卷积层生成 Query (Query, Q)、键(Key, K)和值(Value,
)。接着,引入快速傅里叶变换(Fast Fourier Transform, FFT)对RGB和IR特征的Q与K进行域变换,再利用逐元素乘法(
)计算不同模态间Q与K的相似性。随后,通过逆快速傅里叶变换(Inverse Fast Fourier Transform, IFFT)和层归一化操作,分别将频率信息还原为空间特征并进行归一化处理。
为了捕获模态间的相互关联性,将某一模态的V与另一模态的归一化结果通过逐元素乘法进行交互。进一步地,采用
卷积层与加法操作获得所提出的MFDA的输出结果。上述过程可形式化表示如下:
其中,
和
分别表示 MFDA 的输出。
、
和 LN 分别表示标准的
卷积层、
深度可分离卷积层和层归一化(Layer Normalization)。
和
分别表示快速傅里叶变换(Fast Fourier Transform)和逆快速傅里叶变换(Inverse Fast Fourier Transform)。
与单尺度设计不同,多尺度表示对于多光谱目标检测至关重要[28],能够有效利用不同尺寸目标的细节信息。因此,作者提出一种频域前馈层(Frequency Domain Feed-Forward Layer, FDFFL),采用混合尺度频域特征融合策略,如图5所示。首先,对每种模态的特征进行层归一化(LayerNorm),得到归一化特征
,随后将其输入三个分支,分别通过三个标准卷积层(standard convolution layers)和三个不同卷积核的深度可分离卷积层(depth-wise convolution layers)捕获多尺度表示,深度可分离卷积层后接ReLU激活函数,以增强非线性表达能力。接着,通过快速傅里叶变换(FFT)操作将空间特征信息转换为频域信息。为进一步增强频域特征的多尺度信息表达,作者沿通道维度将每组频域信息划分为三个块,并以相互混合的方式进行拼接。上述过程可形式化定义如下:
其中,
和
分别表示 ReLU 激活函数和拆分操作。
、
、
和
分别表示
标准卷积层、
、
和
深度可分离卷积层。随后,作者通过 IFFT 操作将合并结果恢复为空间信息。这些混合特征在经过不同的深度可分离卷积层和 ReLU 激活函数后,通过拼接操作进行融合,拼接后的特征通过
卷积层进行降维,并与初始信息
相加,得到 FDFFL 的最终输出。该过程可表示为:
其中
为 FDFFL 的输出,
表示拼接操作。
在RGB和IR特征经过FDFFL的多尺度表示增强后,作者采用拼接操作以及一个带有ReLU激活函数的
卷积层,得到融合特征
,其表达式如下:
其中,
和
分别为 FDFFL 在不同模态下的输出。
、
和
分别表示 ReLU 激活函数、
标准卷积层和拼接操作。
E. 损失函数
作者提出的 FreDFT 嵌入 YOLOv5 检测器的损失函数由回归损失
、分类损失
和置信度损失
组成,定义如下:
其中,
采用完整的IoU(Complete Intersection over Union, CIoU)损失[31]。
和
采用交叉熵(Cross-Entropy, CE)损失。为了缓解类别不平衡问题,参考[32],引入变Focal Loss(Varifocal Loss)[33],以动态调整CE损失的权重,提升对稀有类别的判别能力。
4.实验
A. 数据集
作者使用三个公开数据集:FLIR、LLVIP 和
,对提出的 FreDFT 进行了训练和测试。
- FLIR:FLIR数据集[34]对多光谱目标检测任务具有潜在挑战性,包含5142对可见光-红外图像,分辨率为
,采集于昼夜交通环境。其中,4129对图像用于模型训练,1013对图像用于模型测试。该数据集包含三个类别:“person”(人)、“car”(汽车)和“bicycle”(自行车)。 2. LLVIP:LLVIP数据集[35]是在低光照条件下采集的大规模多光谱行人数据集,包含15,488对高质量配准的可见光-红外图像,分辨率为
,其中12,025对图像用于模型训练,3,463对图像用于测试模型性能。该数据集仅包含一个类别:“person”。 3. :
数据集 [22] 是一个轻微错位的基准数据集,采集于复杂交通和遮挡环境等场景,包含 4200 对可见光-红外图像,分辨率为
。按照 [36] 的设置,分别使用 3360 对和 840 对图像进行模型训练和评估。该数据集包含六个类别:“People”(行人)、“Car”(小汽车)、“Bus”(公交车)、“Lamp”(路灯)、“Motorcycle”(摩托车)和 “Truck”(卡车)。
B. 实现细节
作者在 PyTorch 框架下,使用单张 NVIDIA GeForce RTX 3090 GPU,以 2 的批量大小(batch size)运行所提出的 FreDFT 方法。模型参数通过 SGD 优化器进行更新,初始学习率(lr)设置为
,动量(momentum)为 0.937,权重衰减(weight decay)为
。同时,训练过程中采用预热(warmup)与余弦退火(cosine annealing)策略。为提升模型的鲁棒性,应用了随机旋转(random rotation)和 mosaic 等数据增强方法。针对 FLIR、LLVIP 和
数据集,分别将训练轮数(epoch)设置为 150、100 和 200。
C. 与最先进方法的比较
作者提出的 FreDFT 在多个公开数据集(包括 FLIR、LLVIP 和
)上与其他先进的检测方法进行了对比。为了更详细地展示 FreDFT 的优势,作者提供了定量分析和可视化检测效果实验。
表1 在 FLIR 数据集上,作者提出的 FREDFT 与其他方法的检测结果对比。最佳结果以粗体标出。
Image
1)在FLIR数据集上的评估:在表1中,作者对所提出的FreDFT与多种前沿方法在FLIR数据集上进行了定量对比。可以看出,FreDFT在mAP50和mAP指标上均优于其他方法,这表明该方法在白天和夜间交通场景下均具有有效性和优越性。此外,作者对FLIR数据集中昼夜各一对RGB与红外(IR)图像的检测效果进行了可视化对比,如图6所示。可以发现,CFT方法漏检了“人”和“自行车”类别的目标,而前沿方法ICAFusion在这些类别上产生了错误的检测结果。这些错误预测结果在图6中用红色三角形 Token 。与CFT和ICAFusion相比,所提出的FreDFT实现了更精确的检测,并展现出更优的定位能力。
表2 作者提出的 FREDFT 与其他方法在 LLVIP 数据集上的 MAP50 和 MAP 值。最佳结果以粗体标注。
- LLVIP数据集上的评估:作者在表2中报告了定量评估结果,其中将作者设计的FreDFT与其他最先进的方法在LLVIP数据集上进行了对比。从表2可以看出,FreDFT在mAP50和mAP两个评估指标上均取得了最佳的检测性能。具体而言,与单模态检测器的最佳性能相比,作者的FreDFT在mAP50和mAP值上分别提升了3.4%和4.1%。此外,其他优秀的多模态检测模型,如CrossFormer [27]、MMFN [26]和ICAFusion [28],均不及作者的FreDFT。
3)在
数据集上的评估:定量比较结果如表3 所示,其中作者提出的
表3 在
数据集上,作者设计的 FREDFT 与其他模型的检测结果对比。最优结果以粗体标出。
Image
Image
在
数据集上,FreDFT 与其他先进模型进行了对比。可以发现,FreDFT 在 mAP50 和 mAP 指标上均优于其他方法,这表明 FreDFT 为可见光与红外图像提供了更有效的解决方案。此外,作者对预测结果进行了可视化,以直观反映不同方法的检测性能,如图7 所示。可以看出,在浓烟和部分遮挡的情况下,当前最先进的 ICAFusion 方法无法准确识别“人”类别,而作者提出的 FreDFT 方法则能够成功识别该目标。此外,在复杂的交通场景中,作者的 FreDFT 能生成精确的预测边界框,而 CFT 和 ICAFusion 在检测区域中遗漏了“人”类别,这些遗漏区域在图7 中用红色三角形 Token 。同时,图8 展示了 FreDFT 在不同环境下的准确预测能力,包括低光照、雨天和雾天等场景。
D. 复杂度分析
为了全面评估所提出的 FreDFT,作者在模型参数量和每秒浮点运算次数(FLOPs)方面进行了对比实验,结果如表4 所示。作者选取了多种前沿方法进行对比,包括 CFT [7]、ProbEn [23]、MMFN [26]、SeaDate [25]、CrossFormer [27]、ICAFusion [28]、
[37] 以及 MMI-Det [14]。可以看出,作者的 FreDFT 模型参数量低于 CFT、ProbEn、MMFN、SeaDate、CrossFormer 和 MMI-Det,但高于 ICAFusion 和
。尽管 FreDFT 的 FLOPs 高于其他对比模型,但其检测精度也优于其他检测方法。
表4 不同检测方法的模型复杂度对比,其中多模态图像分辨率调整为
。
表5 本文提出的 FREDFT 中 LFEM、CGMM 和 FDFAM 对模型性能的影响,其中使用 FLIR 数据集进行评估。LFEM、CGMM 和 FDFAM 分别代表局部特征增强模块(Local Feature Enhancement Module)、跨模态全局建模模块(Cross-Modality Global Modeling Module)和频域特征聚合模块(Frequency Domain Feature Aggregation Module)。
表6 不同交叉注意力机制在FLIR数据集上的检测性能对比,其中MSDA和MFDA分别表示多模态空间域注意力和多模态频率域注意力。
表7 两种 FFN 在
数据集上的性能对比,其中 MLP 为多层感知机(Multilayer Perceptron),FDFFL 表示作者提出的频域前馈层(Frequency Domain Feed-Forward Layer)。
E. 消融实验
为了更全面地评估所提出 FreDFT 中各模块的有效性,作者在表5 中进行了消融实验,以分析所设计的局部特征增强模块(Local Feature Enhancement Module, LFEM)、跨模态全局建模模块(Cross-Modal Global Modeling Module, CGMM)以及频域特征聚合模块(Frequency Domain Feature Aggregation Module, FDFAM)对检测性能的影响。遵循 CFT [7]、SeaDate [25] 和 MMFN [26] 的方法,作者采用双主干网络提取的 RGB 与红外(IR)特征进行简单加法融合作为 Baseline 模型,用于测试不包含任何所设计模块时的检测性能,结果如表5 第二行所示。随后,作者引入所提出的 FDFAM 对多模态特征进行融合以生成检测结果,并在此基础上逐步添加 LFEM 与 CGMM,再进行跨模态特征融合,从而获得最终的预测结果。
Image
从表5 可以看出,包含 LFEM、CGMM 和 FDFAM 的所提 FreDFT 方法取得了最优的检测精度,表明这三个模块对于提升检测性能至关重要且不可或缺。此外,作者还针对 CGMM 模块缓解模态间差异的能力进行了可视化对比实验,如图9 所示。具体而言,从图9 中的红色框区域可以清晰地观察到,CGMM 能够有效缓解模态之间的信息不平衡问题,这证明了 CGMM 通过在空间和通道维度上进行跨模态信息交互,能够有效消除模态间的冲突。
此外,作者分析了不同交叉注意力机制(cross-attention)和 FFN (feed-forward networks)对模型检测性能的影响。在表6中,作者对比了多模态空间域注意力(Multimodal Spatial Domain Attention, MSDA)与作者提出的多模态频域注意力(Multimodal Frequency Domain Attention, MFDA)的mAP值。可以看出,MFDA在mAP50和mAP指标上均优于MSDA,这表明所提出的MFDA能够实现更高质量的检测结果和更精确的定位能力。此外,在MSDA中,多模态间的相关性通过矩阵乘法操作获取,其计算复杂度显著高于MFDA中的逐元素乘法操作(此处忽略域变换和softmax操作的计算开销)。同时,相较于FLIR数据集,
数据集包含更多类别且尺寸差异更大,能够更全面地评估所提出的频域前馈层(Frequency Domain Feed-Forward Layer, FDFFL)与标准多层感知机(Multilayer Perceptron, MLP)的性能。因此,作者在
数据集上进行了对比实验,结果如表7所示。可以看出,FDFFL在mAP50和mAP指标上均优于原始的MLP,进一步验证了FDFFL的优势。
5.讨论
Image
为了直观展示作者提出的 FreDFT 的局限性,作者在图10 中进行了与真实标签(Ground Truth, GT)的对比实验,其中检测失败或错误的结果用红色三角形 Token 。在第一组 RGB-IR 图像中,由于一名被遮挡的坐姿行人的行为与大多数路边行走的人不同,导致特征差异,从而造成漏检。此外,该行人被严重遮挡且属于小目标。第二组图像在低光照环境下拍摄,作者的 FreDFT 对一个小目标生成了错误的预测框。在 RGB 图像中,该错误检测框区域模糊不清,但在 IR 图像中却呈现为明亮区域,导致 FreDFT 误将该区域识别为人体。
这些挑战导致了作者 FreDFT 的检测失败。
为解决上述问题,应引入遮挡模拟以提升基于局部特征的目标检测性能,并收集更多行人数据,包括非直立姿态(如坐姿和蹲姿)的数据。此外,应考虑采用更先进的Backbone网络和检测Head以进一步提升检测效果。
6.结论
在本工作中,作者设计了一种用于可见光-红外目标检测的新型FreDFT架构,该架构包含局部特征增强模块(Local Feature Enhancement Module, LFEM)、跨模态全局建模模块(Cross-Modal Global Modeling Module, CGMM)以及频域特征聚合模块(Frequency Domain Feature Aggregate Module, FDFAM)。
首先,作者设计了一种新型LFEM,以提升模态间的局部信息表征能力,该模块采用不同类型的卷积层聚焦于不同的局部区域,并引入通道混合策略,在通道层面增强特征重组能力。随后,作者提出了一种新颖的CGMM,用于消除跨模态特征冲突,为多模态融合提供有利条件,该模块通过全局池化获取全局上下文信息,并基于像素级跨模态空间-通道交互构建模态间的潜在关联。
此外,作者提出了一种高效的FDFAM,主要由多模态频域注意力(Multimodal Frequency Domain Attention, MFDA)和频域前馈层(Frequency Domain Feed-Forward Layer, FDFFL)构成,旨在捕捉跨模态信息之间的像素级相关性,实现高质量的跨模态特征融合。受卷积定理的启发,作者采用MFDA替代多模态空间域注意力,以更有效地捕捉跨模态互补特征;
同时,设计了基于混合尺度频域特征融合策略的FDFFL,进一步促进跨模态特征融合。大量实验结果表明,与现有最先进方法相比,所提出的FreDFT能够生成优异的检测性能。
点击上方卡片,关注「AI视界引擎」公众号
