YOLOv11-RGBT 革新多光谱检测 | P3中融合+MCF策略实现FLIR数据集47.61% mAP

大模型机器学习数据库

点击下方卡片,关注「集智书童」公众号

精简阅读版本

本文主要解决了什么问题

缺乏统一的单阶段多光谱目标检测框架 :现有方法多为特定模型或场景设计,泛化能力有限。

模态权重分配不合理 :大多数方法将可见光(RGB)与红外(IR)模态视为同等重要,未考虑不同数据集中主导模态的差异性。

融合策略与性能之间的平衡问题 :如何在不同层级进行特征融合以提升检测精度,同时控制模型复杂度和计算成本。

本文的核心创新是什么

提出YOLOv11-RGBT统一框架

  • • 支持多种任务(目标检测、图像分类、实例分割、关键点检测);
  • • 可适配YOLOv3至YOLOv12及RT-DETR等多种主流模型架构。

重新评估中融合策略并提出P3中融合机制

  • • 提出仅在Backbone输出的P3层进行一次融合,减少冗余信息和参数量;
  • • 实验证明该策略在多个数据集上优于传统多节点中融合方法。

提出多光谱可控微调(MCF)策略

  • • 借鉴ControlNet思想,冻结主模态(如红外)预训练权重,通过可训练卷积层引入辅助模态(如可见光);
  • • 实现稳定微调,提升模型鲁棒性和适应性。

设计六种多光谱融合模式

  • • 包括早期融合、中融合、中后融合、后期融合、评分融合和权重共享模式;
  • • 适用于多种网络结构,增强多光谱任务的灵活性。

迁移学习优化策略

  • • 针对COCO预训练权重迁移时出现的模态不平衡问题,提出通道调整与结构匹配策略。

结果相较于以前的方法有哪些提升

在FLIR数据集上的mAP提升显著

  • • 使用MCF策略的YOLOv11模型mAP提升了3.41%~5.65%,最高达到47.61%;
  • • 明显优于CFT等已有融合方法(CFT mAP为40.0%,本文达47.61%)。

在LLVIP和M3FD数据集上表现优异

  • • 在LLVIP数据集上,YOLOv11x-RGBT-MCF模型AP50达到97.06%,AP达到70.26%,超过纯红外模型;
  • • 在M3FD数据集上,YOLOv11s-Midfusion-P3在RGB+IR模式下AP达到62.20%,优于传统Midfusion和MCF方法。

模型效率与泛化能力增强

  • • P3中融合策略减少了融合节点,降低了参数量和推理时间;
  • • 多光谱融合模式可在YOLO系列和RT-DETR等多种模型中复用,展现出良好泛化能力。

可视化结果展示融合优势

  • • 特征图可视化表明,融合后的模型能更准确地识别低光照、烟雾等复杂环境中的目标。

局限性总结

模态主导问题仍需手动判断

  • • MCF策略依赖于预先确定主导模态(如红外或可见光),缺乏自动识别机制。

部分模块改进效果有限且不稳定

  • • 如多光谱PGI和轻量级交叉注意力机制在某些数据集上仅带来约0.5%的mAP提升,且不具普适性。

实验设置存在一致性限制

  • • 批处理大小、优化器选择等因素在不同数据集间未完全统一,可能影响结果对比。

未充分探索其他模态或任务扩展

  • • 当前研究聚焦于RGB+IR双模态,未拓展到更多波段或多任务(如语义分割、深度估计)。

资源限制导致部分模型未开放预训练权重

  • • 除YOLOv11外,其他模型的迁移训练和MCF策略尚未提供完整开源支持。
深入阅读版本

导读

多光谱目标检测,通过整合多个波段的信息,能够提升检测精度和环境适应性,在多个领域具有巨大的应用潜力。尽管现有方法在跨模态交互、低光照条件和模型轻量化方面取得了进展,但仍存在一些挑战,如缺乏统一的单阶段框架、难以平衡性能与融合策略,以及模态权重分配不合理等问题。为解决这些问题,基于YOLOv11框架,作者提出了YOLOv11-RGBT,这是一个新的综合多模态目标检测框架。作者设计了六种多光谱融合模式,并成功将其应用于YOLOv3至YOLOv12以及RT-DETR模型。在重新评估两种模态的重要性后,作者提出了P3中融合策略和多光谱可控微调(MCF)策略,用于多光谱模型。这些改进优化了特征融合,减少了冗余和不匹配,并提升了整体模型性能。实验表明,作者的框架在三个主要开源多光谱目标检测数据集(如LLVIP和FLIR)上表现优异。特别是多光谱可控微调策略显著增强了模型的适应性和鲁棒性。在FLIR数据集上,它持续提升了YOLOv11模型的mAP,提高了3.41%至5.65%,最高达到47.61%,验证了框架和策略的有效性。

代码:https://github.com/wandahangFY/YOLOv11-RGBT

1 引言

目标检测是计算机视觉领域的一项关键任务,旨在识别和定位图像或视频中的特定物体[1]。深度学习,尤其是基于卷积神经网络的方法,极大地推动了该领域的发展。然而,依赖RGB图像的传统可见光检测算法在低光照、恶劣天气或伪装目标等复杂条件下表现不佳[2]。它们也无法捕捉多维度的物体特征,从而限制了检测的鲁棒性和准确性[3, 4]。

多光谱成像技术,捕捉可见光之外电磁光谱(例如红外线、近红外线、短波红外线),提供了一种解决方案[5]。它提供了更丰富的物体特征,如热辐射、植被健康和伪装穿透能力。这些额外的光谱细节增强了检测性能,特别是在复杂环境中,推动了利用这些图像开发多光谱目标检测算法的发展,以提升准确性和鲁棒性。

早期多光谱目标检测方法分析:
早期研究直接将传统RGB模型(如YOLO系列 [6-17]、SSD [18,19]、R-CNN系列 [20-23])应用于多光谱图像,但存在明显局限性:

    1. 跨模态信息利用不足:传统模型未有效挖掘不同光谱模态(如可见光、红外)间的互补性,导致特征冗余与信息浪费。例如,RGB与红外图像间存在显著冗余,却难以通过单一模态特征实现精准检测;
    1. 性能瓶颈:因未设计针对性的跨模态融合机制,模型在复杂场景下(如低光照、遮挡)的检测精度与鲁棒性显著下降;
    1. 范式演进:该局限性推动了多光谱特征融合方法的研究转向,后续工作开始聚焦于设计跨模态注意力机制、频域信息交互模块等专用架构以提升检测性能。

这一阶段的研究表明,直接迁移RGB模型至多光谱任务需克服模态异构性挑战,而特征融合策略成为突破性能瓶颈的关键路径。

多光谱目标检测特征融合策略根据其处理阶段分为早期、中级和后期决策级融合[20]。早期融合在数据收集或初始特征提取过程中整合多光谱信息,以丰富输入特征。中级融合发生在 Backbone 特征提取过程中,通过跨模态特征交互增强网络表达能力。后期决策级融合在最终检测阶段结合不同模态的检测结果,以提升整体性能。这些融合方法标志着从简单的多模态堆叠向更高效的特征集成和信息互补的转变,为改进多光谱目标检测奠定了基础。

早期融合技术包括传统的图像融合方法[24],如基于梯度的区域加权(GRW)和梯度场融合(GFF),以及先进的基于深度学习的方法。例如,MDCNN[25]在多尺度特征提取和融合中提高了图像质量,CrossFuse[26]通过Top-

视觉对齐和自监督学习增强了数据鲁棒性和泛化能力,而DIVFusion[27]则采用SIDNet和TCEFNet以无监督方式优化红外和可见光图像融合。尽管这些基于深度学习的图像融合技术表现出色,但它们通常计算复杂、耗时,且缺乏嵌入式能力,更适合离线训练。在多光谱目标检测实践中,存在一种向中级融合策略发展的趋势。使用Faster R-CNN作为 Baseline 的研究[28, 29]揭示了可见光和红外光在行人检测任务中的显著互补性。研究行人设计了多种融合方法,其中Halfway Fusion因其通过在特征提取的中间阶段进行融合有效提高了检测性能而脱颖而出,并在后续研究中得到应用。

然而,由于两阶段模型的运行速度慢和部署成本高,后续研究更多地转向改进YOLO模型。这些改进模型通过优化架构和融合策略,进一步提高了多光谱目标检测的效率和性能。早期的中级特征融合方法[30]主要采用特征拼接或加法,但这些方法存在特征错位和融合性能差的问题。为解决这些问题,研究行人引入了各种交叉注意力机制。例如,跨模态融合Transformer(CFT)[31]首次将Transformer应用于多光谱目标检测,通过在 Backbone 网络的每一层融合可见光和红外特征,提高了YOLOv5和YOLOv3的多光谱目标检测性能。然而,CFT中庞大的参数数量限制了其在实际应用中的效率。为降低模型复杂度,研究行人开始探索更轻量级的融合方法[30, 32]。例如,ICAFusion[33]提出了一种双交叉注意力特征融合方法,通过迭代交互机制和跨模态特征增强模块,在更少参数的情况下保持了高检测性能。

后续研究深入探讨了多光谱目标检测的多方面问题,包括多光谱多尺度特征融合[34]、模态不平衡[35]以及低光适应[36, 37, 27]。通过整合Transformer的自注意力机制或传统的空间注意力机制如CBAM[38]和MLCA[39],研究行人有效地从可见光和红外图像中获取互补信息。这带来了在FLIR[40]、M3FD[4]和VEDAI[41]等数据集上的卓越性能,以及在复杂条件下的鲁棒性。然而,在中层融合研究[31, 42, 36, 35, 43]中,模态通常被视为同等重要,这存在局限性。实际上,在多光谱检测任务中,一种模态通常具有优势。例如,在VEDAI数据集中,可见光优于红外,而在LLVIP[44]和KAIST[45]等数据集中,红外更适合行人检测。这突出了在特定场景中对模态进行差异化处理和融合策略优化的必要性。

尽管在多光谱目标检测领域取得了显著进展,特别是在跨模态交互、低光照条件和模型轻量化方面,仍然存在一些挑战:

    1. 缺乏统一框架:当前方法大多是针对特定模型或特定场景的,缺少一个通用的单阶段多光谱检测框架。这限制了算法在不同应用中的泛化能力和可扩展性。
    1. 不合理的模态权重分配:大多数网络将模态视为同等重要。然而,在实践中,一种模态往往超过其他模态。均匀特征融合可能会降低模型性能,甚至低于单模态检测水平。
    1. 平衡模型性能与融合策略:在不同阶段选择最优融合策略仍然具有挑战性。现有方法往往无法有效平衡模型性能与融合,从而影响检测的准确性和效率。

为应对这些挑战,本文提出了基于YOLOv11的多模态检测框架YOLOv11-RGBT。该框架旨在平衡检测精度、速度和模型参数,同时最大化特征利用。主要贡献如下:

    1. YOLOv11-RGBT:一个统一的多光谱检测框架,YOLOv11-RGBT支持检测、图像分类、实例分割和关键点检测等多种任务。
    1. 重新思考多光谱特征中融合策略:实验表明,中层级融合适合单阶段检测。所提出的P3中层级融合策略通过一次在正确位置融合而非多次融合,以更少的参数实现了更好的结果。
    1. 多光谱可控微调(MCF):一种受ControlNet启发的多光谱模型可控微调策略。该策略冻结预训练的单模态权重,通过微调引入其他模态以增强检测稳定性。
    1. 六种多光谱融合模式:六种设计的单阶段多光谱融合模式应用于多个模型,包括YOLOv3-YOLOv12、PP-YOLOE和RT-DETR,使多光谱任务能够在各种单阶段网络中实现。

2 相关工作

2.1 多光谱检测的通用目标检测算法

多光谱目标检测中的模型演进:

目标检测模型在多光谱任务中发挥着核心作用,能够实现对多光谱图像中目标的自动化识别与定位。近年来,基于卷积神经网络(CNN)的深度学习方法通过专用网络结构与损失函数的设计,显著提升了检测效率与精度。这些模型主要分为两类:

    1. 单阶段模型(如YOLO系列 [6-17]、SSD [18,19]、RetinaNet [46]):以检测速度见长,适用于实时性要求高的场景;
    1. 两阶段模型(如Faster R-CNN [22]、Cascade R-CNN [23]):以高精度检测为核心优势,适用于需要精准目标定位的场景。

在多光谱目标检测中,上述模型可通过增强设计实现可见光与红外多光谱信息的深度融合(例如跨模态特征金字塔、频域交互模块等),从而显著提升复杂环境下的检测性能——尤其在低光、低能见度等退化条件下展现出更强的鲁棒性。这一特性使多光谱检测技术在自动驾驶、安防监控等领域具备更高的实用价值。

多光谱目标检测模型的发展通常涉及多个步骤: 数据准备、模型选择、训练、评估和微调。一旦训练完成,这些模型被部署到实际系统中以实现自动化的多光谱目标检测。随着技术的进步,越来越多的研究聚焦于通过迁移学习和模型融合等方法提升检测性能。例如,引入注意力机制和多光谱特征融合模块可以显著增强模型在处理多光谱数据时的适应性和检测精度。这些进展表明,基于深度学习的目标检测模型在多光谱检测领域具有广阔的应用前景,为复杂环境中的任务自动化提供了新的可能性。

2.2 多光谱数据集

多光谱数据集对于多光谱目标检测、图像融合和语义分割的研究至关重要。随着多光谱成像技术的不断发展,一些经典的多光谱数据集已成为评估多光谱算法性能的关键工具。例如,KAIST [45] 和 FLIR [40] 数据集常被用作多光谱目标检测领域的基准数据集,它们在多种光照条件和复杂场景下提供了丰富的可见光与红外图像配对数据。LLVIP [44] 数据集则专注于低光照条件下的可见光-红外图像配对,成为低光视觉研究的重要资源。此外,M3FD [29] 和 VEDAI [41] 数据集也在多光谱目标检测研究中被广泛使用,其多样化的图像数据和详细的标注信息推动了相关技术的持续进步。本文实验中所使用的部分数据集也来源于上述开源工作。

在语义分割和图像融合领域,FMB 数据集[3]、SUNRGBD 数据集 [47] 以及 DynamicEarthNet [48] 数据集分别提供了面向室外、室内和卫星场景的多模态数据,支持像素级语义分割和图像融合任务。这些数据集的多样性与复杂性为多光谱目标检测、图像融合和语义分割的研究提供了丰富的资源,推动了多光谱技术在不同领域的广泛应用。

近年来,多光谱数据集的规模和多样性不断扩展,显著推动了多光谱目标检测技术的发展。例如,DAMSDet [49] 方法引入了一种动态自适应多光谱检测 Transformer ,通过模态竞争 Query 选择策略和多光谱可变形交叉注意力模块来提升多光谱目标检测性能。这些研究成果表明,多光谱数据集不仅为多光谱目标检测提供了丰富的多模态数据资源,还促进了相关技术在复杂环境中的应用与发展。本文聚焦于多光谱目标检测任务,旨在通过整合多光谱数据集中的可见光和红外图像信息,提高检测的鲁棒性和准确性。

2.3 多光谱特征融合

多光谱特征融合是多光谱目标检测的关键组成部分,通过整合不同光谱传感器的数据来增强图像信息。基于深度学习的融合方法,特别是那些结合了注意力机制和迭代学习策略的方法,显著提高了融合效率和鲁棒性。如图1下方所示,这些方法包括早期融合[50, 51, 52]、中级融合[31, 53]、中后级融合[54]、后期融合[42]和评分融合[42],每种方法都有其独特的优势和适用场景。早期融合在原始数据 Level 整合数据,从一开始就捕捉不同模态之间的互补信息。中级融合在特征提取后进行,增强特征表示。中后级融合结合了中级和后期融合的特点,首先融合特征,然后进行目标检测,从而提高检测精度和鲁棒性。后期融合和评分融合是另外两种有效的融合策略。后期融合在每个模态独立完成目标检测特征提取后整合检测特征。这允许跨模态独立评估检测性能,并通过特定策略组合结果以提升整体检测性能。评分融合在检测过程中关注每个模态的检测分数,通过加权平均、最大选择等方式整合这些分数,以产生最终结果。随着深度学习技术的发展,这些融合方法在多光谱图像融合中显示出巨大潜力,特别是在处理复杂场景和提高检测精度方面。本文提出的框架涵盖了这五种融合模式,并将它们与迭代交叉注意力引导特征融合相结合,以提升模型性能,提高多光谱特征融合和检测效能。具体细节在第三节中描述。

3 方法论

3.1 YOLOv11-RGBT总体框架

本文介绍YOLOv11-RGBT,这是一个基于YOLOv11[16]的多光谱图像任务集成框架。如图1所示,它处理包含RGB和热(红外)数据的多光谱图像,专注于提升各种多光谱计算机视觉任务,尤其是多光谱目标检测。

模型架构与任务执行: YOLOv11-RGBT的核心优势在于其灵活高效的架构,支持YOLOv11的RGBT任务以及其他模型如YOLOv3-YOLOv12 [6, 7, 8, 9, 10, 11, 12, 14, 15, 13, 16, 17]、RT-DETR [55]和PP-YOLOE [56]进行多光谱检测。该框架包含三个主要组件:用于特征提取的 Backbone 网络、用于特征处理与融合的 Neck 网络以及用于任务执行的 Head 网络。这种模块化设计确保了其在不同应用中的适应性,同时保持了高性能。

数据处理与增强: 数据预处理和增强对于YOLOv11-RGBT的性能至关重要。在预处理过程中,多光谱图像被标准化和归一化以满足模型的输入要求。旋转、缩放和裁剪等数据增强技术增强了数据的多样性,提高了模型的泛化能力和适应性。这一过程为从多光谱数据中提取高质量特征奠定了坚实的基础。

多光谱特征融合模式 :YOLOv11-RGBT 支持五种融合模式,包括早期融合、中级融合、中后级融合、晚期融合和得分融合,同时还支持权重共享模式。这些创新性的 RGB 与热红外数据组合方式,在多光谱环境中显著提升了模型的性能。通过增强对多光谱数据的理解能力,并在复杂场景下提高检测精度,YOLOv11-RGBT 有效地利用了多光谱数据,为多光谱图像任务(尤其是目标检测)提供了强有力的工具,并在这些任务中表现出色。

picture.image

图片

图1:YOLOv11-RGBT的整体架构

3.2 多光谱特征中融合策略的比较

一些研究表明,早期融合在多光谱图像融合任务中更为有效[57, 58],而中级融合策略在多光谱目标检测中得到了广泛应用[31, 42, 36, 35, 43]。作者的实验也证实了中级融合在大多数情况下具有优势。因此,本文主要关注中级融合策略。

作者论文中的图展示了三种不同的中层融合策略,分别对应不同的单阶段多光谱目标检测方法。首先,图2(a)描绘了传统的中层融合方法。在此方法中,可见光和红外图像通过独立的 Backbone 网络进行特征提取。生成的特征图在 Neck 组件中使用Concat或Add等方法进行融合,然后传递给 Head 组件以输出检测结果。融合通常发生在P3到P5阶段[31, 42, 36],有些情况下涉及所有 Backbone 网络阶段的融合[35, 43](包括虚线部分)。尽管这种方法利用了多个层次的特征,但它可能会引入干扰信息并导致性能下降。此外,多光谱特征融合与多模态特征融合不同。许多多光谱目标检测数据集具有对齐的特征,而多层融合可能导致冗余。

图2 (b) 展示了作者提出的P3中层级融合策略。融合发生在特定的P3层,因为早期的融合可能无法进行充分的特征提取。在 Backbone 网络提取可见光和红外图像的特征图后,这些特征图被传递到 Neck 。在P3层,两种模态的特征图被连接起来,并由一个可训练模块进行处理。这种方法有效地利用了P3层的特征,提高了检测精度和性能,同时减少了模型参数和计算量。

P3 融合通过减少特征融合节点来实现模型轻量化,但其效果在所有场景下并非普遍有效。为解决这一问题,我们提出了如图 2(c)所示的多光谱可控微调(MCF)策略,该策略灵感来源于 ControlNet [59]。首先,使用红外图像训练一个性能优异的检测模型,并将其冻结以保留预训练的特征表示。然后,通过一个 Zero Conv2d 层将可见光图像的特征图与红外图像的特征图进行融合,该层是一种初始权重为零的可训练二维卷积层。这种设计允许对来自不同模态的特征进行可控的微调,从而在利用预训练模型知识的同时稳定地提升模型性能。

如果在某些数据集上(如 VEDAI 数据集)纯可见光模型的表现优于红外图像,则可以冻结可见光模型进行微调。在我们的实验中,除了 VEDAI 和 M3FD 数据集外,我们在四个数据集上均采用了基于红外图像预训练模型的多光谱可控微调方法。此外,虽然本方法主要引入了光谱图像的信息,但它也可以扩展用于融合文本、点云或深度数据,以支持多模态目标检测。然而,本文的研究重点是多光谱目标检测,其他应用方式建议读者自行探索。

picture.image

图片

图2:单阶段模型的多光谱中间融合方法的比较。

3.3 多光谱可控微调(MCF)策略

图3展示了多光谱可控微调(MCF)策略的整体网络架构。作者以YOLOv11为例将其嵌入其中,命名为YOLOv11-RGBT-MCF,该架构包含两部分:冻结组件和多光谱可控微调(MCF)组件。冻结组件基于在COCO [60]数据集上预训练的YOLOv11基础模型,并分为三个部分: Backbone 网络、 Neck 和 Head 。 Backbone 网络负责提取图像特征,由多个卷积层(Conv)和C3K2模块组成。这些模块从浅层到深层提取图像特征。 Neck 组件,包括特征融合、上采样和SPPF模块,整合不同尺度的特征信息,以生成更全面的特征表示。 Head 组件由多个DC Head模块组成,每个模块对应不同尺度的检测输出,实现多尺度目标检测。这些模块的详细设计显示在右上角。Conv模块由一个二维卷积层、一个BN(批归一化)层和一个Silu激活函数组成。C3K2模块由一个二维卷积层和一个 Bottleneck 层组成。这些设计使网络在训练过程中通过多分支学习学习更多特征,从而提高检测性能。

MCF策略通过使用可见光图像特征对基础模型进行微调来增强其性能。这通过一个Zero Conv2d层实现,该层是一个具有初始零权重的可训练二维卷积层。Zero Conv2d层允许对可见光特征与冻结模型中的红外特征进行可控融合,从而实现单模态模型的定向微调。与ControlNet不同,ControlNet通常在Neck和Head等后期阶段融合特征,作者的MCF策略专注于中层级融合。这种方法更适合多光谱目标检测模型,并允许更有效的信息集成。

picture.image

图片

Figure 3: The overall architecture of the YOLOv11-RGBT-MCF.

3.4 YOLOv11-RGBT中的多光谱迁移训练原理

在进行YOLOv11-RGBT的迁移训练时,核心原则是将COCO [60]数据集的预训练模型权重加载到多光谱模型架构中。如果多光谱模型结构与预训练模型相同,则可以直接复制相应的权重,确保参数的无缝迁移。然而,当遇到结构差异时,作者采用多种有效策略来确保模型兼容性和性能。具体细节可在仓库代码中找到。

例如,在通道不一致的情况下,可以应用通道平均或复制来达到统一,为后续训练奠定基础。此外,插入

卷积层可以调整通道一致性,使模型能够更好地处理多光谱数据,整合不同光谱的信息,从而增强目标检测能力。以Midfusion为例,其迁移训练过程涉及将YOLOv11 Backbone 网络复制到可见光和红外图像的独立 Backbone 网络中。然后可以直接复制 Neck 和 Head 组件,快速完成迁移训练,并提高在不同场景下的检测性能和泛化能力。

3.5 损失函数

YOLOv11-RGBT的损失函数与YOLOv11相同,分为三个部分:分布Focal Loss

,目标分类损失

,以及目标定位损失

。损失函数的公式如下:

包含三个部分,

是一个超参数,表示每个部分的权重。这些权重可以根据实际情况在训练前进行调整。在本文中,这三个部分的权重分别为 1.0、0.5 和 0.05。

分类损失

使用二元交叉熵(BCE)损失,表示为:

在此处,

可以根据图像大小取三个值(例如,对于图像大小为

的情况,它们分别是

),表示在三个不同尺度的特征图上的网格数量。输出由 YOLOv11-RGBT 的

表示第

先验框在第

网格中是否预测到目标(1表示是,0表示否)。c 表示目标类别,

分别表示目标在真实值和预测中属于某一类别的概率。

目标定位损失采用CIOU损失,并包含三个几何参数:重叠面积、中心点距离和长宽比。这些参数对于优化预测框以更好地与真实框对齐,从而提高回归精度至关重要。损失函数的公式如下:

其中,

表示预测框与真实框中心点的欧几里得距离,c 是包含预测框和真实框的最小闭合边界框的对角线距离,

是真实框的宽度和高度,而 w, h 是预测框的宽度和高度。

is the Distribution Focal Loss (DFL) aimed at quickly focusing the network on values near the annotated positions and maximizing their probabilities. The expression is:

此处,

符合公式4,

表示四个预测的坐标值。DFL以概率方式回归预测框,需要预先设置超参数reg_max,默认reg_max为16。此时,该网络分支的输出通道为

reg_max。在此之前,设置了16个固定的参考值A: [0, 1, 2, ..., 15],对应于reg_max的每个位置。对于这些reg_max数值,使用softmax函数进行离散化,将其视为一个16类分类问题。使用交叉熵损失计算损失,如公式所示:

从特征图中获得的目标位置坐标通常不会落在具体的网格角点上,但标签需要是整数。以预测值

为例,其真实值为

,其中左侧的整数为

,右侧的整数为

分别对应真实值到这两个整数的距离权重,

则分别表示对应于

的预测值。

4 Experiments

本研究的实验平台、数据集及详细信息在4.1至4.3节中呈现,更多细节可在代码中找到。4.4和4.5节旨在展示中期多光谱融合在某些情况下有时会降低模型的检测性能,同时展示所提出的MCF方法的有效性和可行性。4.6节专注于证明该框架在典型多光谱检测任务中的有效性和可行性,以及多光谱迁移学习的实用性。

4.1 实验平台及相关指标

表 e1 展示了实验平台。网络性能的评估主要依赖于训练过程中的 mAP(平均精度均值)以及训练完成后网络在验证集上的表现。为了量化检测结果,采用精确率(P)、召回率(R)和 mAP [57] 作为性能评估指标。以下是 P 和 R 的计算公式:

picture.image

图片

表1: 实验平台

真正例(TP):分类器正确识别为正样本的正样本数量。真负例(TN):真正负样本的数量,这些样本被分类器正确分为负样本。假正例(FP):真正负样本的数量,但这些样本被分类器错误分类为正样本。假负例(FN):正样本的数量,这些样本被分类器错误分类为负样本。

平均精度(AP)是由 P-R 曲线所围成区域的面积。通常情况下,AP 值越高,分类器性能越好。mAP 是对检测目标平均精度的综合衡量指标。mAP 用于计算每个类别 AP 值的平均值。以下是 AP 和 mAP 的数学表达式:

4.2 实验数据集

picture.image

图片

图4:每个数据集中物体数量的分布。横轴是类别名称,纵轴是每个类别的计数。(a) FLIR;(b) M3FD;(c) VEDAI。

作者使用了五个开源的多光谱目标检测数据集来验证作者的检测系统和算法在复杂场景中的有效性、可行性和泛化能力。这些数据集中的所有图像在被输入网络之前均被调整为

。这些数据集可以从它们的官方网站下载,或通过GitHub介绍文档中的链接获取。以下是每个数据集的简要介绍:

FLIR [40]: 使用红外热成像摄像机捕获的该数据集主要标注了三类:行人、汽车和自行车。图像大小为

像素,已预先注册,包含4,124个训练对和1,013个测试对。它通常用于目标检测,特别是在夜间和低光照等复杂场景中。类别分布如图4(a)所示。

M3FD [4]: 使用双光学相机和红外传感器收集,包含4200对图像和标注六个类别,包括行人、汽车和卡车。广泛应用于图像融合和目标检测任务,其中3360张图像被选为训练集,840张图像被选为验证集。其类别分布如图4(b)所示。

KAIST [45]: 原始的KAIST数据集是通过可见光和长波红外(LWIR)传感器采集的。本研究采用由Li重新调整的版本,该版本仅标注行人目标。主要用于行人检测任务,它包含8,956个训练对和2,252个验证对,适合用于多光谱行人检测研究。

LLVIP [44]: 使用可见光和红外相机采集,包含15,488对图像,并标注行人类别。图像大小为

像素,预先配准并分为12,025对训练图像和3,463对测试图像。主要用于低光视觉任务,如图像融合和目标检测。

VEDAI [41]: 通过航空可见光和红外相机捕获,包含约1050对图像,尺寸约为640×640像素。未经预注册且没有官方固定分割,按8:2的比例分为训练集和测试集。主要用于目标检测任务,其类别分布如图4(c)所示。

4.3 实现细节

本文的实验是在两个开源框架上进行的: 作者的YOLOv11-RGBT和MMDetection。作者选择了多个模型,包括YOLOv3-YOLOv12和RT-DETR,进行对比实验。为了提高结果的可重复性,超参数几乎未作改动,并在模型训练过程中保持一致。在上述数据集上进行实验时,一般设置如下:批大小为16,模型输入分辨率为

。如果GPU内存不足,批大小会减少到8。对于MMDetection,训练涉及3次重复批处理和30个epoch,以ResNet50作为 Backbone 网络。其他框架中的模型训练了300个epoch。为了加快训练速度,在可能的情况下,工作线程设置为8。以下是简要的模型介绍:

YOLOv3 [8]: YOLOv3 是 YOLO 系列中的一种单阶段目标检测模型。通过引入多尺度特征图并采用更大的网络结构,YOLOv3 提高了小目标检测的准确性和检测能力。

YOLOv4 [9]: 在YOLOv3的基础上升级,采用CSPDarknet53 Backbone 网络、Mish激活函数和SPP模块,以提升速度和精度。

YOLOv5 [10]: YOLOv5是YOLO系列中的一个重要版本,具有轻量级网络结构和模型压缩技术。在保持高精度的同时,它显著提高了检测速度和模型效率,使其适用于移动设备和嵌入式系统。

YOLOv6 [11]: Developed by Meituan, focuses on industrial applications with efficient decoupled heads and reparame terization techniques.

YOLOv7 [12]: YOLOv7还采用了广泛的重新参数化技术,并引入了可训练的freebies方法,以在不增加推理成本的情况下显著提高实时检测精度。发布时,它在速度和精度方面都超越了所有已知的目标检测器。

YOLOv8 [13]: YOLOv8是一个基于YOLOv5的改进和优化的衍生模型,旨在进一步提升目标检测的性能和效率。这些改进涉及网络结构的调整、训练策略的优化、数据增强等方面,其中最显著的变化是转向了 Anchor-Free 点(Anchor-Free)范式。

YOLOv9 [14]: 整合了GELAN模块和深度监督,以在资源受限系统中实现更好的梯度流和收敛。

YOLOv10 [15]: 引入统一双重分配策略用于无NMS的训练,以及轻量级分类头以提高效率。

YOLOv11 [16]: 专注于计算效率,通过C3k2和C2PSA模块进行特征提取,在不损失准确性的情况下提升性能。

YOLOv12 [17]: 在YOLOv8的基础上进行优化,通过注意力机制实现更好的特征提取,但泛化能力略有下降。

RT-DETR [55]: 基于Transformer架构,移除了传统的NMS步骤,以降低计算复杂度并加快推理速度。

RetinaNet[46]: RetinaNet是一种单阶段目标检测模型,它通过使用特征金字塔网络和Focal Loss来解决目标检测中的类别不平衡问题。该模型实现了高效且准确的目标检测,尤其擅长处理小目标。

Faster R-CNN [22]: Faster R-CNN是一种两阶段目标检测模型,引入了区域 Proposal 网络(RPN)来生成候选区域,并使用共享特征提取网络进行分类和精确定位。它在准确性和速度之间取得了良好的平衡。

级联R-CNN [23]: 级联R-CNN是一种改进的两阶段目标检测模型,通过级联多个R-CNN模块来逐步过滤候选框,提高目标检测的准确性,尤其适用于小目标检测和复杂场景。

4.4 Comparative experiments on FLIR dataset

表2至表7展示了FLIR数据集中多个模型的对比结果。表2显示了仅使用可见光图像训练的模型的效果,而表3呈现了仅使用红外图像训练的模型的结果。两者共同对最新的YOLO模型在FLIR上的性能进行了全面评估。表4和表5展示了使用Midfusion和Midfusion-P3方法训练的模型的结果。值得注意的是,表2至表5中的所有模型均未使用预训练权重进行训练。逐行分析表明,表4和表5中的大多数多光谱训练模型在性能上优于表2中的仅使用可见光图像训练的模型,但只有少数超过了仅使用红外图像训练的模型。这表明红外图像在FLIR中占主导地位,因为在夜间或雾等恶劣条件下,可见光图像的效果不如红外热成像图像。例如,YOLOv11n-Midfusion比YOLOv11n红外模型将mAP提高了1.10%,而YOLOv3-Tiny的3节点融合模型与仅使用红外图像训练的模型相比,mAP 50:95提高了0.91%。这些结果证实了作者的多光谱模型的有效性以及YOLOv11-RGBT框架的优越性。

picture.image

图片

图6:多光谱可控微调(MCF)策略使用不同超参数的比较结果

进一步分析表明,虽然多光谱训练结果在表4和表5中通常优于表2中的可见光模型,但它们很少超过表3中的红外仅模型。以YOLOv11为例,只有YOLOv11n系列中的中融合结果超过了纯红外模型。这暗示了多光谱融合策略中可能存在模态权重不平衡的问题,中期融合多光谱模型可能导致模型检测性能的下降。为此,作者减少了融合节点以减少特征冗余,并进行了单节点融合实验,如表5所示。比较表4和表5,大多数仅P3节点融合模型优于三节点融合模型。例如,YOLOv11n-Midfusion-P3比YOLOv11n-Midfusion提升了

的mAP。这表明更多的融合节点并不总是意味着更好的性能。

表2: 使用可见光图像(RGB)在FLIR数据集上对目标检测模型进行的比较结果

picture.image

图片

表3: 使用红外图像(IR)在FLIR数据集上对目标检测模型进行的比较结果

picture.image

图片

表 e4: 在 FLIR 数据集上使用多光谱图像(RGB + IR)进行目标检测的模型对比结果。

picture.image

图片

表e 5: The comparison results of object detection models on the FLIR dataset using the multispectral image

表6: 在FLIR数据集上使用不同超参数进行微调的比较结果

picture.image

图片

表7: FLIR数据集上目标检测模型的比较结果,所有YOLOv11模型和作者的模型都使用了在COCO数据集上预训练的权重。表中部分模型的数据来自

picture.image

图片

当模态差异较小时,尤其是在特征提取之后,单节点融合能够实现高效的信息集成。此外,表5中的P3单节点融合模型与表4中的三节点融合模型表现出互补性。当多节点中融合无效时,单节点融合具有优势,其模型参数更少,计算需求更低,推理速度更快。

图5展示了在加载COCO预训练权重后多个YOLOv11模型的迁移学习结果。在大多数情况下,使用多光谱模型的迁移学习表现不如纯红外模型。理想的迁移学习应该显著提升深度学习模型性能,但在加载COCO预训练权重时并未实现这一点。这主要归因于两个因素:首先,两种模态的主干分支几乎具有相同的初始化权重,导致特征冗余;其次,COCO并非多光谱数据集,任务差异对迁移学习构成挑战,从而造成模型性能不佳。

为解决这些问题,作者设计了一种多光谱可控微调(MCF)策略。通过冻结红外主导分支并在不同超参数下进行微调,表6和图6的结果显示,Adam在YOLOv11n、YOLOv11l和YOLOv11x上表现优于SGD,而SGD在YOLOv11s和YOLOv11m上表现更佳。无论微调方法如何,结果都超越了直接使用预训练模型的表现,证明了MCF的有效性和可行性。

表7列出了不同方法的比较结果。作者的方法在AP方面实现了比2019年至2024年的模型更好的检测结果。此外,虽然CFT算法通过五种交互注意力机制将mAP从37.4%提升至40.0%,但作者的算法显著将mAP从41.96%提升至47.61%,在改进幅度和最终mAP值上均显示出明显的优势。

4.5 LLVIP数据集上的对比实验

表8对最新YOLO模型在LLVIP数据集上的性能进行了全面评估。结果表明,所有在多光谱数据上训练的YOLOv11模型性能均优于仅在可见光光谱上训练的模型,但仍然不如仅在红外图像上训练的模型。例如,在多光谱数据上训练的YOLOv11s模型达到了AP50为89.84%和AP为53.29%,这比仅在可见光模型上的AP50(89.84%)和AP(53.29%)要好,但仍然落后于仅在红外图像模型上的AP50(97.55%)和AP(67.58%)。这个问题在FLIR数据集上也有观察到,这表明在中期融合策略中可能存在潜在的模态权重不平衡问题。如表9所示,YOLOv11模型的迁移学习实验也揭示了相同的问题。为了解决这个问题,作者对LLVIP数据集应用了MCF训练。如表9和表10所示,MCF训练的YOLOv11模型,如YOLOv11x-RGBT-MCF模型,其AP50为97.06%和AP为70.26%,超过了仅在红外图像模型上的AP50(97.41%)和AP(69.93%)。这证明了MCF训练策略的有效性、可行性和泛化能力。

4.6 M3FD数据集上的比较实验

表11展示了在M3FD数据集上不同目标检测模型的比较。分析表明,多光谱和P3模型通常优于单模态模型。例如,在RGB+IR模式下,YOLOv11s的多光谱模型实现了AP50为84.1%和AP为57.98%,超过了纯红外YOLOv11s模型的AP50为82.78%和AP为56.93%,以及纯可见光YOLOv11s模型的AP50为84.67%和AP为58.51%。此外,在RGB+IR模式下,YOLOv11m-P3模型达到了AP50为87.97%和AP为62.79%,超过了标准多光谱模型的AP50为87.66%和AP为62.59%。这些结果证实了作者提出的多光谱目标检测框架和算法的有效性和可行性,这些框架和算法能够有效地整合多模态信息并提高检测精度。此外,实验结果表明,在M3FD数据集上使用中级融合训练多光谱目标检测模型并没有在FLIR数据集上出现的性能下降。这表明多光谱模型融合策略的有效性在很大程度上取决于特定数据集的特征。

表12展示了从COCO数据集加载预训练权重后的多YOLOv11模型的迁移学习结果。以YOLOv11s模型为例,多光谱模型的优势显著。在大多数情况下,多光谱模型的迁移学习性能优于纯红外和可见光模型。如表12所示,YOLOv11s-Midfusion在RGB+IR模式下,AP50和AP分别达到87.77%和61.65%。相比之下,纯红外模型YOLOv11s(IR模式)仅实现AP50为82.78%,AP为56.93%。同时,可见光模型YOLOv11s(RGB模式)的AP50为84.67,AP为58.51%。这表明模型在可见光条件下的性能也有显著提升,表明多光谱模型能更好地整合多模态信息,提升目标检测性能。

表8: LLVIP数据集上目标检测模型的比较结果。默认的

是中等融合。Faster RCNN、Cascade RCNN和RetinaNet属于早期融合类型,其余属于中期融合类型。

picture.image

图片

表e 9: LLVIP 数据集上目标检测模型的对比结果。所有 YOLOv11 模型及我们的模型均使用了在 COCO 数据集上预训练的权重。部分模型的数据来源于文献 [61]。

picture.image

图片

表e 10: LLVIP 数据集上不同超参数微调结果的对比。

picture.image

图片

表11: M3FD数据集上目标检测模型的比较结果。

picture.image

图片

表e 12: M3FD 数据集上目标检测模型的对比结果。所有 YOLOv11 模型及我们的模型均使用了在 COCO 数据集上预训练的权重。

picture.image

图片

表e 13: M3FD 数据集上不同超参数微调结果的对比。RGB 主分支。

表14: 在M3FD数据集上使用不同超参数进行微调的比较结果。IR主分支。

picture.image

图片

表15: M3FD数据集上融合策略的比较结果

picture.image

图片

总体而言,多光谱模型迁移学习的结果在大多数情况下表现更优。P3模型和传统Midfusion模型均优于主要使用红外图像进行训练的MCF模型。P3融合模型在参数、计算和检测结果方面具有优势。例如,在RGB+IR模式下,YOLOv11s-Midfusion-P3的AP50为87.66%,AP为62.20%,超过了YOLOv11s-RGBT-MCF的84.1%和57.98%。表12中的实验结果与表7中的结论有所不同,突出了两个关键点。首先,在迁移学习过程中,可见光模型有时可以优于红外模型。这可能是因为COCO数据集基于可见光,导致可见光模型的迁移学习效果更好,或者因为可见光通道本身具有优势。其次,多光谱迁移学习的结果可能超过MCF训练的结果。MCF训练的参数有限,只有部分辅助分支参数可训练,其余参数被冻结。因此,它可能不如多光谱迁移学习那样灵活,后者训练整个网络。因此,建议首先尝试迁移学习,如果结果不令人满意,再考虑MCF训练。

此外,表13表明Adam优化器并非总是最佳选择。在某些情况下,具有初始条件的SGD优化器也能获得良好结果。例如,使用SGD优化器的YOLOv11x-RGBT-MCF实现了超过64%的AP,而使用Adam优化器时,AP仅为63.87%。这强调了根据特定模型和任务选择正确的优化器和超参数的重要性。

作者还尝试了以红外作为主分支的MCF训练。如表14所示,使用非主光谱图像进行MCF训练仅能保证在特定光谱上的优越性,而非主光谱。例如,以红外为主分支的YOLOv11l-RGBT-MCF的AP为

,高于在红外图像上训练的YOLOv11l(

),但低于纯可见光训练的模型(

)。这表明多光谱图像具有关键通道,选择主分支前建议比较两种光谱的训练结果。

表 e15 展示了在 M3FD 数据集上不同融合策略的对比结果。对于 YOLOv11s 模型,中级融合 (mid-fusion)取得了最高的 AP50(

)和 AP(

),优于早期融合(AP50

,AP

)和晚期融合(AP50

,AP

)。这一结果与以往关于中层融合策略的研究结论一致 [31, 42, 36, 35, 43]。

然而,对于 YOLOv11m 模型,早期融合 表现更优,其 AP50 达到

、AP 为

,优于中级融合(AP50

,AP

)。此外,表格还显示,大多数最优检测结果来自于早期融合和中期融合策略。

这一观察促使我们提出了 P3-Midfusion 方法,因为在早期融合与中期融合之间可能存在一种更优的融合策略。因此,虽然中级融合通常是较好的选择,但最佳融合策略仍可能因具体的数据集和模型而异。研究人员和工程师应根据所使用的数据集和模型特性来选择合适的融合策略。

图7中的特征图可视化清晰地展示了多光谱特征融合的优势。所展示的特征图来自YOLOv11模型输出阶段2(P2),包括仅RGB、仅红外(IR)以及中期融合的RGB+IR特征图。从可视化结果可以看出,仅使用RGB或红外数据的模型在一定程度上能够检测物体,但它们的检测能力有限。例如,仅RGB模型可能无法识别低能见度或烟雾环境中的物体。仅红外模型可能会漏掉在红外光谱中不突出的物体,导致其检测性能比纯RGB模型更差,如表12所示。相比之下,结合RGB和红外数据的中期融合模型表现出更优的检测性能。其特征图不仅突出了行人轮廓,还准确显示了车辆和其他物体。这表明多光谱特征融合能够有效地整合不同光谱波段的优势,从而显著提高模型的检测准确性和可靠性。

picture.image

图片

图7:yolo v11模型阶段2(P2)的多光谱融合特征图可视化,展示了通过结合rgb和红外数据处理增强的目标检测能力。

4.7 定性测试

作者在两个多光谱数据集上对YOLOv11-RGBT-MCF算法进行了一些定性结果测试,如图8所示。如图所示,YOLOv11-RGBT-MCF模型在多光谱图像中检测物体的能力非常强,包括那些具有复杂背景、低物体辨识度、不均匀光照、烟雾、雨天、夜间以及低角度拍摄视角等情况。

5 讨论

上述表中的实验证明了模型在框架中的有效性、可行性和泛化能力。事实上,除了上述实验外,作者还设计了一种多光谱PGI[14]策略,并提出了一些轻量级的交叉注意力机制。将其集成到YOLOv11-RGBT框架中(见论文来源地址:https://github.com/wandahangFY/YOLOv11-RGBT)。多光谱PGI和交叉注意力机制可以在某些数据集上提高mAP 0.5%,但作者没有在主要试验中展示它,因为其改进有限,并且仅对某些数据集有效,这可能源于其对特定光谱特征的依赖。不同数据集中的光谱特征分布不同,这影响了PGI对梯度信息的利用效果。例如,PGI的梯度引导效果在光谱特征差异显著的数据集上更为显著。这表明在实际应用中,应根据具体数据特征谨慎选择是否使用这些模块。作者还发现,在某些数据集上,例如M3FD[4],当批处理大小为32时,YOLOv11-midfusion模型的检测结果优于16。例如,mAP提高了约0.6%,但考虑到所有超参数需要保持一致,除了模型x的批处理大小为8外,其余所有模型均设置为16。因此,理论上,某些权重仍有进一步改进的空间,有兴趣的研究者可以在未来尝试。

picture.image

图片

图8:YOLOv11-RGBT-MCF在M3FD和VEDAI数据集上的一些检测结果

此外,由于设备资源有限,本文仅对YOLOv11进行了预训练权重(来自COCO [60]数据集)迁移训练和多光谱可控微调测试,其他模型仅提供了实验结果,并未提供预训练权重。此外,为了确保模型的泛化能力,作者没有引入注意力机制[28, 29, 31, 30, 26]和低可见度模块[27, 36, 37]进行实验。鉴于这一点,建议未来研究应着重于提升模块的泛化能力,并探索适应多数据集和场景的自适应调整策略,以扩展模块的应用范围。

尽管存在一些局限性,YOLOv11-RGBT框架凭借其多光谱融合的优势,在安防监控、自动驾驶等领域具有广阔的应用前景。工程师可以根据具体场景需求灵活选择融合模式和策略。对于未来的研究,建议深入挖掘多光谱特征之间的内在关联,开发更高效的特征提取和融合方法。同时,探索轻量级的多光谱检测模型以降低硬件要求,从而推动多光谱目标检测技术在资源受限环境中的应用。作者已开源本文中提到的绝大部分工作,待论文发表后将开源权重和方法,以便研究行人和工程师进一步探索和改进。

6 总结

总体而言,作者开发了一个统一的单阶段多模态目标检测框架YOLOv11-RGBT。通过重新评估融合策略和两种模态的重要性,并充分利用多光谱特征,作者增强了模型的泛化能力和检测性能。在三个数据集上的实验验证了其有效性,为多光谱目标检测提供了新的研究思路和方法,推动了该技术向更高成熟度和实用性的方向发展。然而,本文并未深入探讨多光谱PGI、轻量级交叉注意力机制和低光模块等方法。展望未来,研究行人可以专注于提升模块泛化能力,并开发自适应调整策略。探索更高效的特征提取、融合方法和轻量级模型设计将扩展多光谱目标检测的应用范围。YOLOv11-RGBT在安全监控、自动驾驶等领域具有显著的实用潜力。其效率和准确性使其适合实时应用,例如在监控视频中识别威胁和在自动驾驶车辆中检测障碍物。

尽管由于设备限制,作者的工作在模块性能和实验范围上存在局限性,但该框架显示出巨大的潜力。未来的工作将继续开源更多基础实验,增强框架的能力,并探索新的研究方向,例如多光谱实例分割和关键点检测。作者还计划将作者的多光谱特征融合概念应用于其他目标检测算法,并进一步研究作者算法的实际部署和应用。

参考

[1]. YOLOV11-RGBT: TOWARDS A COMPREHENSIVESINGLE-STAGE MULTISPECTRAL OBJECT DETECTION FRAMEWORK

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论