点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
城市和森林区域发生的火灾对安全构成严重威胁,凸显了更有效检测技术的必要性。
为解决这些挑战,作者提出了一种增强的YOLOv8模型——CGi-YOLOv8n,该模型针对检测小火灾和烟雾进行了定向改进。
该模型集成了CARAFE上采样运算符和上下采样引导模块,以减少在采样过程中信息损失,从而保留更丰富的特征表示。此外,作者还引入了一个反向残差移动块增强的C2f模块,捕捉到小目标和细烟雾模式,这是对原始模型检测能力的重大改进。
为了验证,作者引入了Web-Fire数据集,该数据集针对火和烟雾检测涵盖了各种实际场景。
实验结果表明,CGi-YOLOv8n在检测精度上超过了YOLOv8n,证实了其在鲁棒火灾检测任务中的有效性。
I Introduction
火灾爆发,无论是在城市中心还是在偏远的荒野,都可能导致毁灭性的损失,因为响应措施的延误。手动检测方法速度慢且劳动密集,需要持续的人力监督。相比之下,自动火警检测可以实现实时警报,从而遏制火势蔓延和减少伤亡。近年来,包括用于野火检测的深度学习系统,用于复杂森林环境的神经模糊系统[2],以及用于城市火灾的增强YOLOv8模型。然而,大多数模型都是特定环境的。将Himawari-8卫星图像与卷积神经网络[4, 25]相结合,提高了主动火警检测的准确性,尽管实时性仍然是一个挑战。最近,针对嵌入式设备的MobileNetV3-YOLOv4模型[5]提供了更快的检测速度,但会丢失一些特征细节,从而影响整体检测质量。
由于前期工作的限制,本研究采用YOLOv8n作为基础模型,因为其在目标检测领域表现出色。原始模型在脖子部分使用了简单的上采样方法,将高度(H)和宽度(W)加倍,而通道数保持不变。在 Backbone 网络的下采样操作中,使用标准卷积,将高度和宽度减半,通道数加倍,从而在采样过程中导致显著的特征损失。尽管 Backbone 网络的C2f模块通过合并操作和利用残差连接进行优化,原始模型的 Bottleneck 组件采用相对简单的特征提取方法,限制了其进行全面特征提取的能力。
因此,作者提出了一种改进的模型,CGi-YOLOv8,以解决这些问题。所提出的改进旨在在采样过程中减轻特征损失问题,并在整个网络中增强特征提取,从而提高目标检测任务的整体模型性能。该模型提供了一种通用解决方案,具有提高的实时性能、数据保留和最小的计算负载。作者开发的Web-Fire数据集包含城市和野外环境中的火和烟雾实例,并由D-Fire数据集[6]补充,覆盖了复杂的火场场景。通过合并新采样算法和iRMB,以增强原始C2f,作者的模型解决了高误检和漏检率问题,并在各种火和烟雾场景中提高了边界框精度。
本文的主要贡献如下:
- 本文提出了CARAFE上采样运算符和上下采样模块,以优化采样过程中的信息保留,确保对上下文内容有更全面的理解,从而促进特征的完整传输。
- 本文利用iRMB模块提高小目标检测和烟雾识别的效率。这提高了原始C2f模块的多尺度特征提取能力。为了确保速度,本文将depthwise卷积与轻量级CNN架构相结合,从IRB和Transformer组件的有效统一的角度重新评估轻量级CNN架构。作者将基于CNN的IRB扩展为注意力模型,并抽象出一个用于轻量级模型设计的单层残差元移动块(MMB),在平衡参数的同时,实现了与可比注意力模型相当的检测性能。
II Related Work
Sample
在目标检测[27, 28, 29]中,采样主要通过有效选择正负样本来平衡类别分布,从而提高模型准确性和训练效率。正负样本之间的不平衡可能导致性能下降,因此采样策略对于优化检测能力至关重要。有效的采样可以使模型专注于关键样本进行精确分类和定位。Dysample[7]引入了一个超轻量级的、动态上采样器,它在PyTorch中具有很高的资源效率且易于实现。
在此基础上,MFDS-DETR[8]引入了HS-FPN,进一步发展成了HSPAN。降采样是一种常见的降低空间维度的技术,通过SPD-Conv[9](用新的CNN块替换步长卷积和池化层)进行了优化。YOLOv9[10]提出了"adown",这是一种轻量级降采样方法,旨在优化检测准确性和效率。每种方法在采样过程中都独特地提高了特征保留。相比之下,本文引入了CARAFE[11]和CGD[12]模块,通过捕获上下文特征来提高模型准确性。比较实验将进一步证明这些提出的采样改进的有效性。
Transformer
在目标检测中,Transformer通过强大的自注意力机制在特征提取和信息聚合方面发挥着关键作用,从而提高检测准确性。这种架构有效地捕获了物体之间的全局依赖关系。与传统的卷积神经网络(CNNs)[13, 14, 15]不同,Transformer在整个特征图上建模关系,从而实现对物体特征的更全面的表示。此外,Transformer减少了依赖于 Anchor 框,并简化了网络设计,有助于实现更高效和可自适应的检测 Pipeline 。最初,目标检测主要依赖CNN进行特征提取和定位。
然而,在2020年,DETR(Detection Transformer)的引入标志着一个重大的转变,将Transformer引入目标检测领域,采用端到端的方法简化了复杂的 Anchor 框和后处理步骤。DETR展示了Transformer在建模长程依赖关系和集成全局特征方面的优势,在复杂场景中证明非常有效。
遵循DETR,模型如Deformable DETR [17]通过引入可变形注意力机制解决了DETR的训练和收敛速度慢的问题,极大地提高了检测速度和准确率。此外,像Swin Transformer [18]这样的模型结合了卷积和Transformer的优势,捕获了多尺度特征,并在小目标和大背景上提高了性能。然而,与较大的CNN类似,Transformer增加了模型参数,可能会减慢检测速度。为了解决这个问题,作者引入了iRMB [19],将CNN和Transformer元素结合,以改进原始网络中的C2f模块。这种方法充分利用了两种架构,同时保持了检测速度。
III Proposed Method
Overview
为了应对YOLOv8n[20]在火警检测任务中高水平的假阴性率和假阳性率,本文将CARAFE和CGD采样模块引入原始模型的Backbone和Neck部分。此外,两个部分中的现有C2f模块通过引入iRMB进行增强,形成了新的C2f_iRMB层。如图2所示,改进的Backbone和Neck结构。
Content-aware Reassembly of Features Up-sampling Module
CARAFE模块包括两个步骤。第一步根据每个目标位置的内容预测重组装核,第二步使用预测的核重新组装特征。核预测首先通过卷积将输入通道数减至最小化计算成本,然后通过卷积层预测一个放大的上采样核,表示更大的感受野。内容编码器充当一个上采样核。最后,SoftMax用于归一化预测的上采样结果。内容感知重组装将输出映射回输入,并在每个点为中心的区域内与预测结果进行点积操作,以获得输出特征图。模块的详细采样过程如图3所示。给定一个大小为的特征图,上采样过程产生一个新的特征图,其大小为。对于输出中的任意目标位置,存在一个对应的输入中的源位置。在这里,表示以为中心的的子区域。在第一步中,核预测模块根据的邻居预测每个位置的核,如图1所示。重组装步骤形式化表示在方程(2)中,其中表示内容感知重组装模块,该模块使用核重新组装的相邻部分。
引入CARAFE模块有助于模型在 Neck 区域保留更多完整特征信息,从而提高边界框预测的准确性。
Context Guided Down-sampling Module
卷积全局上下文提取(CGD)模块的工作原理如下:
首先通过一个卷积对输入数据进行压缩。接下来是局部特征提取器(LFE),它使用标准的卷积层来学习局部特征,然后是周围上下文提取器(SCE),它利用膨胀卷积来捕捉更大的感受野上下文。
联合特征提取器(JFE)将局部特征与周围上下文特征融合,使用批量归一化(BN)和ReLU操作。全局上下文提取器(GCE)进行全局平均池化以聚合上下文,然后是两个全连接(FC)层来加权特征,增强有用的部分,抑制无关的部分。CGD模块的详细采样过程如图4所示。
LFE专门设计用于从输入数据中学习局部特征,使用一个卷积层来提取图像的局部区域特征。这些局部特征随后与周围上下文特征相结合,使网络能够全面理解不同的区域。LFE和SCE共同确保模型不仅理解每个像素或局部区域的信息,还理解这些区域在整体上下文中的关系。这种细节和局部变化概述信息对于准确分类图像中的每个像素至关重要,尤其是在需要细粒度预测的任务中,例如在复杂场景中区分不同的物体和表面。在LFE和SCE中使用通道卷积可以减少跨通道计算成本,显著节省内存。这种设计使CGD能够在资源有限的环境中高效运行,同时保持高准确度和实时性能。
扩大感受野(SCE)通过使用膨胀卷积来实现,这使得模型能够观察到更大的区域,而不仅仅是关注局部细节。通过结合低频增强(LFE),模型可以获得额外的信息,有助于更好地理解复杂的场景。涉及不同架构的实验表明,将SCE集成到模型中可以显著提高分割精度。
JFE 的作用是将 LFE 和 SCE 提取的特征进行集成,捕捉局部细节和更广泛的环境信息。JFE 允许网络考虑局部和环境信息,从而提高语义分割的准确性。由 JFE 生成的联合特征进一步与全局环境特征相结合,利用输入图像中的全部信息进行特征优化。JFE 是实现语境引导网络通过平衡局部细节和全局环境实现高效语义分割的关键连接点。
GCE(全局卷积增强)捕获并利用整个输入图像的全球信息来增强联合特征提取器学习到的特征。GCE通过全局平均池化产生一个全局特征向量,它捕获了输入图像中每个通道的平均响应。接下来,全局特征向量通过多层感知机(MLP)进一步处理,学习特征之间的复杂非线性关系,以优化全局上下文特征。提取的全局上下文与联合特征通过缩放层结合,调整通道 Level 的联合特征,突出有用的特征并抑制不重要的特征。GCE是一个自适应过程,因为提取的全局上下文是基于输入图像生成的,允许网络为不同图像生成定制化的全局上下文。CGD模块的引入有助于模型更好地在目标内部集成不同的局部特征,实现更完整特征传递,降低假阳性检测率,同时提高模型测试准确性。
Inverted Residual Mobile block Module
原始瓶 Neck 在多尺度特征提取能力上有限,但仅添加多头自注意力机制将显著提高模型的计算成本。因此,本文提出在C2f中的瓶 Neck 替换为反转残差移动块(iRMB),以提高移动和边缘设备上的效率和性能。iRMB结合了逐点卷积(DW-Conv)和扩展窗口多头自注意力(EW-MHSA),以有效平衡局部和全局特征提取,如图5所示。具体而言,iRMB包括以下关键组件:
深度可分离卷积(DW-Conv):DW-Conv 用于高效提取具有低计算复杂度的空间特征。DW-Conv 单独对每个通道进行操作,显著减少了参数数量和计算量。其计算过程由公式(3)定义。
- X 是输入特征图,X' 是通过逐点卷积获得的特征图。
- 扩展窗口多头自注意力(EW-MHSA):EW-MHSA 在局部窗口内进行多头自注意力计算,从而减少了传统自注意力机制的计算成本。该过程可通过公式
其中_Q,K_和分别表示 Query 、 Key和Value ,而_Expand_表示扩展操作。
馈前网络(FFN):在EW-MHSA之后,特征图进一步通过馈前网络进行变换,该网络由两个线性层和一个非线性激活函数组成。其计算可表示为公式(7)。
残差连接:为了提高梯度 Stream 效率并避免梯度消失,作者在iRMB中添加了残差连接。这些连接确保输出保留输入信息,有助于训练更深层的网络。最终的输出通过残差连接获得,如公式(8)所示。
通过结合DW-Conv和EW-MHSA,iRMB实现了局部和全局特征的较好平衡。局部窗口内的自注意力机制降低了传统自注意力机制的二次复杂度,使得这种设计更适用于实际应用。利用这个模块改进原始C2f模块,可以增强模型检测小目标的能力,并降低误检率。
IV Experiment and Analysis
该研究的实验设置包括以下内容:CPU:英特尔至强XEON 6230,GPU:英伟达GeForce RTX 4090,系统环境:Ubuntu 22.04,编程语言:Python 3.9,加速环境:CUDA 12.2,PyTorch版本:2.0.0。实验中使用的数据集包括一个自定义的火数据集名为“Web-Fire”和一个开源数据集名为“D-Fire”。
Datasets
《Web-Fire》这篇AI学术论文包含11,646张图像,分为10,481张训练图像和1,165张测试图像,比例为9:1,以确保数据集的复杂性和完整性,使模型能够准确地检测各种火场景。
D-Fire 数据集,由盖亚研究行人开发,是一个专门针对火和烟雾检测的图像数据集,包含超过21,000张图片,分为四个类别:仅火(1,164张图片),仅烟雾(5,867张图片),火和烟雾(4,658张图片),以及无火无烟雾(9,838张图片)。
Evaluation Metrics
在本文中的实验评估指标包括精确度、召回率和mAP。其中,精确度是指模型预测为阳性的样本中,实际为阳性样本的正确预测数量,召回率是指实际为阳性样本的样本中,被正确预测为阳性的样本数量。mAP进一步细分为mAP50和mAP50-0.95,分别表示在0.5至0.5-0.95之间的IoU平均准确率。
Comparison with State-of-the-art Methods
我对比了CCi-YOLOv8n与其他模型在Web-Fire和D-Fire数据集上的性能。除了之前提到的四个指标外,还引入了参数和Flops,以更全面地反映模型之间的比较。结果表明,CCi-YOLOv8n模型在目标检测性能方面显著优于其他模型,在mAP50和mAP50-0.95这两个指标上获得了最高分。具体来说,CCi-YOLOv8n在Web-Fire数据集上的这两个指标分别达到了72.0%和41.0%,在D-Fire数据集上分别达到了78.5%和46.6%。作者在原模型的基础上增加了一小部分计算,但作者的模型在其他指标上表现良好。此外,CCi-YOLOv8n的参数和Flops较少,相较于之前的模型实现了计算需求的大幅度减少,同时保持了高精度。
Ablation Studies and Analysis
如图6所示的比较结果表明,提出的CCI-YOLOv8n方法在许多最先进的目标检测方法中具有优势。在接下来的内容中,将从三个方面全面分析提出的CCI-YOLOv8n方法的优势背后的逻辑。
(1)CARAFE上采样模块的作用。与其他上采样模块(包括dysample和HSPAN)相比,作者的模块在web fit数据集和difre数据集上的mAP50和mAP50:95指标上表现最好。
(2)CGD下采样模块的影响。在降采样部分,作者的模块也显示出与Adown和SPDConv相媲美并具有最佳性能。
(3)iRMB-C2f模块的影响。与最近提出的PKI和RVB方法进行比较,作者的模块表现出最佳性能。
实验结果显示,当分别引入CARAFE和CGD模块时,在精确度和mAP方面取得了显著改进,尤其是在mAP50方面。当同时引入CARAFE和CGD模块时,模型的整体性能达到最优,特别是在mAP50-0.95方面,这表明了CARAFE和CGD模块之间的协同作用,不仅提高了单个阈值的性能,还增强了在不同阈值范围的平均精确度,从而提高了模型的整体检测能力和鲁棒性。因此,全面使用这两个模块可以显著提高火烟检测系统的性能,提供更准确和可靠的结果,如表2所示。
Visualization
为了直观地展示改进模型的有效性,作者选择了原始模型在问题数据上的检测失败案例,如图6所示。
(a)显示了漏检的案例;
(b)说明了误检的情况;
(c)展示了边界框不完整的例子。实验表明,改进后的模型不仅检测到了原始模型未能检测到的目标,还降低了误检率,提供了更完整的目标检测,从而验证了改进模型在提高总体准确率方面的进步。
V Conclusion
在本研究中,作者提出了一 个名为“Web-Fire”的火灾数据集,并基于YOLOv8n构建了一个改进的模型,即CCi-YOLOv8n。
在自定义的Web-Fire数据集和公开可用的D-Fire数据集上进行了广泛的实验。结果显示,改进的模型在提高准确性的同时,仅增加了最小的额外计算负担。
所提出的模型在不同的数据集上表现出不同的性能,突显了其多功能性。
未来的工作将专注于进一步改进模型的泛化能力和计算速度,以扩大其实际应用范围。
[0]. CGi-YOLOv8n: Enhanced Fire Detection with CARAFE and Context-Guided Modules.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」