抛弃暴力堆数据！EPBC-YOLOv8重构水下检测范式：点卷积加速3倍推理，识别误差骤降40% - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

导读

在本研究中，作者通过将通道和空间注意力集成到YOLOv8的 Backbone 网络中，应用点卷积于FasterNeXt以构建FasterPW模型，以及利用加权连接在受BiFPN启发的WFPN结构中，提高了跨尺度连接和鲁棒性。利用CARAFE进行精细特征重组，EPBC-YOLOv8解决了水下图像退化问题，在URPC2019和URPC2020数据集上分别实现了mAP 得分为76.7%和79.0%，这些得分比原始YOLOv8分别高出2.3%和0.7%，展示了在检测海洋生物方面的精度提升。

引言

机器视觉技术的进步使得水下机器人和空中飞行器能够利用非侵入性、高分辨率视觉感知进行自主探索和开发海洋资源。检测和识别海洋生物对于利用这些资源至关重要。然而，低水下图像质量、小而密集的目标以及数量不平衡等问题给这项任务带来了困难。现有方法主要基于通用目标检测技术，已应用于水产养殖、远洋渔业和海洋物种监测。尽管如此，水下目标检测（UOD）面临着图像质量低、目标小且密集以及计算限制等问题，导致结果不理想。目前，需要合适的深度学习模型来提高UOD的准确性和效率，但很少有研究行人关注这些问题。

然而，恶劣的水下环境常常导致诸如噪声4、不均匀的照明条件、模糊6和低对比度7等问题，这些问题会降低传统目标检测模型（如YOLOv8）的性能。为了解决这个问题，注意力机制已被越来越多地集成到检测框架中，增强了模型对相关特征的聚焦。注意力机制中的跨维度交互有助于模型理解不同特征之间的关系，从而提高检测性能。然而，传统的注意力机制在处理大尺寸图像时可能会面临计算挑战。Ouyang等人*提出了一种新的方法，即多尺度注意力模块（EMA），引入跨维度交互以更好地处理不同尺度的特征，为通道或空间注意力9预测任务提供了潜在的改进。

水下目标检测面临挑战，因为小型和集群生物与复杂背景相互交织。传统的单阶段目标检测算法在表示多尺度目标方面存在困难，这导致了特征金字塔网络（FPN）算法的演变，这些算法利用多阶段特征图。然而，FPN在融合过程中忽略了不同层次特征的不同重要性。为了解决这个问题，NAS-FPN 1l和BiFPN 12等研究分别引入了不规则特征融合模块和加权特征融合。受BiFPN的跨尺度连接和加权特征融合的启发，作者采用Weighted_Concat进行融合，并引入WFPN以增强跨尺度连接，从而更好地整合位置和细节信息。

复杂的水下环境需要更大的感受野和语义关联以增强检测性能。传统的基于插值的上采样方法不足，因为它们在增加分辨率的同时没有添加特征信息。本研究采用了CARAFE 13上采样技术，该技术有效地扩展了感受野并聚合了上下文信息，同时具有轻量级、参数和计算需求较少的特点。这种方法有望提高水下特征图理解和检测性能。

本文提出了一种基于YOLOv8 14的水下目标检测器，并进行了以下几项改进：

• 将EMA多尺度注意力模块与YOLOv8的C2f Backbone 网络集成，提高对不同尺度目标的响应能力，并减少特征冗余。
• 在提出的FasterPW模型中，通过引入FasterNext 15模块并替换部分卷积（Partial Convolution）为点卷积（Pointwise Convolution, PWConv），增强了YOLOv8的轻量级特性和特征提取能力。
• 利用WFPN的跨尺度连接和加权特征融合，以更有效地整合位置信息和详细信息。
• 将原始上采样模块替换为CARAFE，一种基于内容的策略，以保留模型从小目标中提取信息的能力，同时避免由于基于插值的上采样而丢失细节特征。
• 提出的EPBC-YOLOv8水下目标检测器在计算效率和准确性之间取得了平衡。在URPC2019和URPC2020数据集上，它分别达到了mAP 的分数为76.7%和79.0%，分别超过了原始YOLOv8的2.3%和0.7%。

EPBC-YOLOv8

尽管YOLOv8模型在目标检测领域取得了显著成果，但它仍存在一些局限性。首先，该模型的内存消耗和计算复杂度相对较高，限制了其在资源受限的边缘设备上的部署效率。其次，YOLOv8在检测小物体方面的性能需要提升，尤其是在检测密集排列的小物体时，模型难以有效学习特征信息。此外，模型在处理复杂背景图像时的鲁棒性也需要增强。

picture.image

为了解决这些问题，作者设计了EPBC-YOLOv8，该模型将C2f_EMA、FasterPW、WFPN和CARAFE集成到YOLOv8架构中，如图1所示。

C2f_EMA

EMA机制是一种专为计算机视觉任务设计的创新并行处理框架，旨在提升模型性能和加速数据处理速度。其框架可以概括为以下主要部分：

• 并行结构：EMA采用并行架构处理输入数据，与传统卷积神经网络（CNNs）的层序结构不同。这种并行结构提高了模型训练的效率，并在处理多尺度特征时增强了模型的准确性。
• 特征图分组：EMA沿着通道维度对输入特征图进行分组，每个组处理特征的一个子集。这种分组策略增强了模型处理不同特征的能力，并通过使用注意力机制为不同的输入特征分配权重来促进模型学习33。
• 多尺度空间信息捕捉：EMA通过具有大感受野的并行子网络捕捉多尺度空间信息，实现不同尺寸特征区域的同步处理。这种方法能够更有效地理解和表示输入数据的各个方面。
• 注意力权重提取：EMA设计有三个并行路径来提取注意力权重，包括两个分支和一个分支。这种配置能够从不同的空间方向编码信息，并捕捉更复杂的多尺度特征。
• 特征交互与空间注意力图生成：EMA通过跨空间信息聚合策略处理不同特征之间的交互，生成空间注意力图。这使得不同尺度的空间信息能够有效地在同一处理阶段内整合。
• 最终输出：EMA的输出包括两个空间注意力图，保留了精确的空间位置信息。每个组内的输出特征图进一步通过Sigmoid函数处理，以优化最终的特性表示。

在本研究中，作者将EMA模块集成到YOLOv8的 Neck 部分，这是其改进版本的关键组件。如图2所示，EMA将输入特征图分割成G组跨通道子特征，每组学习不同的语义信息，以增强捕捉多尺度空间信息的能力。

picture.image

为此，作者将原始的分支替换为分支，扩大了模型感受野。EMA包含三个并行路径，其中两个位于分支，一个位于分支。具体来说，通过二维全局平均池化从分支的输出中提取全局空间信息。同时，分支的输出经过直接调整，以与联合激活机制（该机制结合通道特征）之前的对应维度结构对齐，如方程(1)所示。通过这些改进，EMA模块为YOLOv8提供了更有效的空间信息处理能力。

此处，表示与第c个通道相关的输出。该输出的主要目的是编码全局信息，从而捕捉和建模长距离依赖关系。

picture.image

在YOLOv8架构中，C2f _EMA模型通过C2f Backbone 网络中的EMA机制整合多源局部特征，如图3所示。这种并行处理和自注意力策略显著提升了性能，增强了模型的准确性、效率和鲁棒性，优化了特征表示，使其在各种视觉任务中表现出色。

FasterPw

为了提高神经网络的运行速度，许多研究都集中在减少浮点运算（FLOPs）上。然而，由于FLOPS效率低下，FLOPs的减少并不总是导致延迟的相应降低。FasterNeXt网络通过PConvy在减少FLOPs的同时提高了FLOPS效率，从而降低了延迟并提升了计算速度，而不会牺牲准确性。然而，PConv存在一些问题，如步长有限、感受野不足、难以确定卷积比以及计算成本增加。

EPBC-YOLOv8在FasterNeXt网络的基础上，将PConv替换为PWConv。PWConv是一种特殊的多通道卷积形式，其中每个卷积核的大小为。它使用一个大小为的3D输入特征图I作为输入，以及一个大小为的4D滤波器F，以生成一个大小为的3D输出特征图，其中和。PWConv的优势在于其更高的计算效率和降低的计算复杂度。具体来说，PWConv充当局部通道上下文聚合器[44]，在每个空间位置利用点对点通道交互，并减少通道数量以降低计算量。

picture.image

在本研究中，YOLOv8的核心架构经历了重大变化，其 Backbone 网络中的C2f结构被轻量级的FasterPW系列网络所取代，如图4所示。FasterPW设计包括三个标准卷积层和FasterPWBlock模块，形成一个轻量级特征提取网络。该网络在点卷积后战略性地应用批量归一化和SiLU激活函数，以保持特征多样性并降低延迟。SiLU具有更强的非线性表达能力和高效性能，使其成为首选的激活函数。通过采用改进的FasterNeXt网络，作者有效地减少了网络参数数量、浮点运算次数和内存访问时间，实现了网络轻量化同时保持高效的特征提取能力。

WFPN

为了提升目标检测模型的特征提取和融合能力，作者采用了BiFPN的概念，从而产生了Weight_Concat，取代了原有的Concat。BiFPN的主要原则如下：

• 双向特征融合：BiFPN能够实现自上而下和自下而上的特征融合，从而更有效地整合不同尺度的特征。
• 加权融合机制：BiFPN通过为每个输入特征分配权重，优化了特征融合过程，使网络能够更加重视信息含量更丰富的特征。
• 结构优化：BiFPN通过移除仅有一个输入边的节点，在相同层级的输入和输出节点之间添加额外的边，并将每个双向路径视为一个特征网络层来优化跨尺度连接。

picture.image

FPN的六个结构如图5所示，(a)是原始的FPN特征融合，通过自上而下的分支增加了大特征图的高层语义信息，从而提高了小物体的检测精度：

但与此同时，这也使得顶级特征的优化不如之前，导致对大物体的检测精度降低；（b）在（a）的基础上增加了自下而上的特征融合，使得顶级特征包含更多细节信息；（c）使用由NAs搜索的特征融合方法。首先，移除只有一条输入边的节点，因为直观上这些节点对网络的特征融合贡献较小，将（b）转化为（d）；其次，如果输出节点和输入节点处于同一 Level ，则在这两者之间添加一条边，将（d）转化为（e）。（f）结合了（b）的双向特征融合特性和（e）的跨尺度链接特性，形成了WFPN。

加权连接通过整合有效的双向特征融合、加权融合机制和结构优化，增强了特征的语义信息，如图5部分(f)所示。具体而言，在结构优化方面，EPBC-YOLOv8通过引入额外的权重实现了跨尺度连接，并区分了不同分辨率的输入特征。这种机制实现了双向跨尺度连接和快速归一化融合，从而允许更灵活地调整不同分辨率特征的影响，更好地表达整体特征信息。

CARAFE

在多尺度图像标注检测中，特征上采样是一个关键步骤。传统的上采样技术往往无法充分利用特征图中的语义信息，限制了特征融合的有效性。分解方法通过学习上采样核来利用语义信息，但增加了参数数量和计算成本。此外，它们在特征图的每个位置使用相同的上采样核，这无法有效利用特征图中的语义差异。CARAFE具有更大的感受野，能够更有效地聚合上下文信息。其上采样核与特征图的语义密切相关，在融合多级特征后，能够有效提升多尺度目标检测性能，而不会显著增加参数数量和计算成本。作者在 Neck 部分用CARAFE替换了传统的上采样，进一步提升了目标检测的性能，如图1所示。

CARAFE是一种轻量级的基于内容的上采样策略，能够精确地恢复图像细节并减少小物体信息损失。它由两部分组成：核预测模块和内容感知重排模块36。核预测模块预测每个位置的上采样核，而内容感知重排模块使用这些核以像素为单位重排特征图，实现内容感知上采样，如图6所示。这个过程使上采样更加感知和自适应，提高了上采样的准确性和有效性。

picture.image

CARAFE具有以下创新特性：首先，核预测模块根据输入特征图的邻近位置预测每个位置的独特上采样核，实现内容适应性。其次，内容感知重排模块使用这些核进行特征上采样，有效地恢复细节信息。该模块包含通道压缩器、内容编码器和核归一化器，其中通道压缩器压缩输入特征通道，内容编码器生成重排核，核归一化器应用softmax函数。内容感知重排模块通过加权求和运算符重新组装局部区域特征，允许区域内的每个像素根据特征内容而不是位置距离以不同的方式对上采样像素做出贡献，增强了特征图的语义。与分解方法相比，CARAFE具有更少的参数和更低的计算复杂度，对细节更加敏感。此外，CARAFE生成的语义丰富化的上采样特征显著提高了模型的检测和分类性能。总之，CARAFE通过内容自适应核预测和重排实现了高效且语义感知的上采样，使其成为一个能够显著提升模型分类和检测性能的有效特征融合模块。

3.实验细节

本实验的实验环境参数如下。作者使用了英特尔(R)至强(R)金牌 6248R 3.00 GHz处理器和NVIDIA GeForce RTX 3090显卡。深度学习模型框架使用了PyTorch 2.0.0和Python 3.8，CUDA版本为11.7，操作系统为Windows 11。

基准测试与实现细节数据集

本文所使用的数据集为URPC2019，用于验证所提出模型框架的有效性。URPC2019是一个公开可用的水下目标检测数据集，包含5种不同的水生生物类别：海星、海胆、海松、扇贝和海草，共计3,765个训练样本和942个验证样本。数据集图像示例如图7所示。此外，作者还对URPC2020数据集进行了检测实验。与URPC2019类似，URPC2020也是一个水下数据集，但不同之处在于它只包含四个不同的类别：海参、海胆、扇贝和海星，共计4,200个训练样本和800个验证样本。这进一步验证了模型的可行性。

picture.image

参数设置

为确保模型有效性的公平性和可比性，作者使用官方文档作为所有实验的预训练权重文件。同时，作者采用letterbox技术调整输入图像大小至，这允许输入图像在调整到固定大小时保留原始的宽高比，从而便于模型训练和推理。在实验中，作者将迭代次数设置为100，模型训练阶段的一些其他重要超参数如表1所示。

picture.image

评估标准

交并比（Intersection over Union，简称IOU）是目标检测和图像分割任务中常用的评估指标。它衡量预测边界框（或分割结果）与真实边界框之间的重叠程度。IOU通过计算预测边界框与真实边界框交集的面积除以它们并集的面积来定义。具体计算方法见公式(2)，其中交集代表预测和真实边界框交集的面积，并集代表它们并集的面积。IOU的值介于0到1之间，值越接近1表示预测结果与真实结果之间的匹配度越高，值越接近0表示匹配度越低。

交

集

面

积

并

集

面

积

在机器学习和统计学中，假阳性（FP）、真阳性（TP）、假阴性（FN）和真阴性（TN）是评估分类模型性能的常用指标。

TP表示模型预测为正的正面实例数量，TN表示模型预测为负的负面实例数量，FP表示模型错误地将负面实例预测为正的实例数量，FN表示模型错误地将正面实例预测为负的实例数量。这四个指标之间的关系如表2所示。基于这些指标，可以计算出其他指标，如精确度、召回率、平均精确度（AP）和平均平均精确度（mAP）。

picture.image

精确率是指在预测为正样本的样本中，真正例所占的比例。高精确率意味着模型做出的错误分类判断较少，但它并不能保证所有正例都被正确识别，如公式(3)所示。

精

确

度

召回率是指在所有实际正例中，被正确预测为正例的真正正例所占的比例。高召回率意味着模型可以识别出更多的正例，但也可能错误地将一些负例预测为正例，如公式(4)所示。

召

回

率

平均精度（AP）是用于信息检索和目标检测等任务中的一个指标。AP衡量模型对结果进行排序的能力，它是返回的正确结果比例的平均值。AP值越高，模型在排序结果方面的表现越好，如公式(5)所示。

平均精度均值（Mean Average Precision）是用于多类别目标检测等任务中的一个指标。mAP是每个类别的AP的平均值，用于评估模型在不同类别上的检测性能，如公式(6)所示。

在作者的实验中，作者使用精确率和召回率来评估模型对正负实例进行分类的能力，并使用mAP来评估模型在检测和识别不同类别目标时的性能。

比较实验

作者针对模型EPBC-YOLOv8及其他模型在URPC2019数据集上的性能进行了比较实验，结果如表3所示。可以看出，EPBC-YOLOv8在参数数量和FLOPs方面都有显著减少，这降低了模型的计算复杂度，有利于提高模型的准确率。表显示，与YOLOv5和YOLOv8相比，EPBC-YOLOv8在检测结果上有了显著提升。具体来说，在基于 Baseline YOLOv8n模型进行修改后，作者观察到mAP 精度提高了2.3%，这证明了EPBC-YOLOv8在优化YOLOv8方面的有效性。

picture.image

为了突出EPBC-YOLOv8的有效性，作者在URPC2019数据集的不同场景图像上进行了目标检测。

picture.image

如图8所示，不同的模型呈现了不同的实验结果，从左到右的四列分别对应真实值、YOLOv5s、YOLOv8以及作者优化的YOLOv8。通过查看图表，作者可以观察到，与YOLOv5s和YOLOv8相比，EPBC-YOLOv8表现出更好的检测性能。前两行表明优化后的YOLOv8具有更高的召回率，而最后四行反映了其更高的准确率。因此，将EPBC-YOLOv8的检测结果与YOLOv5s和YOLOv8的结果进行比较，进一步验证了作者的优化模型具有优越的检测性能。此外，在URPC2020数据集上，EPBC-YOLOv8优于原始的YOLOv8和其他模型。

picture.image

如表4所示，与YOLO系列模型相比，EPBC-YOLOv8在mAP @0.5上实现了大约1%的提升。尽管这个提升并不十分显著，但与其他模型相比，它代表了一个相当大的进步。这表明EPBC-YOLOv8在URPC2020数据集上具有独特的优势。

C2f_EMA在 Backbone 网络中的消融研究有效性

首先，作者对 Backbone 部分的第一个C2f中的 Bottleneck 结构进行了修改，如图3所示。作者尝试了三种优化方法：C2f_EMA是本文采用的优化结构；C2f_FasterPW_EMA基于C2f_EMA，将C2f中的 Bottleneck 替换为FasterPW；C3_FasterPW_EMA对C3结构应用了与C2f_FasterPW_EMA相同的操作。如表5所示，C2f结构的优化导致mAP W有所提升，其中C2f_EMA结构显示出最显著的提升，增加了。

picture.image

EPBC-YOLOv8中每个模块的有效性

在本节中，作者以原始YOLOv8为基础，逐步添加或移除模型中包含的组件，以探索每个组件对系统模型整体性能的贡献，从而展示它们在提升YOLOv8性能方面的有效性。共进行了15次消融实验，结果如表6所示。通过分析表，作者可以看到不同模块组合对目标检测系统性能的影响各不相同。

picture.image

在使用四个模块中的每一个单独时，与原始YOLOv8相比均有提升，mAP的提升幅度按降序排列为C2f_EMA、CARAFE、WFPN、FasterPW。可以看出，单独使用C2f_EMA模块可以获得最高的mAP提升，达到1.3%。当模块组合使用时，mAP有所提升，并且与单独使用每个模块相比，mAP的提升幅度通常更大。最佳组合是同时使用C2f_EMA、FasterPW、WFPN和CARAFE模块，实现了最高的mAP 为76.7%，比原始YOLOv8提升了2.3%。

总结而言，根据实验结果，通过同时使用C2f_EMA、FasterPW、WFPN和CARAFE模块，可以获得最佳的性能提升。这些结果为优化目标检测系统的设计和配置提供了指导。

结果分析

为了验证改进的EPBC-YOLOv8模型的有效性，作者在训练集和验证集上进行了100次迭代，计算了EPBC-YOLOv8模型在迭代过程中的损失值、精确率、召回率、和mAP 的实时变化。如图9所示，在训练集和验证集上，EPBC-YOLOv8模型的实时损失值随着epoch的增加而平稳下降，最终收敛。特别是在验证集上，分类损失相对于边界框回归损失和关键点检测损失更为稳定，这表明EPBC-YOLOv8模型在目标类别上的分类性能更好。同时观察精确率、召回率、和的变化，均呈现上升趋势且收敛良好，这表明EPBC-YOLOv8在目标检测方面具有良好性能。

picture.image

图10展示了作者提出的EPBC-YOLOv8模型的混淆矩阵，该矩阵已进行归一化处理，以便更直观地展示模型的预测性能。矩阵的每一行代表实际类别，每一列代表预测类别。观察对角线元素可以直观地反映URPC2019数据集中五个类别的预测准确率，而观察非对角线元素则可以揭示不同类别之间的预测情况。因此，作者可以得出结论，EPBC-YOLOv8模型在URPC2019数据集的大部分类别上具有较高的预测准确率，除了更具挑战性的水草类别。模型的预测错误率相对较低，充分证明了EPBC-YOLOv8在该数据集上的有效性。

picture.image

精确-召回（PR）曲线是评估二元分类器性能的常用方法。在该曲线上，横轴代表召回率，纵轴代表精确率。精确率和召回率是评估分类器性能的两种常用指标。PR曲线展示了在不同阈值下精确率和召回率之间的权衡。通常，作者希望分类器既具有高精确率又具有高召回率，因此PR曲线越接近右上角，分类器的性能越好。

结论与未来工作

本研究提出了一种改进的水下生物检测框架EPBC-YOLOv8，适用于复杂的水下环境。在YOLOv8的 Backbone 网络中，作者引入了一种高效的多尺度注意力机制，以聚焦图像的关键区域并提取强大特征。FasterPW部分应用了PWConv，通过密集卷积操作融合通道信息并提高计算精度。 Neck 模块结合了CARAFE模块的内容感知特性，用其替换传统的上采样方法，以增强多尺度目标检测效果。模型的Concat连接通过WFPN结构进行增强，以提升性能和泛化能力。实验结果表明，EPBC-YOLOv8在URPC2019和URPC2020数据集上分别实现了mAP 为和，分别比原始YOLOv8高和。作者的改进方法在目标检测精度方面显著优于原始YOLOv8，使其成为一种高效且实用的水下目标检测框架。

未来工作将探索更High-Level的水下图像处理技术，以提高水下环境中目标检测的准确性。

参考

[1]. EPBC-YOLOv8: An efficient and accurate improved YOLOv8 underwater detector based on an attention mechanism

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image