万字文阐述 | 18种增强算法+7个目标检测算法=126个模型，得出完美结论和经验，必学 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

水下目标检测是海洋工程和水中机器人领域的一个重要且具有挑战性的问题。困难的部分原因是由于光选择性吸收和散射导致的水下图像降质。直观上，增强水下图像可以带来像水下目标检测等高级应用的好处。然而，目前还不清楚所有的目标检测器是否都需要水下图像增强作为预处理。因此，作者提出了两个问题：“水下图像增强是否真的可以提高水下目标检测？”和“水下图像增强如何有助于提高水下目标检测？”通过这两个问题，作者进行了广泛的研究。

具体来说，作者使用了18种最先进的水下图像增强算法，包括传统的、基于CNN的以及基于GAN的算法，来预处理水下目标检测数据。然后，作者使用相应的增强结果，通过不同的算法重新训练了7种流行的基于深度学习的目标检测器，共获得了126种水下目标检测模型。结合使用原始水下图像重新训练的7种目标检测模型，作者使用这些133种模型全面分析了水下图像增强对水下目标检测的影响。作者期望这项研究可以为回答上述问题提供充分的探索，并吸引更多人关注水下图像增强和目标检测的联合问题。

预训练模型和结果：https://github.com/BIGWangYuDong/lqit/tree/main/configs/detection/uw\_enhancement\_affect\_detection

I Introduction

近年来，水下目标检测已成为一个关键的话题，因为它在许多应用中发挥着至关重要的作用，例如水下结构的维修和保养、海洋环境保护和海洋工程等。然而，检测水下物体具有挑战性。最大的障碍是，原始水下图像通常具有低质量，如低对比度、低亮度、颜色偏差、模糊细节、不均匀的亮点等。这些降质问题主要是由后向散射、光选择性吸收和水中的散射引起的。

直觉上，水下图像增强是一种直接提高水下目标检测器性能的方法，因为它可以从水下图像中恢复更多信息。已经变得普遍的观念是，提高水下图像的视觉质量可以提高高级任务的性能。然而，关于这个问题进行全面研究的人还很少。Chen等人[6]简要讨论了水下图像增强对目标检测的影响，并得出了初步结论：图像增强会抑制水下目标检测性能。然而，由于Chen等人[6]的工作中的实验和分析不足，作者还不能回答“水下图像增强是否可以提高目标检测？”和“水下图像增强如何有助于目标检测？”这两个问题。

在本文中，作者试图通过联合分析水下图像增强和水下目标检测来回答这两个问题。具体来说，作者首先选择了18种水下图像增强算法，包括传统物理模型无、物理模型基于算法以及深度学习基于CNN和GAN算法，来处理水下目标检测数据。然后，作者进行了定性和定量比较，以分析水下图像增强的效果。

这篇文章的主要贡献可以概括为三个方面。

进行了第一次全面实证研究，研究水下图像增强对目标检测的影响。
通过广泛的实验和分析，揭示了现有水下图像增强算法的不足之处，包括其有限的鲁棒性和适应性，尤其是在水下目标检测方面。
分析了现有水下图像质量评估指标的局限性，这些指标不仅与人类视觉感知存在差距，而且无法直接代表后续高级任务（例如目标检测）的性能。

请注意，本文的目标并不是提出一种新方法来提高水下目标检测的性能或增强水下图像的质量。相反，作者研究了通过预处理训练和测试数据是否可以提高水下目标检测的性能，以及增强图像如何影响目标检测。作者希望这项工作可以吸引更多人关注水下目标检测和图像增强的联合研究，例如开发新的联合算法以提高目标检测和图像视觉质量。

II Relate Work

目标检测。当前基于CNN的目标检测可以简单地分为两阶段和一阶段检测器。Ren等人[8]提出了Faster R-CNN，作为一种经典检测器，它确立了两阶段检测器的优势。Faster R-CNN包括一个单独的区域提议网络（RPN）和一个区域性预测网络（R-CNN）来检测物体。

受Faster R-CNN启发，许多基于R-CNN的两阶段检测器被提出，包括架构改进，更高效的训练策略，和更有效的损失函数。一阶段检测器也因为其高计算效率而受到关注。作为一项开创性工作，Liu等人[16]提出了SSD用于实时检测。

此后，大量工作被提出以提高SSD在各个方面的性能，包括策略，新的损失函数，和架构改进。此外，目标检测可以分为基于Anchor的和基于Anchor的检测方法。前者基于默认Anchor来调整输出，例如Faster R-CNN，SSD和RetinaNet，而后者不生成Anchor，例如FCOS。

水下图像增强。水下图像增强可以大致分为两类：传统方法和基于深度学习的方法。前者可以进一步分为物理自由基和物理模型基方法。物理自由基方法主要调整像素值以提高视觉质量。然而，由于忽略了水下成像机制，物理自由基方法在遇到多样化和具有挑战性的水下场景时往往表现不佳。相反，基于物理模型的水下图像增强方法主要基于先验信息，如红通道先验，水下暗通道先验，和通用暗通道先验。深度学习策略的成功应用激发了其在降质图像增强中的应用，如去雾，图像上色，低光图像增强，和 underwater image enhancement。

因此，有几种尝试通过深度学习策略来提高水下图像增强的性能。除了简单地将它们分为CNN基础和GAN基础的方法外，作者还可以根据架构差异将它们分为五类：

encode-decode结构，这是一种低级任务中常用的结构；
高性能模块化或块，专注于提高网络的特征提取能力；
多分支，旨在学习不同的特征并融合在一起；
多生成器，通过共享生成器的特征来增强水下图像；
结合物理模型的深度学习方法，通过预测水下图像的深度图或传输图来提高增强和恢复的性能。

尽管这些方法显著提高了水下图像的质量，但它们并未验证增强是否能提高水下目标检测的性能。

联合图像增强和高级别应用。在实际中，获取的图像可能包含一些降质问题，从而影响高级应用。直观上，增强这些降质图像可以带来高级应用的好处。然而，关于图像增强与高级应用之间的关系的研究表明，增强不能提高高级任务的表现。例如，Pei等人[54, 55]发现现有的图像去雾和去模糊方法不能提高或甚至降低图像分类性能。 [56]发现去雾不能提高语义分割性能，[57, 58]提出现有去雾算法与直接使用雨图像相比降低了检测性能。 [59, 60, 61]在低光目标检测和语义分割方面得出了类似的结论。

对于水下场景，Zhuang等人[62]应用水下图像增强结果进行分割、显著性检测、关键点检测和深度估计，实验结果表明水下图像增强可以提高这些应用的性能。然而，这些应用实验仅针对几个精选案例。此外，[63, 6]得出结论认为大多数水下图像增强方法会抑制目标检测性能，而[64, 65]的实验证明了这一发现。这些研究一般表明大多数图像增强方法不能带来高级应用，但并未完全分析其内在原因。

picture.image

此外，一些研究[65, 66]试图将水下图像增强和目标检测方法结合，以端到端的方式同时提高水下图像增强和目标检测的性能。尽管结合方法可以提高性能，但它们并未回答：“水下图像增强是否可以提高目标检测？”和“水下图像增强如何有助于目标检测？”这两个问题。在本论文中，作者研究通过预处理训练和测试数据是否可以提高水下目标检测的性能，以及增强图像如何通过更全面和充分的实验影响目标检测。

III Investigating the Effect of Underwater Image Enhancement on Object Detection

在这一部分，作者研究水下图像增强是否有助于目标检测。

首先，作者描述实验设置。
其次，分析使用不同水下图像增强算法的预处理结果对水下目标检测的影响，定性定量分析。
第三，报告并分析使用不同目标检测器重新训练的实验结果，使用不同的水下图像增强算法进行增强，并定量定性分析。
尤其是，作者使用TIDE通用工具箱计算和评估目标检测对整体性能的影响，并使用特征图可视化分析水下图像增强对目标检测的影响。

Experimental Settings

水下目标检测数据集。所有实验都在Underwater Robot Professional Contest数据集（URPC2020）上实现，该数据集包含5,543张水下图像，分为四个类别：水螅、海胆、牡蛎和海星。作者的研究将URPC2020数据集随机分为训练组和测试组，分别为4,434张和1,019张图像。

此外，作者还针对现实世界水下目标检测（RUOD）数据集进行了实验。RUOD是包含物体边界框的水下图像数据集，它包含14,000张图像（其中9,800张用于训练，4,200张用于测试），超过74,000个边界框，涵盖十个类别：鱼类、海胆、珊瑚、海星、水螅、牡蛎、潜水员、章鱼、海龟和 jellyfish。Faster R-CNN，Cascade R-CNN，RetinaNet，FCOS，ATSS，TOOD 和 SSD 等在原始RUOD数据集上进行训练并在相同领域进行测试的实验结果见附录A。

水下图像增强算法。为了验证水下图像增强对目标检测的影响，作者选择了13种水下图像增强算法。为了全面讨论不同水下图像增强算法的优缺点，作者选择了包括传统方法（包括经典的物理自由基（直方图均衡化（HE），自适应直方图均衡化（CLAHE），白平衡（WB），和ACDC）和典型的物理模型基（UDCP，DMIL-HDP，和ULAP）以及最近基于深度学习的方法（包括基于CNN的方法（UWCNN（类型3），DUIENet，CHE-GLNet，UIEC'2Net，UColor，和SGUIE），和基于GAN的方法（WaterGAN，UGAN，TUDA，TOPAL，和TACL）。作者运行这些水下图像增强算法的源代码以产生相应的结果。

目标检测器。作者选择了7种基于深度学习的检测器，包括两阶段的检测器（Faster R-CNN和Cascade R-CNN）和一阶段的检测器（SSD，RetinaNet，FCOS，ATSS和TOOD）。每个检测器分别使用14个域数据集（原始数据集和13个增强数据集）进行训练。请注意，每个检测器的训练和评估基于相同的数据域。为了减少随机性引起的波动，作者将种子设置为0。

关于训练细节，所有检测器都使用相同的SGD优化器，具有0.9的动量和的权重衰减。关于数据增强，除了SSD外，所有检测器都将输入图像缩小到较短的一侧为800，而较长的一侧保持小于1333，并使用水平翻转（概率为0.5）。在测试时间，作者将输入图像按照训练阶段的方式进行缩放（即，将较短的一侧缩放到800，而较长的一侧保持小于1333）。SSD的数据增强与原始论文一致，并且需要强调的是，作者在训练和测试时间将图像缩放到300。作者使用MMDetection2作为检测器框架，并使用8个Nvidia GTX 1080Ti GPU。其他检测器设置如表I所示。

评估指标。对于水下图像增强，由于相应的地面真实图像（清晰图像）难以获得，作者使用8个常用的无参考图像质量评估指标，包括平均梯度（AG），边缘强度（EI），信息熵（IE），水下图像质量度量（UIQM），和水上图像颜色质量评估指标（UCIQE）来量化不同水下图像增强算法的性能。图像的AG得分越高，表示图像的细节级别越高，增强后的图像清晰度越好。IE得分越高，表示图像包含的信息越多。EI得分越高，表示图像中包含的边缘和纹理信息越多，从而表示图像的质量越高。

UCIQE通过颜色密度、饱和度和对比度来评估水下图像质量。UIQM是水上图像的综合评估指数，是水下图像颜色丰富度度量（UICM）、水上图像清晰度度量（UISM）和水上图像对比度度量的加权和：。作者默认为，和。每个指标的得分越高，表示结果具有更好的颜色丰富度、清晰度和对比度。增强指标都基于原始图像大小进行计算，没有进行缩放操作。

水下目标检测的性能由常用的COCO平均精度（AP）衡量。具体来说，AP是针对多个IoU值（0.5:0.05:0.95）的平均值。此外，为了便于观察和分析，作者在本文的表格中添加了每个指标的排名，并提供了所有指标的排名统计的平均排名。

Analysis of the Enhanced Results

定性评估。作者根据图像的外观，将URPC2020中的水下图像分为五类：浅绿色图像、蓝绿色图像、深绿色图像、暗绿色图像和低对比度图像。不同水下图像增强算法的增强结果如图2所示。

picture.image

由于光的传播特性，在大多数情况下，水中的红光首先消失，然后是绿光，最后是蓝光。这种选择性衰减导致水下图像呈现出绿色和蓝绿色，如图2(a)中的原始水下图像所示。颜色偏差严重影响水下图像的视觉质量。

对于前三个类别的水下图像，由于颜色校正方法不准确，HE，UDCP，和 DMIL-HDP引入了红紫色或紫色的颜色偏差。CLAHE，ULAP，和 SGUIE对绿色水下图像的增强效果不明显，而 UWCNN加剧了黄色图像的颜色失真。WB和 ACDC可以成功地去除颜色偏差，但 WB 导致低对比度问题，而 ACDC 带来低饱和度问题。DUIENet，CHE-GLNet，UIEC'2Net，TUDA，TOPAL，TACL，和 UColor 对水下图像的去除效果良好，视觉质量最好。WaterGAN和 UGAN 存在颜色块问题，且图像边缘细节较差。

对于图2(a)最后一行所示的雾气水下图像，HE，CLAHE，ACDC，UDCP，DMIL-HDP，WaterGAN，UGAN，TUDA，TOPAL，TACL，DUIENet，CHE-GLNet，UIEC'2Net，UColor，和 SGUIE 显著减小了雾气对水下图像的影响，而 WB 存在低对比度问题。ULAP 和 UWCNN 引入了红紫色颜色偏差。

定量评估。表II报告了不同水下图像增强算法在水下目标检测数据集上的平均定量分数。HE获得了最高的AG，EI，IE，UIQM，和 UICM值，其次是UCIQE值，并列第三好的UISM和UIConM值，在客观评估指标中获得了最佳排名。

picture.image

同时，DMIL-HDP获得了最高的UCIQE和第二好的AG，EI，IE，UIQM，UICM和UIConM值，在定量得分中获得了第二好的排名。TUDA和TACL分别获得了最高的UIConM和UISM值。与定性分析相比，作者得到了与[63]相似的结论，即“定量分数不一定总是与人类视觉感知到的图像质量一致，这表明当前图像质量评估指标与水下图像的视觉质量之间存在差距。”

Analysis of the Underwater Object Detection Results

定量分析。获得不同增强算法增强的水下目标检测图像后，作者分别对不同的检测器进行训练，并在相同的对应图像（相同域）上进行测试。不同检测器的不同域的检测结果如表III所示。

picture.image

作者观察到以下几点：

令人惊讶的是，在原始域上训练的所有检测器都比在其他域上训练的检测器实现了最高的AP值。
对于两阶段检测器（Faster R-CNN和 Cascade R-CNN），在ULAP域上训练的检测器在与其他域上训练的原始域两阶段检测器相比，分别实现了第二好的AP值，降低了0.4%和0.2%。
在SGUIE，TOPAL， CLAHE， WB和 UIEC'2Net域上训练的检测器也获得了令人满意的性能。
相比之下，在HE， WaterGAN， UGAN， TUDA和 TACL域上训练的检测器性能急剧下降，Faster R-CNN上的AP值只有41.1%，Cascade R-CNN上的AP值只有41.0%，分别比最高AP值43.5%和44.3%降低了2.2个百分点和3.3个百分点。
对于单阶段检测器，整体现象与两阶段检测器相似。原始域的检测器也可以实现最高的AP值。在CLAHE，WB， TOPAL和 SGUIE域上训练的检测器也可以实现更高的AP值。此外，在GAN基础增强方法上训练的检测器，如UGAN， TUDA和 TACL的性能也急剧下降。
CNN基础增强域的检测器仅略逊于CLAHE，ULAP和 TOPAL域的检测器，平均排名在中上部（从3到8），而除了TOPAL外，GAN基础增强域的检测器都不是理想的，排名在底部。

为了验证是否具有更强特征提取能力或更长的训练周期的Backbone可以减少水下图像增强对目标检测的负面影响，作者对Faster R-CNN进行了进一步的两项互补实验：一是用更强的Backbone（ResNet-101和ResNet-101）替换ResNet-50；二是将训练周期增加到2倍（24个周期）。结果如表IV所示。

picture.image

作者还发现，原始域的检测器实现了最佳性能，这进一步验证了水下图像增强抑制了目标检测性能。SGUIE和ULAP域的检测器分别获得了第二和第三好的性能。与原始域检测器相比，它们的性能降低了约0.4。随着检测器Backbone的增强，增强域和原始域检测器之间的差距逐渐增大。接下来是WB，CLAHE，UIECNet和UColor域的检测器，它们也获得了更好的性能。

相比之下，UGAN，TUDA，WaterGAN，TACL，HE和DMIL-HDP域的检测器严重退化。与增强域检测器相比，Backbone的改进使得原始域检测器的AP值增加更为显著。此外，2倍训练周期出现了过拟合问题，其AP值低于相应的一倍训练周期检测器。

picture.image

为了更好地展示差异，作者将表III和IV的结果作为线图，分别如图3(a)和(b)所示。如图3(a)所示，在原始数据集上，TOD实现了最佳结果，随后是ATSS和Cascade R-CNN。除了FCOS外，其他检测器遵循相似的趋势，即检测器的AP值与相应的增强算法相关。

总之，可以可视化地看到每个原始域的检测器性能都高于其他增强域的检测器。图3(b)中也存在类似的结论，其中原始域Faster R-CNN（BackboneResNeXt-101(644d)）实现了最佳性能，其次是具有ResNext-101(324d)，ResNet-101，和ResNet-50的Backbone。线图进一步显示，不同Backbone和训练计划的检测器在所有域中具有相同的变化趋势，即每个在原始域上训练的检测器都实现了最佳性能。

此外，在ULAP，TOPAL，SGUIE，和UDCP域上训练的检测器也表现良好。相比之下，在ACDC，HE，和DMILHDP域上训练的检测器获得低AP值。此外，在UGAN域上训练的检测器表现最差。因此，作者得出初步结论：

水下图像增强抑制了目标检测性能，
网络Backbone提取能力的提高不能减少水下图像增强对目标检测性能的负面影响。

TIDE (Toolbox for Identifying Object Detection Errors) 是一个框架和相关的工具箱，用于分析对象检测方法中的错误来源。TIDE将错误分为六类，包括：

分类错误()，表示局部正确但分类错误；
定位错误()，表示分类正确但定位错误；
两者分类和定位都错误()，表示分类和定位都错误；
重复检测错误()，表示真实目标有另一个得分更高的检测边界框匹配；
背景错误()，表示检测到的背景被误认为是对象；
未检测到的真实目标错误()，表示所有未检测到的真实目标（假阴性）未被分类或定位错误所覆盖。

同时，TIDE还提供了两种特殊的错误类型（假阳性错误()和假阴性错误()）。

为了更好地回答问题：“水下图像增强如何有助于目标检测？”作者使用TIDE进行错误分析，研究不同水下图像增强算法如何影响目标检测。表V呈现了不同Backbone和训练计划的Faster R-CNN、RetinaNet、Cascade R-CNN、FCOS、ATSS、TOD和SSD的错误分数。作者首先全面比较不同检测器之间的错误。

作者发现，ATSS和TOD的分类、定位和未检测到的真实目标错误低于其他检测器，而背景错误高于两阶段检测器（Faster R-CNN和Cascade R-CNN）。所有检测器中的两者分类和定位错误和重复检测错误差异不大。同时，随着检测器Backbone的增强，背景错误变得较小。

此外，原始域Faster R-CNN的分类错误和定位错误高于大多数域检测器。然而，在RetinaNet中，原始域检测器具有第二低的分类错误和第三低的定位错误。每个检测器中的两者错误百分比最小，波动可以忽略不计。背景错误和未检测到的真实目标错误对AP值影响最大。

随着背景错误或未检测到的真实目标错误的增加，AP值降低。例如，UGAN域检测器（包括Faster R-CNN、RetinaNet、Cascade R-CNN、ATSS、TOD和SSD）具有最高的背景和未检测到的真实目标错误，并实现最低的检测性能。这种现象说明水下图像增强显著增加了检测器将背景检测为前景或无法完全检测准确物体的概率。

另一个例子是，原始域Faster R-CNN的背景错误和未检测到的真实目标错误分别为5.27和5.67，而ULAP域检测为5.50和5.53，分别具有较低的未检测到的真实目标错误，意味着ULAP可以减少误检的概率。然而，ULAP中其他错误高于原始域。因此，ULAP域检测器的AP值低于原始域。同时，作者发现大多数原始域检测器在两个特殊错误类型（FP错误和FN错误）上的错误值最低。

不同检测器的错误率分布各异。在水下目标检测数据集中，水下图像增强可能降低两阶段检测器的定位错误和分类错误，但可能增加一阶段检测器的两种错误。一般来说，背景错误和未检测到的真实目标错误对目标检测性能影响最大。作者认为这与作者使用的实验中水下目标检测数据集的复杂背景有关。例如，海葵、海胆和牡蛎等类别类似于海底或海底岩石。由于增强可能引入额外的噪声和干扰，使背景类似于检测到的类别，这将带来更多的干扰。例如，海底通常在增强后变为黑白，而检测数据集中的海葵、海胆和牡蛎也是白色或黑色。这种干扰会增加背景和未检测到的真实目标错误，从而降低整体检测性能。因此，为了提高水下目标检测性能，需要考虑水下图像增强算法的设计，尤其是如何减少背景引起的干扰。

定性分析。视觉检测结果的样本如图4所示。如图4(b)所示，原始图像的推理结果几乎与GT框相同。UDCP域的检测器也检测到了所有对象。然而，其他增强域的检测器要么漏检物体，要么错误地将背景分类为类别。如图4的第一行所示，除了原始和UDCP域外，其他增强域的检测器在图像底部无法检测到海胆，而CLAHE，TUDA，和SGUIE域的检测器错误地将背景分类为海葵。

picture.image

与FCOS（图4的第四行）类似，HE，ACDC，ULAP，WaterGAN，UGAN，TOPAL，TACL，UWCNN，UColor，和SGUIE域的检测器无法检测到所有对象，尤其是TUDA域的检测器在图像中没有检测到任何内容。此外，WB，WaterGAN，TOPAL，和SGUIE域的检测器将背景分类为类别。从视觉检测结果的样本中，作者可以初步发现，当背景接口较少且物体简单时，所有域的检测器都能正确检测到物体。然而，当物体的背景相对复杂时，容易遇到漏检或误检的问题。这个观察结果与TIDE分析得出的结论一致。

picture.image

为了更有说服力，作者在图5中分析了精确度-召回曲线，其中作者展示了Faster R-CNN、RetinaNet、Cascade R-CNN、FCOS、ATSS、TOD和SSD在不同Backbone和训练计划下的精确度-召回曲线。对于精确度-召回曲线，作者有两个重要的观察结果：

高精度部分包含高置信度的检测结果，并且曲线高度重叠。也就是说，当置信分数较高时，每个检测器的性能几乎相同。例如，当Faster R-CNN的不同Backbone的召回率小于0.4时，原始域和增强域检测器的性能相似。(当召回率小于0.2、0.3和0.4时，RetinaNet、ATSS和TOD的情况类似)。
如图5所示，最终召回率之间的差异并不明显，而在0.6和0.9之间的召回率差异较大。例如，当Faster R-CNN的召回率在0.6和0.8之间时，其精度显著高于其他检测器；在ATSS的召回率在0.7到0.9之间时，也存在类似的情况。这表明水下图像增强的影响主要集中在置信度为中低水平的推断边界框，而在置信度非常低水平的边界框中消失。

因此，作者初步得出结论：增强将抑制探测器检测水下目标检测数据集中难以识别的样本。

picture.image

此外，作者在图6中可视化了几个类激活映射（CAM）。作者选择ResNet-50 的第三个模块的输出特征图并将其映射回输入图像。颜色的兴趣区域从最感兴趣到最不感兴趣的变化从红色到蓝色。如所示，每个域检测器提取的感兴趣区域基本上相同。作者推测导致不同结果的因素（有些物体在某些检测器中无法检测）主要是激活分数的微小差异。例如，每个域检测器对第三行图像的右上角区域的激活分数有不同的激活分数，导致一些检测器错误地将背景视为对象。

另一个例子是，从UGAN域检测器获得的第二行图像上，右上角区域的激活分数分布与其他域检测器显著不同，导致UGAN域检测器在该区域无法检测到对象。这最有可能是因为增强破坏了物体的原始特征。因此，作者进一步验证了上述发现，提供了证据：对于易于检测的案例，所有域检测器都可以轻松地检测到它们，而对于难以检测的案例，增强所引起的干扰将导致特征提取的波动并降低检测器的性能。

图像增强与检测之间的关系研究。除了原始域检测器外，作者发现CLAHE，ULAP和SGUIE域检测器也取得了良好的性能，但是CLAHE和ULAP的定性结果并不好，因为它们没有恢复水下颜色偏差。同时，HE，DMIL-HDP，和TACL域图像获得了更高的定量分数，但它们在检测器上的性能较差。这些结果表明：

颜色偏差不是影响目标检测的核心干扰；
基于良好的人眼视觉感知增强可能并不利于检测器；
当前的客观水下图像增强评估指标无法反映后续目标检测的性能。

此外，UGAN，WaterGAN和TUDA域检测器的性能最差。如图2和5所示，由WaterGAN处理的水下图像引入了噪声，将绿色域转换为多个颜色域，如蓝绿色、黄色和紫红色。

此外，UGAN和TUDA的增强结果受到不清晰边缘和模糊的影响。此外，UGAN还引入了颜色块。由UWCNN和UColor处理的图像也受到将绿色域转换为黄色或红色域的问题的影响。相比之下，其他CNN基础增强（DUIENet，CHE-GLNet，UIEC'2Net）域检测器的性能与原始域检测器差异不大，这可能是因为这些增强算法没有引入其他颜色偏差。由HE和DMIL-HDP处理的结果也会引入噪声，尤其是红噪声，导致在其域检测器上的性能更差。与HE和DMIL-HDP相比，WB和ACDC可以成功去除颜色偏差，但WB带来低对比度问题，ACDC带来低饱和度问题。

然而，WB域检测器在性能上优于ACDC域检测器。作者可以从这一点推断出：

边缘可以严重影响检测器性能，因此增强算法需要保留图像的边缘信息；
由水下图像增强引入的颜色偏差可能会导致域的不连续性，从而降低检测器性能；
噪声可以降低检测器性能，这表明在增强水下图像时应避免引入额外的噪声；
对比度对目标检测的影响较小，但颜色丰富度和饱和度会影响检测器。

IV Discussion and Conclusion

在本文中，作者进行实证研究，以探究水下图像增强对水下目标检测的影响。作者选择了18种经典和最近的水下图像增强算法来预处理水下目标检测数据集，并将增强后的数据应用于重新训练7种基于深度学习的检测器。通过上述实验，作者获得了几个有趣的观察结果和见解：

水下图像增强的一个最显著的发现是，水下图像增强抑制了目标检测的性能。尤其是，它抑制了检测器检测硬案例的能力，因为图像增强可能会增加背景的干扰。
通过改变检测器Backbone和训练计划，作者进一步发现，提高网络特征提取能力并不能减少水下图像增强对水下目标检测的负面影响。
尽管水下图像增强可以解决水下图像的降质问题，并获得具有更好视觉感知的图像，但它也会引入其他质量降质问题，这些降质问题会对水下目标检测产生影响。
水下颜色偏差并不是影响目标检测的核心干扰，但是增强引入的多种颜色会影响检测器的性能。
水下图像增强可能会引入噪声干扰、边缘模糊和纹理破坏问题，这些问题严重损害了检测器的性能。
过度处理图像属性（对比度、饱和度和颜色丰富度）也可能导致检测器性能下降，其中饱和度和颜色问题是最影响检测器性能的因素。
实验表明现有水下图像质量评估指标存在局限性，不仅与人类视觉感知存在差距，而且无法直接代表后续高级任务的性能。

这些发现可以推广到雾气图像、运动模糊图像、低分辨率图像和高质量图像的目标检测。因此，作者为未来的研究方向提供了展望：

对于图像增强，增强算法应该具有更好的泛化能力，以避免引入其他颜色偏差和噪声，并应故意实现图像增强，例如减少背景引起的干扰。
对于增强评价指标，它应该不仅考虑人类视觉的视觉特性，还要满足机器提取的图像特征的要求。
对于低质量图像目标检测，它应该设计为提高检测器的性能，并结合图像增强的优势，例如同时应用图像增强和目标检测。作者将继续探索如何设计任务导向的降质图像增强和评价指标，以及降质图像增强和目标检测的联合应用的未来。

附录

Appendix A Experimental Results on RUOD Dataset

作者分别对检测器进行训练，并使用相同的对应图像（相同域）进行测试。实验设置与URPC2020相同，可以在III-A部分找到。RUOD数据集上不同域的检测器结果如图7所示，并显示在表VI中。

picture.image

实验结果与III-C节中的发现相似，特别是，所有在原始域上进行重新训练的检测器可以获得最高的AP值，高于在其他域上进行重新训练的检测器。

picture.image

此外，所有检测器遵循相似的趋势，TOD实现最佳结果，随后是ATSS和Cascade R-CNN，除SGUIE外，不同增强域的检测器排名与URPC2020实验结果相似。CNN基础增强域的检测器，包括CHE-GLNet，UIECNet，DUIENet和UColor实现更好的性能，CLAHE，WB和ULAP也可以获得高AP值。

相比之下，在HE，DMIL-HDP，TUDA和UWCNN域上进行重新训练的检测器性能急剧下降。因此，作者也得出结论：水下图像增强抑制了RUOD数据集上的目标检测性能。

B Supplementary Analysis of PR Curves on URPC2020

为了进一步分析“水下图像增强如何有助于水下目标检测？”，作者在图8中展示了Faster R-CNN具有不同Backbone和训练计划时的PR曲线，在图9中展示了具有IoU阈值为0.75时的4个类别（海胆、海葵、牡蛎和海星）的PR曲线。

picture.image

根据图8，作者进一步观察到，与IoU阈值为0.5相比，最终召回率之间的差异明显，曲线在开始时就会分离。这表明，在计算True Positive（TP）时，定位要求变得更加严格，不同域检测器的性能显著不同。

picture.image

例如，当召回率在0.2和0.6之间时，Faster R-CNN的精度明显高于其他检测器，类似的情况也存在于ATSS。此外，如图9所示，观察结果与图5相似。即，高精度部分包含高置信度的检测结果，曲线高度重叠。也就是说，当置信分数较高时，每个检测器的性能几乎相同。例如，当"echinus"类别的召回率小于0.6时，原始域和增强域检测器具有类似性能。(当召回率小于0.2和0.6时，海胆和海星的PR曲线也分别类似)。作者还观察到，不同类别之间的PR曲线差异。例如，"echinus"的PR曲线具有更高的重叠度，而"holothurian"的差异更大，表明不同类别之间的识别难度存在差异。

参考

[1]. Is Underwater Image Enhancement All Object Detectors Need?

picture.image

点击上方卡片，关注「AI视界引擎」公众号