点击下方卡片,关注「集智书童」公众号
导读
大多数视觉模型都是针对sRGB图像设计的,然而RAW数据在保留ISP处理前的传感器信息方面提供了显著优势,这通过绕过ISP提高了检测精度和更高效的硬件设计。然而,由于训练数据有限、像素分布不均衡和传感器噪声,RAW目标检测具有挑战性。
为了解决这个问题,作者提出了SimROD,一种轻量级且有效的RAW目标检测方法。作者引入了一个全局伽马增强(GGE)模块,该模块仅使用四个参数应用可学习的全局伽马变换,在保持模型效率的同时提高了特征表示。此外,作者利用绿色通道更丰富的信号来增强局部细节,这与人眼敏感性和拜耳滤波器设计相一致。
在多个RAW目标检测数据集和检测器上的大量实验表明,SimRoD在效率上优于像RAW-Adapter和DIAP这样的最先进方法。作者的工作突出了RAW数据在现实世界目标检测中的潜力,并在发表后作者将发布代码。
- 引言
准确的目标检测对于自动驾驶至关重要,尤其是在具有挑战性的光照和天气条件下。依赖于sRGB图像的传统方法在处理过程中通常会丢失重要的细节。相比之下,原始传感器数据能够捕捉传感器未经处理的、更丰富的信号,从而保留更多细节和更宽的动态范围[7, 8, 22, 38]。此外,如图1a所示,通过直接使用原始数据,无需ISP模块,这可以降低系统复杂性、降低延迟并削减成本——这对于轻量级、实时应用来说是关键优势。
然而,处理原始数据引入了多个挑战,包括有限的训练样本、不均衡的像素分布和传感器噪声。当前的方法通常依赖于复杂的框架,这些框架将图像信号处理(ISP)阶段的端到端优化与目标检测模型相结合。这些方法明确设计可学习的ISP阶段以转换原始数据[22, 23, 38, 41]。虽然这些方法展示了有希望的结果,但它们往往计算成本高昂,并引入了不必要的复杂设计。此外,现代相机在拜耳滤波器设计中强调绿色通道[1, 46],因为人眼在明亮和低光条件下对绿光都极为敏感[32]。然而,大多数现有方法对RGB通道同等对待,忽略了绿色通道在原始数据中的独特优势。
在本工作中,作者提出了SimROD,这是一种简单而有效的提升RAW目标检测性能的方法,同时保持模型简洁。SimROD基于两个关键洞察:(1)学习一个适应性的全局变换可能并不复杂,但对于细粒度任务至关重要[4, 38],(2)在RGGB Bayer图案中,绿色通道(图1b)具有优越的信息量。通过利用这些洞察,作者引入了一种高效的具有仅四个可学习参数的全局伽马增强(GGE),显著降低了模型复杂度,同时实现了与更复杂方法相当的性能。作者还提出了一种绿色引导局部增强(GGLE)模块,该模块使用绿色通道来细化局部图像细节,进一步提升了检测精度。
通过大量实验,作者证明了SimROD在多个标准RAW目标检测基准上优于现有方法,例如RAWAdapter [8]和DIAP [38]。例如,在PascalRaw [26]基准测试中,遵循RAW-Adapter [8]的设置,作者在不同的目标检测器和Pascal-Raw [26]的不同设置中实现了一致的性能提升。此外,作者通过利用在MS COCO [19]上预训练的权重,为DIAP [38]创建了一个强大的 Baseline ,将其在ROD数据集 [38]上的mAP从24.0%提升到30.7%。与这个强大的 Baseline 相比,SimROD也实现了显著的改进。
总结而言,本工作的主要贡献如下:
- • 作者引入了SimROD,这是一种简单而有效的全局到局部增强的RAW目标检测方法。
- • 受人类视觉系统敏感性和相机设计启发,作者证实了绿色通道的信息量,并开发了一个绿色引导局部增强模块以细化局部细节并提升检测性能。
- • 尽管其简单性,SimROD在ROD、LOD和Pascal-Raw数据集上实现了最先进的性能,超越了如RAW-Adapter和DIAP等先前方法。
- 动机
人眼视觉系统在明亮和昏暗条件下对绿光波长的敏感性都很显著,如[32]所示。由于人眼的这一特性,相机在拜耳滤波器设计中优先考虑绿色通道[1, 46]。受这一生物和技术的先例启发,作者通过分析单个通道的通道敏感度和信噪比(SNR)来探索绿色通道在目标检测中的有效性。
- • 通道敏感性分析。作者利用DIAP [38]在LOD [15]数据集上独立评估了每个通道(绿色、红色和蓝色)的检测性能。如图2左侧所示,绿色通道实现了最高的检测准确率,比红色和蓝色通道分别高出显著的差距(大约10和20个AP点),突显了其在原始数据中目标检测方面的优越信息量。
- • 信噪比(SNR)分析。如图2右侧所示,绿色通道相对于红色和蓝色通道始终表现出更高的信噪比,这表明它在挑战性光照条件下对噪声的敏感性更低。这种鲁棒性强化了利用绿色通道引导来提高极端环境下目标检测精度的有效性。
这些发现强调了绿色通道在提高检测可靠性方面的潜力,尤其是在复杂环境中。受其信息丰富性的启发,作者研究了一种简单而有效的方法,以充分利用绿色通道的优势,从而提升模型性能。
- 方法
该方法的整体框架如图3所示。RAW图像是一种未经处理的数字照片,它保留了来自相机传感器的所有数据,包括RGGB颜色模式。给定一个RAW图像
,作者将它重新打包并转换为四通道图像
,其中最后一个维度表示RGGB模式中的颜色通道。
首先,作者使用提出的全局伽马增强(GGE)模块调整
的全局像素分布,该模块为每个通道学习伽马变换,得到
。然后,将
输入到提出的绿色引导局部增强(GGLE)模块进行局部区域增强,生成增强图像
。最后,将
输入到下游任务模型。
3.1 全局伽马增强
在涉及原始传感器数据的视觉感知任务中,像素值通常集中在低值范围,这使得深度神经网络难以有效学习和提取有用特征[38]。因此,动态范围调整是图像信号处理流程中的关键步骤,用于为目标检测准备原始数据[4, 38]。
为了解决这一问题,作者提出了一种简单而有效的模块,命名为全局伽马增强(GGE)。对于一个四通道打包的原始图像
,其像素值归一化到范围
,作者为每个通道分配一个可学习的伽马参数。对于第
个通道,伽马变换定义为:
其中
只是一个可学习的参数。每个通道通过一个缩放到范围 [0, 255] 的伽马变换
进行调整,计算公式如下:
讨论 与文献[38]中最近SimROD相比,该方法预测图像级RAW数据调整的参数,作者提出的GGE仅包含四个参数,因此网络仅由最小数量的参数组成。这导致在实现与[38](第4.4节)相当或更优性能的同时,具有更高的计算效率。值得注意的是,作者观察到,即使使用完全随机的噪声图像作为输入,图像级调整[38]模块预测的伽马参数也基本保持不变。
3.2 绿色引导的局部增强
绿色引导局部增强(GGLE)模块旨在通过利用RAW数据中绿色通道普遍存在的高频细节来提升特征表示。具体来说,GGLE独立处理这些绿色通道,同时结合完整的RGGB数据,生成针对下游任务如目标检测等优化的输出。
如图3所示,GGLE由两个主要分支组成。第一个分支,即RGGB分支,使用卷积神经网络
处理完整的RGGB数据
,该网络从所有通道中提取空间特征,生成一个特征图
,代表整个图像的上下文。第二个分支,即绿色分支,专门针对两个绿色通道
和
,这两个通道被连接并通过另一个卷积网络
进行处理,从而生成一个聚焦于绿色的特征图
,其中
。最终输出通过多级融合
和
生成,表示为:
此处,Conv代表卷积,而Concat表示特征拼接。得到的输出
是一个三通道表示,它整合了RGB光谱中绿色通道的结构细节,从而提高了在需要高空间分辨率的任务(如目标检测和分割)中的性能。
3.3 实施细节
在全局伽马增强(GGE)模块中,每个
都以简单的方式参数化。对于每个
,作者定义一个可学习的参数
,该参数通过tanh激活函数限制在范围
内。然后,该输出被线性缩放,使其位于预定义的范围
内,其中
和
是超参数。遵循[38]中的设置,作者默认将
设置为
,将
设置为
。对于过曝光数据集 ADE20k-Raw [8] 和 PascalRAW [8],将
设置为
,以促进过曝光图像的恢复。
对于Green-Guided Local Enhancement(绿色引导局部增强,简称GGLE)模块,分别用于RGGB和绿色分支的
和
都采用了简单而有效的架构,包括卷积层、批量归一化[16]和LeakyReLU激活函数。总的来说,GGE和GGLE总共只有0.003百万个参数,这使得这些模块相对于之前的方法来说非常轻量。相比之下,先前的方法通常需要数百倍于此的参数,而SimROD却实现了更优的性能。
损失函数
作者的SimROD是一个端到端框架,它联合优化GGE和GGLE模块以及下游模型,从而消除了对这些增强阶段需要额外损失函数的需求。此外,作者采用了与原始工作中使用相同的损失函数[20, 36, 43]。例如,当使用YoloX[43]作为检测器时,优化仅依赖于标准的检测损失,该损失包括分类和回归组件。总损失函数定义为:
总
损
失
函
数
分
类
损
失
正
则
化
损
失
其中
是检测器在分类损失
和回归损失
之间的默认平衡因子,在 YoloX [43] 中
。这种统一方法允许增强模块自然地适应检测目标,支持整个框架的端到端优化。
- 实验
4.1 数据集与评估指标
作者将在四个基准数据集上评估和比较SimROD与现有方法的性能:Pascal-Raw [26]、LOD [15] 和 ROD [38] 用于目标检测,以及 ADE20K-Raw [8] 用于语义分割。
Pascal-Raw [26]。Pascal-Raw数据集[26]包含4,259张在标准光照条件下使用尼康D3200单反相机拍摄的RAW图像,涵盖了三个物体类别:行人、汽车和自行车。数据集分为2,129张用于训练和2,130张用于测试,具体划分方式由[26]定义。在作者的实验中,作者使用了RAW-Adapter [8]提供的预处理RAW数据。此外,作者还评估了由RAW-Adapter [8]使用InvISP [37]生成的Pascal-Raw [26]的Over-exp和Dark版本,分别包含具有挑战性的过曝和暗场景。
LOD [15]。LOD数据集[15]包含2,230张在低光条件下使用佳能EOS 5D Mark IV相机拍摄的RAW图像,涵盖了八个目标类别:公交车、椅子、电视显示器、自行车、瓶子、餐桌、摩托车和汽车。该数据集分为1,800张用于训练和430张用于测试。在所有实验中,作者使用RAW-Adapter [8]提供的预处理RAW数据,以确保与RAW-Adapter的公平比较。
ROD [38]。原始ROD数据集[38]包含25,207张RAW图像,包括10,000Ω白天场景和14,000Ω夜间场景,涵盖六个常见的物体类别。与其他数据集相比,ROD是一个更大规模的数据集,场景种类更加丰富,专注于城市驾驶场景。由于数据集访问的限制,作者无法遵循ROD[38]定义的“标准”划分协议。尽管作者多次尝试获取完整数据集,但只有训练数据的一个子集被公开发布。这个子集包括16,089张RAW图像,包括4,053张白天场景和12,036张夜间场景,但它只包含五个物体类别,而不是[38]中最初指定的六个类别。为确保公平评估,作者将公开可用的子集随机划分为80%用于训练和20%用于测试。这种划分导致训练集中有3,245张白天场景和9,626张夜间场景,剩余的图像保留用于测试。本文中所有关于ROD数据集的提及均特指这个重新划分的子集。作者将使这个子集公开可用,以方便结果的重新实现。
ADE20K-Raw [8]。ADE20K-RAW数据集 [8] 是由 ADE20K [44] 衍生而来的 RAW 格式分割数据集,包含由 RAW-Adapter [8] 通过 InvISP [37] 合成的 27,574 张图像。该数据集包括三个版本——正常、暗和过曝——以模拟不同的光照条件。该数据集遵循 ADE20K [44] 定义的相同训练和测试分割,以确保一致性。
评估指标。对于目标检测,作者报告在IoU阈值为0.5时的标准平均精度(AP
)以及从0.5到0.95的IoU阈值范围内的平均精度(AP)。对于语义分割,作者使用平均交并比(mIoU),该指标衡量预测 Mask 与真实 Mask 在所有类别中的平均重叠度。
4.2 训练细节
对于检测任务,作者遵循DIAP [38]和RAW-Adapter [8]的协议,使用两个目标检测器:YoloX [43]和RetinaNet [20]进行实验。
对于YoloX [43],作者采用了官方的训练策略,包括标准的数据增强技术,如随机水平翻转、通过调整大小进行尺度抖动以及Mosaic增强 [2]。训练和测试数据均调整至
。模型训练300个epoch,其中前五个epoch为预热期,使用动量因子为0.9的SGD优化器。作者采用余弦学习率调度策略,并使用12个样本的批次大小。PascalRaw [26]和LOD [15]的训练过程在三个NVIDIA RTX 3090 GPU上耗时2小时。ROD [38]的训练过程在三个NVIDIA RTX 4090 GPU上耗时10小时。对于初始化,作者使用COCO [19]预训练权重,与原DIAP [38]SimROD相比,将AP从24.0%提升至30.7%,构建了一个强大的 Baseline 。
对于RetinaNet [20]检测器,作者使用了MMDetection框架及其默认的数据增强流程,该流程包括随机裁剪、随机翻转和多尺度测试 [8]。作者将所提SimROD的学习率设置为3e-3。
对于分割任务,作者遵循了RAW-Adapter [8]的设置,并使用了Segformer [36]与MITB5 [36]作为 Backbone 网络。作者在四块NVIDIA RTX 4090 GPU上训练了模型,并针对所SimROD进行了经验性的学习率调整:Pascal-Raw [8]的正常光照数据集使用8e-5,PascalRaw [8]的暗数据集使用7e-5,过曝光数据集使用9e-5。
4.3 与现有方法的比较
在 Pascal-Raw [26]、LOD [15] 和 ROD [38] 数据集上进行的原始目标检测。表1 和表2 显示,作者提出的 SimROD 在所有数据集上均一致优于现有方法,同时效率极高。为确保与 RAW-Adapter [8] 和 DIAP [38] 进行公平比较,作者严格遵循它们的官方设置,使用 YoloX-Tiny [43] 和 RetinaNet-R50 [20]。对于 YoloX-Tiny(表1),SimROD 在 ROD 上实现了显著的 AP 提升了
,在 LOD 上提升了
,在 Pascal-Raw 上提升了
,仅比 DIAP [38] 多出 0.003M 个参数。
对于 RetinaNet-R50(表2),SimROD 在 LOD 上达到了令人印象深刻的
,超过了 RAW-Adapter [8] 和 DIAP [38],同时所需的额外参数仅为 RAW-Adapter 的
。这些结果突显了 SimROD 强大的泛化能力、优越的准确性和卓越的参数效率,使其成为原始目标检测的高效解决方案。
在ADE20K-Raw [8, 44]上进行的语义分割及原始数据。为进一步验证SimROD的有效性,作者采用RAW-Adapter [8]中的Segformer [36]在ADE20KRaw上进行语义分割评估。如表3所示,SimROD在正常和低光条件下实现了最佳性能,在过曝条件下也取得了具有竞争力的性能,展现出强大的泛化能力。尽管仅增加了0.003M个参数,它仍然保持了高度效率并提供了更高的准确度。这些结果强化了作者的目标检测发现,证明了SimROD在原始数据处理中的多功能性。其潜力不仅限于检测,还可应用于更广泛的视觉任务。
4.4 分析与讨论
本节中所有实验均遵循DIAP [38]的设置,除非另有说明。
消融研究。表4展示了使用YoloXTiny [43]在LOD [15]和Pascal-Raw [26]数据集上进行的消融研究,以评估不同增强模块的影响。当所有四个组件都使用时,取得了最佳的AP和
结果,这表明组合增强对模型性能的积极影响。此外,绿色通道引导优于红色和蓝色引导,表明绿色通道的独特价值。值得注意的是,即使在低光、噪声大且更具挑战性的LOD [15]数据集上,使用红色和蓝色通道引导甚至会导致性能下降。作者还评估了RGGB。作者发现,仅使用绿色通道(GG)的性能优于所有通道的组合(RGGB)。这归因于RGGB中的R和B通道存在显著的噪声,这影响了模型的训练。与单独使用R通道相比,RB通道的较差性能进一步证实了这一点,表明将所有通道作为引导并不一定能带来更好的结果。
GGE与DIAP [38] 对比 [38] 作者在表5中将DIAP [38] 和作者的GGE在ROD [38]、Pascal-Raw [26] 和LOD [15] 数据集上进行了比较。作者的GGE在特定指标上实现了可比较或略有改进的性能,同时减少了参数和GFLOPs,反映了更高效的模型设计。请注意,GGE仅包含四个可学习参数。
绿色通道的采样频率。作者研究了绿色通道的采样频率如何影响RAW目标检测性能(表6)。在作者的实验中,作者将绿色通道输入到DIAP[38]中,并比较了两种策略:基于RGGB模式的默认
采样与降低的
采样(仅使用一个绿色值)。结果显示,降低绿色通道频率会导致性能显著下降,尤其是在低光照LOD数据集上。这证实了绿色通道由于其Bayer模式中的更高频率提供的更密集的空间信息对于稳健性能至关重要。
4.5 可视化
图4展示了DIAP [38]和作者的SimROD在不同场景下的检测结果和通道分布的全面可视化。从这些可视化中可以看出一个明显的模式:与DIAP [38]相比,SimROD在检测结果上始终更为准确和稳定。值得注意的是,增强图像的像素分布更接近正态分布。这一特性有助于神经网络更有效地学习特征,减少异常值的影响,从而提高检测精度。更多可视化内容见补充材料。
- 相关工作
目标检测
目标检测一直是计算机视觉领域的研究热点[10, 19, 35]。早期的工作[11]依赖于手动设计的特征来检测目标。随着深度学习的出现,卷积神经网络(CNNs)彻底改变了目标检测[12, 13, 31]。它们使用CNN从候选区域中提取特征,显著提高了检测精度。单阶段检测器,如YOLO系列[29, 30, 33, 34]和SSD[21],旨在通过直接从整个图像中预测边界框和类别概率来减少推理时间,而不依赖于区域 Proposal 。最近,基于Transformer的方法[5, 45]表明,目标检测可以从注意力机制中受益。
原始数据是图像信号处理器(ISP)的输入[18, 25, 28, 38]。研究行人已经投入了大量努力,利用原始数据来提升检测性能和鲁棒性。Hong等人[15]在合成数据集上设计了一个辅助任务,用于图像重建,以提升检测性能。Onzon等人[27]提出了从前一帧估计相机曝光参数,以实现曝光良好的图像。Morawski等人[22]设计了一个名为GenISP的ISP流水线,该流水线对原始数据应用可学习的白平衡和色彩校正转换。Yoshimura等人[39]将控制分解为整个数据集,并对单个图像进行微调。他们引入了一种潜在更新式控制器来管理可微分ISP的阶段。Xu等人[38]开发了一个图像级调整模块和一个像素级调整模块来学习转换。Chen等人[7]提出了一种激活函数,以有效地从原始数据中提取特征。Cui等人[8]将输入级 Adapter 与模型级 Adapter 相结合,以增强下游任务性能。此外,Yoshimura等人[40]提出了使用噪声考虑的原始数据增强来提升识别性能。尽管取得了这些进展,但这些方法中的大多数通常依赖于模拟专家调优的ISP阶段,导致参数冗余和计算复杂度增加,这可能会对准确性和效率产生不利影响。
基于RAW数据的图像增强
许多研究工作都集中在从RAW数据中增强图像。Brooks等人[3]介绍了一种将sRGB图像转换为合成RAW数据的方法,并训练了一个神经网络模型进行去噪。Zou等人[46]建议将图像分为挑战性和容易处理的区域,并使用双重强度和全局空间引导来从RAW图像中重建图像。Guo等人[14]提出利用绿色通道作为先验,联合执行去马赛克和去噪,展示了绿色通道的独特价值。然而,这些方法依赖于成对的数据集,即使是通过人工合成,也往往导致次优数据,这些数据可能无法直接应用于目标检测任务。
- 结论
在本工作中,作者提出了SimROD,这是一种简单而有效的提升RAW数据目标检测性能的方法。SimROD引入了一种具有四个可学习参数的简化解决方案——全局伽马增强(GGE),在保持低模型复杂度的同时实现了有竞争力的性能。
此外,作者的研究揭示了绿色通道包含更多信息信号,从而开发了绿色引导局部增强(GGLE)模块,该模块有效地增强了局部图像细节。在多个RAW目标检测数据集和检测器以及RAW分割数据集上进行的广泛实验证明了作者SimROD的有效性。
参考
[1]. SimROD: A Simple Baseline for Raw Object Detection with Global and Local Enhancements
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)