点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
合成孔径雷达(SAR)图像分割对于许多遥感应用至关重要,特别是水体检测。然而,基于深度学习的分割模型常面临收敛速度和稳定性方面的挑战,这主要归因于此类数据的复杂统计分布。
本研究评估了模态归一化对两种广泛使用的语义分割模型U-Net和SegNet的影响。
具体而言,作者集成了模态归一化技术,以缩短收敛时间同时保持基准模型性能。实验结果表明,模态归一化显著加速了收敛过程。此外,交叉验证结果指出,归一化模型在不同区域表现出更高的稳定性。
这些发现突显了归一化在提升SAR图像分割计算效率和泛化能力方面的有效性。
unsetunset1 引言unsetunset
洪水监测和水体分割是遥感领域的关键任务,尤其在灾害管理和环境监测中具有重要意义。合成孔径雷达(SAR)图像因其穿透云层及在各种天气条件下工作的能力而被广泛应用,非常适合多种遥感应用。
基于阈值分割或传统机器学习算法(如支持向量机SVM和随机森林RF)的水体分割技术在跨不同SAR数据集时泛化能力不足。近年来,U-Net[1]和SegNet[13]等深度学习方法取得了显著成果,但它们往往对数据集不平衡敏感,在应用于不同区域时缺乏鲁棒性。此外,由于复杂架构和依赖批量归一化(BN)[6],这些模型需要大量训练时间,而BN假设激活值呈单峰分布,这一假设会导致在多峰分布数据集上收敛速度欠佳。
为解决这一局限性,作者提出集成模式归一化(Mode Normalization,MN)[2],该技术能够动态适应多模态数据分布。
与批量归一化(Batch Normalization,BN)不同,MN通过减少异构特征分布造成的不稳定性,使模型能够更快地收敛,从而优化训练过程中的计算效率。通过提升收敛速度,MN有潜力显著减少训练时间,同时保持或甚至提高分割精度。
unsetunset2 相关工作unsetunset
近年来,深度学习架构,特别是U-Net,在水体在合成孔径雷达(SAR)图像分割中的应用取得了显著进展[14]。这些框架利用了针对遥感任务中像素级分类所面临的挑战而设计的卷积神经网络(CNN),特别是在区分水体特征与复杂背景方面。U-Net因其编码器-解码器架构而被广泛用于水体检测,该架构能够在下采样和上采样过程中保留高分辨率的空间信息。Zhang等人[11]开发了一种基于U-Net的自动化方法,用于从高分辨率SAR数据中精确提取海岸线,其精确率和召回率分别达到了0.8和0.9。这突显了U-Net在复杂环境中的有效性[10]。
使用SegNet进行水体分割的研究也得到了强调模型在各种环境下鲁棒性的研究的支持。根据Lv等人[9]的研究,包括SegNet在内的卷积神经网络对于提高SAR图像洪水制图的准确性至关重要,突出了它们在监测动态水文事件中的适用性。这些发现表明,深度学习模型正越来越多地取代传统的阈值法和统计方法,特别是在传统技术难以应对阴影效应和表面变化等复杂场景中。
神经网络的归一化是一种关键的预处理步骤,能够提升训练效率并增强模型的预测性能。归一化通过标准化输入数据来减少诸如内部协变量偏移等问题,这些问题在训练过程中会导致数据分布在不同层之间发生变化。Wang等人[16]指出,归一化技术(如均值和方差缩放)能够显著提升神经网络性能,特别是在事件检测等任务中显著提高了准确率。
批量归一化已成为一种广泛采用的稳定学习过程的技术,通过归一化每一层的输入来实现 [6,7]。该方法不仅加速了训练,还提高了深度学习架构的整体准确性 [7,8]。然而,它在多模态数据上的表现可能并不理想 [15]。模态之间的功能相互依赖关系进一步增加了批量归一化的复杂性 [16]。
unsetunset3 材料unsetunset
3.1 数据集
作者的研究区域位于巴西帕拉州的桑塔雷姆附近,该地区具有动态的水文条件,包括水体和易发生洪水的区域。作者的原始数据集由两幅由Sentinel-1(S1)卫星在25秒间隔内拍摄的相邻图像组成。由于S1的侧视雷达配置,其图像提供了地表的倾斜视角,导致二维原始数据在边缘区域存在无数据区域。在初始预处理阶段,作者将两幅图像合并,并 Token 出待处理的有效数据区域。SAR图像的空间分辨率为20米。它们是单波段图像,其值表示以分贝(dB)为单位的雷达后向散射强度。在作者的数据集中,原始值范围从-48.85 dB到11.79 dB。较低值对应于平滑表面,特别是水体,而较高值则表示更粗糙的表面,如建筑物或植被。这些雷达强度的变化可以显示为灰度图像,其中较深和较浅的灰色分别对应较低和较高的后向散射。去除无数据单元后的合并图像大小为11,112×6,706像素,覆盖面积约为30,000 km²。作者数据集中图像的主要属性总结于表1。
数据集提供的 Mask 是使用层级分割方法(HSBA)[3]生成的,并经过领域专家验证。
3.2 预处理
遵循原始U-Net[1]并由于GPU内存限制,作者采用分块策略,将输入图像和 Mask 划分为256×256像素的块。生成的数据集包含1,118个块。在每个实验中,作者使用标准化方法对原始数据x进行标准化处理,即
,其中μ和σ分别是仅基于用于模型训练的子集计算出的均值和标准差。
3.3 方法
本节介绍了本研究中使用的模型,首先从U-Net模型开始,接着是SegNet模型,最后是模式归一化方法。
3.3.1 U-Net
U-Net模型因其分割任务的出色性能而广受认可。该模型由Ronneberger等人[1]为生物医学图像分割提出,采用编码器-解码器架构,包含两条对称路径。编码器由两层卷积层和随后的两次2×2最大池化操作构成,每一步都使特征通道数翻倍,这一过程在降低空间维度的同时捕获High-Level语义信息。解码器通过转置卷积(上采样)逆转这种收缩,增加空间分辨率并恢复输入维度。此外, Shortcut 在对应层级将编码器的特征图与解码器连接,保留空间细节。该过程随后通过22层卷积层细化特征并逐步重建原始分辨率。最后一层是1×1卷积,其滤波器数量等于所需的分割类别数。
3.3.2 SegNet
SegNet是一种编码器-解码器架构。编码器受VGG16网络[12]的前13层卷积层的启发,从输入图像中提取特征。每个编码器层执行一系列操作:卷积、批量归一化、ReLU激活和最大池化,逐步降低空间维度,同时丰富特征表示[13]。SegNet的解码器与编码器结构相似,也包含13层对应的层。其任务是从提取的特征中重建分割图像[13]。
为了对抗最大池化导致的边界细节丢失,SegNet记录最大池化索引。这些索引在解码器的上采样过程中使用,允许精确重建边界,这对高质量分割至关重要。每个解码器层使用记录的索引进行上采样,然后进行卷积和批量归一化。重复此过程,直到获得与对应编码器输入相同大小的特征图。最后一层应用sigmoid激活,提供像素级分类,将像素分类为目标类别或背景。
3.3.3 作者的 Proposal
作者的数据集呈现双峰分布,如图2中的直方图所示。数据中存在两个峰导致作者尝试了一种新的归一化策略,即模式归一化(Mode Normalization,MN),该策略由Deecke等人[2]提出,旨在改善具有多峰分布的数据集的模型训练。这种方法检测输入分布中的多个数据峰,并将输入样本的归一化扩展到多个均值和方差,正如作者将展示的那样,这会导致训练时间的减少,同时不会损失性能。
一种传统的批量归一化(Batch Normalization,简称BN)层执行两个不同的操作。首先,它将大小为
的每个小批量的激活值
归一化,使其具有零均值和单位方差:
其中
是一个小的值,用于避免在方差为零的情况下可能出现的除零错误。然后,它对归一化后的激活值
应用一个可学习的仿射变换。
其中
和
是在训练过程中优化的两个参数,
是在神经网络中传递到下一层的激活值。
模式归一化通过考虑多个分布的混合,捕捉不同的数据模式,扩展了批量归一化。MN在数据中检测K个模式(在作者的案例中K=2),假设数据是从K个高斯分布的混合中抽取的,这些分布由以下参数化:
其中
是混合权重,满足
,在训练过程中学习得到 [2],
和
分别是第
个模式的均值和方差。
每个样本
被分配到后验概率
最高的模式
。
贝叶斯定理能够计算后验概率:
一旦样本被分配到模式
,则进行与BN类似的归一化,如公式(2)和(3)所示:
和
是特定模式的可学习参数 [2]
unsetunset4 实验unsetunset
作者遵循文献[18]中描述的方法,并将实验分为两个阶段。在第一阶段(第4.2节),作者优化模型的超参数。为此,作者使用分层抽样将数据集随机划分为训练/验证/测试集,并评估模型在不同超参数配置下的性能。在第二阶段(第5.2节),作者使用k折交叉验证评估模型的泛化能力。在此阶段,作者使用在第一阶段计算出的最优超参数值。该方法因两个阶段之间潜在的测试数据污染而受到批评[19]。尽管作者承认这一局限性,但由于计算成本高和模型训练时间长,考虑到作者可用的资源以及数据集的有限性,作者接受了这种权衡。作者将在未来的工作中进行更稳健和理论上更可靠的实验。模型的性能使用下一节描述的指标进行了评估。
4.1 评估指标
分割模型的性能通过以下指标进行评估:
在二元分类中,TP(真阳性)和FP(假阳性)分别表示正确和错误分类的正例数量。TN(真阴性)和FN(假阴性)对于负例类别是相同的。在作者的任务中,正例类别对应于"水",负例类别对应于"非水"。
IoU和Dsc分别表示IoU和Dice相似度系数。
4.2 超参数搜索
超参数是在训练之前设置的配置变量。它们不会被数据学习,但确实对训练过程有显著影响。超参数的调整是优化模型最终性能的重要步骤[4,5]。作者对表2中所示的超参数网格对两个 Baseline 模型U-Net和SegNet进行了穷举搜索。具体而言,作者评估了不同优化器、学习率、损失函数和dropout率的影响。组合损失将Dice Loss和Focal Loss相结合,以平衡类别分布并提升分割性能[17]。
作者使用单次随机划分的数据集,通过分层抽样构建训练集(70%)、验证集(10%)和测试集(20%),对两个 Baseline 模型进行了训练和评估,并对每个模型进行了多次训练运行。在第二阶段中,用于使两个模型在验证集(式(8))上获得最佳Dsc值(Dsc值)的两组超参数值,被用于训练 Baseline 模型和基于MN推导的模型。
4.3 交叉验证
作者通过将图1中的图像和标签 Mask 划分为四个非重叠区域,对应于图像的四个象限,进行了4折交叉验证(CV)。在每次CV迭代中,作者使用三个区域作为训练集,剩余一个区域作为测试集。经过四次迭代,每个区域都作为测试集使用一次,并作为训练集的一部分使用三次。
unsetunset5 结果unsetunset
在本节中,作者展示了从两个实验中获得的结果:超参数搜索和基于区域的交叉验证。在所有实验中,作者使用了32的批处理大小,并在模型损失上应用了早停机制,其耐心值为五个周期,这意味着如果验证损失在过去五个周期内没有下降,则停止训练。
5.1 超参数搜索
作者固定了最佳超参数,并基于先前描述的早停机制,对两个模型进行了最多60个epoch的训练。表4展示了四个模型在测试集上的结果。
5.2 交叉验证
图3展示了输入图像、真实标签以及不同模型预测的分割 Mask 。U-Net和U-NetMN生成的分割 Mask 与图像提供的基准 Mask 非常相似。表6列出了训练每个模型所需的轮数以及相应的训练时间。图4展示了四个模型的损失曲线。绘制的曲线清晰地表明,使用模态归一化的模型停止训练的时间远早于未使用模态归一化的模型。具体来说,U-Net模型的训练在320秒后停止于第33轮,而U-NetMN则在167秒后提前停止于第8轮。类似地,SegNetMN的训练也比SegNet更早停止,但这两个模型的性能差异很小。这些结果突出了归一化在加速收敛和稳定训练方面的有效性。
如表5所示,U-Net和U-NetMN模型的最终性能几乎相同。然而,在计算效率方面存在显著差异。标准U-Net模型在60个epoch中的33个epoch后收敛,耗时约320秒。相比之下,带有模式归一化(U-NetMN)的U-Net模型仅需8个epoch,耗时167秒即可收敛,且在不到四分之一训练时间内达到了相同的准确率。
SegNet模型同样取得了具有竞争力的结果,与SegNetMN相比,差异可以忽略不计。然而,归一化的引入显著提高了收敛速度。SegNetMN在约123秒(12个epoch)内达到收敛,而原始SegNet模型则需要约227秒(32个epoch)。
关于交叉验证实验,SegNetMN在所有区域均表现出相对稳定的性能,精确度、IoU和Dsc的变化范围在2%至11%之间。相比之下,原始SegNet模型表现出显著的性能波动,与区域4记录的最高准确率相比,区域3的准确率下降了近30%。
本研究获得的结果证实了作者的初始假设:对于双模态数据,模式归一化能够缩短收敛时间,同时保持原始模型的表现性能。此外,在模式归一化的作用下,模型在四个不同区域似乎达到了更稳定的性能,尽管图像中水像元分布存在变化。收敛时间的显著减少对于本研究使用的两个模型(U-Net和SegNet)尤为突出,相较于原始模型降低了25个epoch。归一化也有助于维持SegNet模型在不同应用领域的稳定性。这能够使Loss Over Epochs
模型对SAR图像特征变化具有更强的鲁棒性。
unsetunset6 结论unsetunset
在本研究中,作者研究了两种语义分割模型,并探索了将模态归一化技术整合到双模态SAR图像处理中,以减少训练时间,同时保持 Baseline 模型性能。主要研究发现表明,经过模态归一化的U-Net和SegNet比原始模型收敛速度更快。
此外,归一化提高了模型在不同交叉验证区域中的稳定性。尽管结果令人鼓舞,但作者承认作者的工作存在一些局限性。首先,实验设置引入了训练数据和测试数据之间的污染。其次,超参数优化仅涉及少量参数,且仅针对两个 Baseline 模型。
第三,由于作者仅使用了一张图像,因此无法对模型的泛化能力得出任何结论。所有这些主要局限性将在作者未来的工作中加以解决,未来的工作将基于作者目前正在收集的更大数据集。
本研究获得欧盟“地平线”研究和创新计划的支持,依据MSCA-SE(玛丽·斯克洛多夫斯卡-居里行人交流行动)资助协议101086252;
unsetunset参考unsetunset
[1]. U-NetMN and SegNetMN: Modified U-Net and SegNet models for bimodal SAR image segmentation
点击上方卡片,关注「AI视界引擎」公众号