基于端到端深度学习的检测与分割模型研究！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

近年来，由于干旱、洪水、风暴等极端天气事件，或森林砍伐、过度开发自然资源等人类活动的影响，滑坡灾害频发。然而，自动观测滑坡由于观测区域广阔且地形崎岖（如山区或高原）而面临挑战。

这促使作者提出一种基于端到端深度学习的模型，该模型利用遥感图像自动观测滑坡事件。

通过将遥感图像作为输入数据，作者可以获取免费资源，并通过时间观测广阔且崎岖的地形。

为探索遥感图像，作者提出了一种新颖的神经网络架构，该架构适用于滑坡检测和滑坡分割两个任务。作者在LandSlide4Sense、Bijie和Nepal三个不同的基准数据集上评估了作者提出的模型。

通过大量实验，作者在LandSlide4Sense、Bijie数据集上的滑坡检测任务中实现了98.23、93.83的F1分数；在LandSlide4Sense、Nepal数据集上的分割任务中实现了63.74、76.88的mIoU分数。

这些实验结果证明了将作者提出的模型集成到实际滑坡观测系统中的潜力。

一引言

根据文献，滑坡通常是由斜坡的不稳定性引起的[1][2][3]。在这样的事件中，由地质活动产生的土壤、岩石、泥浆或碎片从山丘或山脉上崩塌并滑落，对人类生活的多个方面造成重大损害，包括行人伤亡、事件发生后产生的心理创伤、农业破坏以及对受影响地区附近社区的长期影响[4]。例如，2024年7月印度喀拉拉邦发生的一起滑坡导致24人死亡[5]，而同期埃塞俄比亚发生的另一起滑坡造成257人死亡[6]。

为解决滑坡问题，一种常见的方法是创建滑坡清单图，该图存储事件的时间戳、位置和类型信息[7]。

此外，为了预测滑坡事件并提供预警，滑坡清单图可从多种数据源构建，包括卫星航空影像[8]、高程模型和激光雷达测高[9]。通过分析正常影像来研究滑坡需要高成本和专业调查行人，他们需要借助工具和经验来验证影像并划定滑坡边界[10]。输出结果可以是最终确定的地图，其中滑坡区域用不同颜色标注，或者可以使用地理信息系统（GIS）软件进行进一步分析，得益于地理空间技术的进步[7]。通常，这一高度依赖人类专业知识的过程存在若干挑战。首先，滑坡易发地区的图像质量较低，可能影响制图过程的准确性，因为该过程耗时且费力。其次，专家通常依赖特定的“特征”，如拓扑差异[11][12]或“过去与现在是未来关键”的原则，来识别滑坡地点。这些特征的手动选择可能导致研究行人之间结果不一致，并可能忽略导致未来滑坡发生的未知因素。

得益于地球观测（EO）技术的进步，这些技术显著提升了卫星如Sentinel和Landsat遥感数据的可获取性和普及性[15]。这些进步包括引入能够覆盖广泛可见光波长的多光谱波段，Sentinel-2提供多达13个波段，而WorldView3卫星实现了0.31米每像素的极高分辨率[16]。此外，无人驾驶航空器（UAV）的快速普及[17]已使这些技术成为研究滑坡现象的主流工具。

此外，机器学习和深度学习的最新出现为解决滑坡清单制图问题引入了创新的定量评估方法[18]。通过利用现有数据集进行迭代学习过程，机器学习和深度学习模型能够揭示输入数据特征与相应结果之间的潜在关系，为滑坡分割提供隐式解决方案，而无需设计复杂的数学模型。

近年来，研究往往集中于传统机器学习模型，如支持向量机（SVM）[20], [21]、人工神经网络（ANN）[20], [22]和随机森林（RF）[23], [20]。然而，研究趋势显著转向受计算机视觉分割问题启发的深度学习模型，如U-Net [24], [25], [26]、DeepLab [27]和Transformer [28], [29]，这些模型通常能取得更优的结果。

例如，一项关于喜马拉雅山脉Rasuwa地区分割任务的比较研究表明，最佳机器学习模型（随机森林的一种变体）实现了82.07%的F1分数和69.6%的平均IoU（mIoU）分数，而表现最佳的深度学习模型则达到了87.8%的F1分数和78.26%的mIoU分数[30]。这表明基于深度学习的架构性能更先进，并显示出进一步改进的潜力。

然而，几乎所有用于遥感图像滑坡检测或分割并提出了基于深度学习模型的已发表论文，都使用了来自不同资源或不同设置的自收集数据[31], [32], [33], [34], [35], [36]。由于这些数据未公开发布，这给模型性能比较带来了挑战。此外，作者们关注的是具有不同自然背景的特定地区的滑坡事件。这些原因导致了跨数据集评估的挑战，阻碍了模型的发展和评估。

表1 滑坡4SEN数据集中的频段信息 [19]

picture.image

受深度学习方法启发，并针对上述问题，本文提出了一种基于深度学习的模型，用于滑坡检测和分割任务，通过探索遥感图像实现。作者主要贡献如下：

作者进行了广泛的实验，以表明用于构建基于深度学习的滑坡分割模型的深度学习技术的作用，例如输入特征、网络架构、损失函数等。
根据实验结果，作者提出了一种新型网络架构，称为RMAU-NET，该架构在滑坡检测和分割任务上均实现了高性能。为了证明所提出的网络架构的鲁棒性，作者在三个已发表的基准数据集LandSlide4Sense [19]、Bijie [37]和Nepal [38]上进行了评估。
实验结果表明，作者提出的模型具有集成到实际滑坡观测系统的潜力。

表2 用于滑坡检测或分割的遥感图像数据集统计

picture.image

II. 遥感图像数据集和任务定义

由于本文专注于从遥感图像中进行滑坡检测与分割，作者首先收集了涉及滑坡事件的已发表和基准遥感图像（RSI）数据集。据作者所知，目前已有三个最大的滑坡检测分割数据集被提出并发表。这些数据集分别是Landslide4Sense [19]、Bijie [37]和Nepal [38]。基于这些选定的RSI数据集，本文定义了滑坡检测和滑坡分割两项任务，并明确了评估指标、数据集划分及实验设置。

unsetunsetA. 遥感影像数据集unsetunset

Landslide4Sense数据集[19]展示了2015年至2021年间全局滑坡的影像。该数据集为分析降雨量大的地区、地震频发地区或地质条件不稳定的地区的滑坡灾害提供了重要的基准。整个Landslide4Sense数据集包含3844幅多光谱图像，每幅图像由14个波段组合而成。具体而言，B1至B12波段（12个波段）来自Sentinel-2卫星，其详细信息在表1中全面描述。

B13波段来自坡度数据，B14波段来自ALOS PALSAR卫星。每个波段的大小均为

， Mask 数据为与 Mask 图像相同尺寸的

二值图像。 Mask 图像中的白色像素表示受滑坡影响的区域，黑色像素表示非滑坡区域。此外，每层中的每个像素对应现实世界的比例尺为10至60米。一些14波段图像样本及其对应的 Mask 在图1中全面展示。根据Landslide4Sense数据集的统计数据（如表2所示），包含滑坡区域的图像数量约占数据集中所有图像的58%。然而，滑坡区域仅占数据集中所有像素的2.3%。这表明滑坡区域与非滑坡区域之间存在显著的不平衡，给分割模型带来了挑战。

picture.image

Bijie数据集[37]：该数据集采集自贵州省西北部的 Bijie 市的 TripleSat 卫星，该地区面积为

。该地区的海拔从

到

不等，结合不稳定的地质和强降雨，使其成为中国严重的滑坡多发地。在卫星采集后，图像被转换为RGB格式，预设尺寸为

。图2展示了该数据集中的一些RGB图像样本（即，每幅图像中的蓝色线条 Token 滑坡区域）。

总共有770幅滑坡图像。此外，该数据集还包含 Bijie 市的2,003幅非滑坡区域图像。这表明滑坡图像和非滑坡图像样本之间存在不平衡。关于滑坡和非滑坡像素，表2中的统计数据呈现

的比例，这表明存在显著的不平衡，与 Landslide4Sense 数据集相同。

尼泊尔[38]: 为了收集数据，地质学家首先提取了滑坡事件的位置和时间。

基于这些信息，获取了来自Landsat-8卫星的遥感图像，并进行了人工验证。与Bijie数据集相同，从卫星收集的图像被转换为RGB格式，大小为

。

一些图像样本如图3所示。总共，尼泊尔数据集[38]包含230张滑坡事件的图像。根据表2中的统计数据，滑坡像素的总数非常小，仅占整个数据集的

，在像素 Level 上呈现显著的失衡。

unsetunsetB. 任务定义unsetunset

现有的涉及滑坡事件的遥感影像数据集表明，每个数据集都是为了滑坡检测或滑坡分割而提出的。事实上，使用尼泊尔数据集的已发表论文都忽略了分割任务[38], [39], [40]，因为该数据集仅提供包含滑坡区域的遥感影像。

相比之下， Bijie数据集包含大量非滑坡影像，导致相关论文[37], [41], [42]的主要关注点在于分类任务。关于LandSlide4Sense数据集，它是为了挑战赛而提出的，竞赛指标是针对滑坡分割任务[43], [19]。这启发作者在Bijie和LandSlide4Sense数据集上对所提出的模型进行滑坡检测和分割任务的评价，而在尼泊尔数据集上仅进行分割任务。

在比较这些数据集时，可以看出Landslide4Sense拥有最多的图像数量，并且滑坡/非滑坡图像数量均衡。该数据集还展示了来自世界各地不同地区的多样化滑坡区域。

因此，作者选择Landslide4Sense数据集来评估作者提出的 Baseline 模型。随后，作者通过应用和评估各种深度学习技术（如输入特征、网络架构、损失函数、后处理等）进一步改进 Baseline 模型。根据评估结果，作者为滑坡检测和分割任务提出了最佳模型配置。然后，作者在剩余的 Bijie 和 Nepal 数据集上评估最佳模型，并与当前最先进的系统进行比较。

unsetunsetC. 数据集划分unsetunset

由于LandSlide4Sense数据集[19]未发布测试集标签（800张图像），作者将训练集（3044张图像）按80:20的比例分为两部分，分别用于训练和测试。

对于Bijie数据集[37]，作者未采纳论文[41]中的建议，保持训练集和测试集的70:30比例。关于Nepal数据集[38]，建议将整个数据集分为训练集、验证集和测试集。因此，作者未采纳此建议，仅保留训练集和验证集用于模型开发，而测试集用于评估。

unsetunsetD. 评估指标unsetunset

为了评估作者提出的模型，作者在分割任务中报告了像素 Level 的F1分数、精确率、召回率以及平均IoU（mIoU）。在检测任务中，作者提供了图像 Level 的F1分数、精确率和召回率。

unsetunsetE. 实验设置unsetunset

作者使用Tensorflow框架构建所提出的深度神经网络。所有深度神经网络均在Titan RTX 24GB GPU上训练30个epoch。本文中所有评估模型在训练过程中使用Adam [44]进行优化。

三提出的 Baseline 模型

如第二节-B所述，作者首先提出了一种用于滑坡分割的 Baseline 模型，并在LandSlide4Sense数据集上评估了多种深度学习技术。

如图4所示，该 Baseline 模型由三个主要组件构成：在线数据增强、U-Net Backbone 网络架构以及用于分割任务的损失函数 Head 。

unsetunsetA. 在线数据增强unsetunset

给定遥感图像输入，作者首先应用两种数据增强方法：旋转和CutMix。具体而言，每张图像使用90度、180度或270度的随机角度进行旋转，以生成新的图像，称为旋转增强。

然后，从随机滑坡图像中裁剪滑坡区域并与当前处理的图像混合，称为CutMix增强[45]。由于这两种数据增强方法在训练过程中应用于一批遥感图像，作者称之为在线数据增强。

unsetunsetB. 基于U-Net的 Backbone 架构unsetunset

如图4所示，U-Net Backbone 网络由下采样网络和上采样网络组成。下采样网络和上采样网络均采用双重卷积架构。每个双重卷积架构包含两个单卷积层，按顺序执行卷积层（Conv）、批量归一化层（BN）[46]和漏失修正线性单元（LeakyReLU）[47]。下采样过程中应用最大池化层，而上采样过程中使用上采样2D层。

unsetunsetC. 头和损失函数unsetunset

来自U-Net Backbone 网络的输出特征图

，在通道维度上应用全局平均池化层，以获得

的预测 Mask 。然后将预测 Mask 与真实 Mask 使用交叉熵损失函数进行比较。表3评估了所提出的 Baseline 在Landslide4SENSE数据集上的分割任务性能。

picture.image

表4 评估损失函数的影响

picture.image

其中

是所有可训练参数

的损失函数，常数

设置为 0.0001，

和

是从

特征图中得到的预期和预测的

像素

unsetunsetD. 在Landslide4Sense数据集上评估所提出的 Baseline 模型unsetunset

作者在Landslide4Sense数据集上对所提出的 Baseline 模型进行了分割任务的评估。为此，作者首先训练了所提出的 Baseline 模型。训练完成后，作者将尺寸为

的测试图像输入到 Baseline 模型中，获取预测的 Mask 。随后，将预测的 Mask 与真实标签进行比较，并在像素 Level 计算F1和mIoU分数。如表4所示， Baseline 模型分别达到了67.83的F1分数和60.01的mIoU分数。

IV. 评估深度学习技术以改进 Baseline

基于 Baseline ，作者现在按顺序应用一系列深度学习技术，包括损失函数、输入特征、网络架构、优化算法和后处理方法，进行广泛的实验。作者评估这些技术是否能够进一步改善 Baseline 性能。

unsetunsetA. 评估损失函数unsetunset

在上述深度学习技术中，作者首先评估了损失函数的作用。作者通过评估Focal loss [48]、Log-Cosh loss [49]、IoU loss [50]、Tversky loss [51]、Lovasz loss [52]、Boundary loss [53]和Center loss [54]等一系列损失函数，来处理滑坡像素和非滑坡像素在分割任务中的不平衡问题。

在所提出的 Baseline 方法中，保留了在线数据增强和U-Net Backbone 网络，并将 Head 中的交叉熵损失替换为表4中的损失函数，以在Landslide4Sense数据集上进行分割任务。

表5 新波段数据由Landslide4SEN数据集中的14个原始波段生成

picture.image

如表6所示，实验结果表明Focal loss和IoU loss优于其他损失函数。这启发作者将Focal loss和IoU loss结合起来。Focal loss和IoU loss的结合定义为

损

失

损

失

焦

点

损

失

其中

表示两个损失函数之间的权重，经验设置为0.5。与使用交叉熵损失的 Baseline 相比，Focal loss和IoU loss的组合在F1分数上提升了1.22，在mIoU分数上提升了1.13。

unsetunsetB. 评估输入特征unsetunset

受文献[55]启发，作者评估生成波段数据是否能够有效丰富遥感图像的特征，进而提升分割性能。为此，作者从Landslide4Sense数据集中的14个原始波段中生成12个新的波段数据。用于生成新波段数据的方法如表

所示，并总结如下：

波段15至17通过将RGB归一化应用于B2、B3和B4波段生成。波段18至21代表遥感指数（NDVI、NDMI、NBR）和灰度图像。波段22和23通过应用核大小为

的高斯和中值滤波器生成。波段24和25根据图像梯度（沿长度和宽度维度）计算得到。波段26展示了使用Canny边缘检测器得到的结果。

如表6所示，实验结果表明添加生成波段数据能够有效提升分割任务的性能。特别是，添加15至23波段分别使F1分数和mIoU分数显著提升了0.91和0.62。

表7 评估多头（U-NET+: U-NET Baseline 与 23 波段数据及组合损失函数）的效果

picture.image

unsetunsetC. 评估网络架构unsetunset

关于网络架构，作者提出了两个主要改进：

(1) 采用多头分辨率结构替代 Baseline 中的单头架构；

(2) 将残差-卷积层和注意力层结合，以替代UNet Backbone 中的传统卷积层。详细的改进内容在图4中全面描述。

在首次改进中，作者受到启发于应用多个不同分辨率的预测 Mask 集成来提升系统性能。具体而言，作者不仅使用一个头块生成一个

的预测 Mask ，还添加了两个额外的头块来生成两个其他预测 Mask ：

和

。因此，最终的预测结果是通过三个预测输出 Mask 的平均值获得的。Landslide4Sense数据集上表7所示的实验结果表明，应用多个头有助于提升分割性能，在F1分数和mIoU分数上分别进一步提升了0.49和0.53。值得注意的是，该实验仍然保持了之前实验中23波段数据以及Focal和IoU损失函数组合的改进成果。

关于U-Net Backbone 网络，作者首先评估基于U-Net的架构是否是分割任务中最有效的模型。具体而言，作者将UNet Backbone 网络替换为Deeplab-V3 [56]、MobileNet-V3 [57]和EfficientNet-V2 [58]架构。其次，作者受到启发，多核尺寸和基于残差的架构比传统卷积层更有效地捕获特征图的独特特征。因此，作者开发了一种残差卷积层（Res-Conv）架构，如图5所示，该架构用于替换 Baseline 中下采样和上采样架构中的双层卷积层。

作者通过在每个下采样和上采样架构中的卷积层之后应用注意力层来进一步改进网络架构。所提出的注意力层生成的注意力权重有效地使神经网络专注于网络内部特征图上的滑坡区域。作者在已发表的论文[61]中评估了三种类型的注意力方案：SE [59] 注意力、CBAM [60] 注意力和作者提出的多头注意力。

作者的多头注意力不仅关注特征图的一定维度，如图6所示，它探索了特征图的所有三个维度。具体而言，给定一个大小为

的输入特征图

，其中 W、H 和 C 表示宽度、高度和通道维度，特征图

在三个维度上通过最大池化和平均池化层减小尺寸，生成新的二维特征图。然后，在将二维特征图与原始三维特征图 X 相乘之前，对每个二维特征图应用传统的多头注意力[62]。

表8 评估网络架构改进（U-NETT：基于 U-NET 的 Baseline 模型，23 波段数据，组合损失函数和多分辨率头）

picture.image

如表8 所示的实验结果表明，基于 U-Net 的架构比评估 DeepLab-V3、MobileNet-V3 和 EfficientNetV2 的网络架构更有效。在应用注意力机制和 Res-Conv 层方面，这两种技术都有助于提升分割性能。当这两种技术结合使用时，F1 分数和 mIoU 分数分别提升了 1.97 和 1.69。值得注意的是，该实验重用了先前实验结果中使用的 23 波段数据、组合损失函数和多分辨率头的优势。

unsetunsetD. 评估后处理unsetunset

鉴于23波段数据的应用进展、组合损失函数、多分辨率头以及多头注意力与Res-Conv层的结合，作者最终评估了后处理步骤的作用。具体而言，作者应用阈值来判断一个像素是否被归类为滑坡或非滑坡。表9表明，在阈值0.95时，作者获得了最佳F1分数74.463和mIoU分数65.97。

picture.image

表9 评估阈值值

V. 提出RMAU-Net用于滑坡检测与分割

在上述大量实验中，作者表明利用多种深度学习技术，包括组合损失（IoU损失和Focal损失）、23波段数据（8个生成波段数据和14个原始波段数据）、多分辨率头、Res-Conv层与作者所提出的多头注意力层的组合，以及基于特定阈值的后处理，能够有效进一步提升分割性能。表10全面描述了每种技术的改进效果，其中网络架构改进（应用Res-Conv层和多头注意力层）和基于阈值的后处理带来了显著提升。

picture.image

基于这些先进技术，作者提出了一种用于滑坡分割和检测任务的全新网络架构，称为RMAU-NET。如图8所示，该新型网络应用了上一节评估的所有先进深度学习技术。为了适应滑坡检测任务，在展平特征图之前，对128×128×64的特征图应用全局池化层，并通过密集层进行滑坡与非滑坡的二分类。所提出的RMAU-NET在其他 Bijie [37] 和 Nepal [38] 数据集上也进行了评估，在滑坡检测和分割任务上均取得了最先进的结果，如表11所示。图8还展示了RMAU-NET模型在LandSlide4Sense数据集上获得的一些分割结果。

picture.image

VI. 结论

作者提出了一种基于深度学习的滑坡检测与分割方法，用于遥感影像。通过评估特征工程、网络架构、损失函数、优化算法和后处理等不同改进措施的影响，作者最终构建了基于U-Net架构的RMAU-NET。

广泛的实验证明，作者提出的RMAU-NET在不同基准数据集Landslide4Sense、Bijie和Nepan上表现稳健，显示出应用于基于遥感影像的滑坡分析系统的潜力。

点击上方卡片，关注「AI视界引擎」公众号

基于端到端深度学习的检测与分割模型研究 ！

unsetunsetA. 遥感影像数据集unsetunset

unsetunsetB. 任务定义unsetunset

unsetunsetC. 数据集划分unsetunset

unsetunsetD. 评估指标unsetunset

unsetunsetE. 实验设置unsetunset

unsetunsetA. 在线数据增强unsetunset

unsetunsetB. 基于U-Net的 Backbone 架构unsetunset

unsetunsetC. 头和损失函数unsetunset

unsetunsetD. 在Landslide4Sense数据集上评估所提出的 Baseline 模型unsetunset

unsetunsetA. 评估损失函数unsetunset

unsetunsetB. 评估输入特征unsetunset

unsetunsetC. 评估网络架构unsetunset

unsetunsetD. 评估后处理unsetunset