拯救生命的迁移学习 | 如何让SAM在滑坡检测中大放异彩

技术

点击下方卡片,关注 「AI视界引擎」 公众号

picture.image

滑坡是全球最具破坏性的自然灾害之一,对人类生命和安全构成严重威胁。基础模型的发展为大规模滑坡检测提供了新的研究范式。

Segment Anything Model(SAM)在图像分割领域引起了广泛关注。

然而,作者的实验发现,在滑坡分割任务中,SAM的表现不佳。作者提出了TransLandSeg,这是一种基于视觉基础模型(VFM)的滑坡语义分割迁移学习方法。

TransLandSeg在Landslide4Sense数据集和毕节滑坡数据集上均优于传统的语义分割模型。

作者提出的自适应迁移学习(ATL)架构通过仅训练SAM参数数量的1.3%,就能将SAM强大的分割能力转移到滑坡检测中,极大地提高了模型的训练效率。

最后,作者还对不同ATL结构的模型进行了消融实验,得出ATL的部署位置和残差连接在提高TransLandSeg准确性方面发挥着重要作用。

I Introduction

一旦发生山体滑坡,它常常会给人类带来灾难性的破坏,摧毁房屋、道路、农田,甚至危及人类生命[1]。从1995年到2014年,全球共有3,876起山体滑坡事件,造成163,658人死亡,11,689人受伤[2]。

因此,及时准确地识别山体滑坡对于减少生命和财产损失具有重要意义[3]。山体滑坡调查的早期阶段主要依靠调查员进行的现场调查。尽管这种方法非常准确,但它需要大量的人力资源和时间周期长,并不适合大面积的山体滑坡调查[1]。远程感知技术的快速增长[4],如高分辨率图像[5]、干涉合成孔径雷达(InSAR)[6]等,使得收集可用于发现山体滑坡的大量数据成为可能。

调查员可以利用远程感知数据并采用视觉解释方法来提取和识别山体滑坡信息[3, 7]。然而,这种方法严重依赖专家知识和经验[3, 8, 9]。检测效率仍需要进一步提高。研究行人正在关注机器学习方法以增强山体滑坡检测的效率[10, 11, 12]。

这些方法主要可以分为两类。第一种是基于像素的方法,通过分类高分辨率图像的每个像素来实现山体滑坡的检测[13, 14]。另一种是基于目标的方法,通过分类远程感知数据的属性特征,如光谱、空间和纹理特征[15, 16]。尽管这些机器学习方法克服了视觉解释速度慢的缺点,但它们严重依赖于人工确定特征阈值[1, 11]。

近年来,基于深度学习的语义分割和目标检测模型在滑坡检测领域得到了日益广泛的应用,并已成为主流技术。首先,卷积神经网络(CNN)的出现推动了一系列语义分割模型如FCN[17],UNet[18],DeepLabv3+[19]以及目标检测模型如Mask R-CNN[20]和Yolo[21]的发展。这些模型已被应用于滑坡检测领域[22, 23],显著提高了大规模滑坡检测的效率和准确性[24, 25, 26]。除了遥感影像,数字高程模型(DEMs)和InSAR数据也能为滑坡检测提供有用信息。许多基于CNN的多源数据融合模型已被提出[27, 28]。这些方法提高了滑坡检测的准确性。

然而,由于CNN通过堆叠卷积来扩展感受野,它们在提取全局信息方面存在一定的局限性[29, 30]。基于多头自注意力(MSA)[31]结构的Transformer,在初始特征提取过程中捕捉全局上下文信息,克服了CNN模型的局限性[32]。基于ViT的模型已应用于滑坡检测,并相较于CNN模型取得了更优越的性能[29, 30, 33]。

研究表明,当预训练数据集足够大时,Transformer模型的性能将显著超过CNN模型[31, 34]。然而,基于Transformer架构在大数据集上训练基础模型需要大量的计算资源。

此外,模型参数的数量也会呈指数增长。这对研究行人来说都是挑战[34]。幸运的是,自2023年以来,在基于Transformer架构的基础模型方面取得了重大进展,例如BeRT[35],盘古[36]和Chat-GPT。它们的出现解决了研究行人从头开始训练基础模型的困难。

Segment Anything Model(SAM)作为图像分割领域[37, 38, 39]的一个VFMs已经引起了广泛关注。SAM已经在各种自然环境下证明了其分割能力的成功[37, 40, 41]。然而,用于训练SAM的数据集由自然图像组成,缺乏遥感图像。由于滑坡复杂的光谱和空间特征,以及它们在规模和形态上的显著变化[29],作者认为SAM无法完成滑坡分割任务。因此,作者的问题包括在保持低计算能力和高效训练过程的同时,将SAM强大的分割能力转移到滑坡任务上。

在本文中,作者提出了TransLandSeg,这是一种基于VFM的滑坡语义分割的迁移学习方法。TransLandSeg采用自适应迁移学习(ATL)将SAM的分割能力转移到滑坡分割的下游任务中。受到自然语言处理(NLP)[42, 43]中出色的参数高效微调技术的启发,作者在原始网络中引入一组新的可训练参数,以学习不同的特征,并将学习到的特征注入原始网络中以满足下游任务[44, 45]。作者的方法在Landslide4Sense数据集和毕节滑坡数据集上均取得了优异的性能。这项工作的贡献可以总结如下:

作者提出了一种新的滑坡分割方法,TransLandSeg,该方法采用ATL方法将SAM的强大分割能力迁移到下游的滑坡分割任务中。

作者对TransLandSeg模型与其他语义分割模型在不同切片数据集上的性能进行了广泛的评估。作者的方法仍然超越了现有方法,并在这些下游任务中取得了出色的表现。

作者探索并比较了不同ATL结构对TransLandSeg准确性的影响,并找到了TransLandSeg的最佳结构。

本文的其余部分组织如下:第II部分对这一领域的相关研究进行了全面回顾。第III部分详细解释了所提出的TransLandSeg模型。第IV部分给出了定性和定量结果,包括消融实验。在第V部分,作者探索并比较了不同ATL结构对TransLandSeg准确性的影响。第VI部分通过总结本文的主要结论来结束全文。

II Related Works

Landslide Detection Model

基于深度学习的语义分割和目标检测模型已成为滑坡检测领域的主流技术。首先,基于卷积神经网络(CNN)的语义分割模型被广泛应用于滑坡检测中。其中,Ghorbanzadeh等人[46]使用CNN识别尼泊尔拉斯乌地区南部的滑坡,并将其与人工神经网络(ANN)、支持向量机(SVM)和随机森林(RF)进行比较,结果显示,深度学习方法显著优于机器学习方法。

使用残差连接的UNet网络具有更大的感受野,更抽象和本质地提取全局特征。凭借其出色的分割效果,它被广泛应用于滑坡检测中。Soares等人[18]使用UNet模型自动分割巴西里约热内卢山区Nova Friburgo市的滑坡,并取得了较好的效果。He等人[47]通过空间金字塔池和编解码结构改进了DeepLabv3+模型。 结果显示,改进后的DeepLabv3+模型具有更好的提取效果,与UNet和PSPNet等先进方法相比,显著提高了滑坡提取的准确性。Wang等人[8]提出了DPANet网络,并在一个典型的阿尔卑斯山谷区域进行了实验。与PSPNet模型相比,DPANet的滑坡检测准确率提高了4%的总体准确率(OA)和18%的像素准确率(PA),并且对识别复杂滑坡具有良好的鲁棒性。

目标检测模型也同样应用于滑坡检测中。Ju等人[20]使用Mask R-CNN在Google Earth图像上识别老黄土滑坡,并与RetinaNet和YOLOv3分别进行了比较。结果表明,Mask R-CNN更适合识别老黄土滑坡。Li等人[21]使用YOLOv4作为基本框架,MobileNetv3模型作为主干网络,改进后的YOLOv4模型提高了滑坡检测的效率。

除了遥感图像,还提出了基于CNN的多源数据融合模型。Ji等人[24]在引入注意机制的CNN模型中,将数字高程模型(DEM)数据作为附加通道,以提高滑坡检测的准确性。Liu等人[11]提出了FFS-Net,它将DEM数据提取的地形特征与纹理和形状特征融合。与UNet和DeepLabv3+相比,FFS-Net提高了滑坡检测的准确性。Liang等人[27]使用UNet模型构建了基于InSAR变形图的滑坡检测模型。 Zhou等人[28]的工作通过添加通道关注机制,分别对每个干涉图进行建模。这使得InSAR时序分析更加准确。

与CNN不同,Transformer放弃了递归和卷积,它是一个基于MSA机制[32]的神经网络模型。其结构也决定了它比CNN[32]更专注于捕捉全局上下文信息。2017年,Transformer首次成功应用于NLP[32],然后广泛应用于计算机视觉(CV)[31]领域。视觉Transformer(ViT)及其变体开始被应用于滑坡检测。Tang等人[7]提出了用于滑坡检测的SegFormer。SegFormer基于ViT结构,引入了重叠的图像块嵌入以捕捉相邻图像块之间的交互作用。

还引入了简单的MLP解码器和序列缩减来提高滑坡检测的效率。Lv等人[29]提出了ShapeFormer模型。ShapeFormer是基于金字塔视觉Transformer(PVT)结构的语义分割模型,它通过从不同大小的邻近元素中提取特征,使您能够获取更多关于边缘的信息。

ShapeFormer模型在 Bijie 数据集和尼泊尔数据集上表现更好。Yang等人[30]在ResU-Net中提出了一个带有Transformer的分割网络,并在解码器中嵌入了注意力机制,以便更好地融合Transformer和CNN的特征映射。Fu等人[48]使用Swin Transformer作为Mask R-CNN的主干网络,通过数据增强和迁移学习检测海地地震滑坡图像。

尽管Transformer模型相较于传统的卷积神经网络(CNN)模型需要更多的计算资源和存储空间,且训练难度更大,但基于卷积核的分层特征提取策略在建模图像的全局信息方面存在一些局限性。基于自注意力机制(MSA)的Transformer模型为全局信息建模提供了独特的视角,因此在滑坡检测领域的应用中显示出巨大的潜力。[29, 30]

Foundation Models

Transformer的卓越的可扩展性使得构建具有数十亿参数的大规模模型成为可能。自2023年以来,以Chat-GPT为代表的奠基模型出现,标志着人工智能(AI)发展进入新阶段。奠基模型最初在NLP领域取得了突破,与之前的方法相比,它们取得了惊人的性能。同样,在计算机视觉(CV)领域也出现了奠基模型,包括SAM [37]等。

SAM是由Meta AI开发的一种VFM。它在最大的分割数据集(SA-1B)上进行预训练,包含1100万张图像和超过10亿个 Mask [37]。大量的训练数据使SAM能够提取丰富的语义特征,并且它能零样本迁移到新的图像分布和任务上,这确保了它在各种下游场景中的泛化潜力。Peng等人[49]提出了一种通过参数空间重构(SAM-PARSER)有效地微调SAM的方法,以适应三种不同的下游场景。Wu等人[50]提出了医疗SAM Adapter (MSA),在19项医疗图像分割任务上展示了卓越的性能。

Parameter-efficient fine-tuning

目前,针对VFM有两种主要的微调范式[49]。一种是完全微调,即调整模型的全部参数,这需要大量的计算资源和成本,但收益非常有限[51]。随着模型规模的增大,这种方法变得越来越不可行[44]。另一种方法是参数高效微调(PEFT)[43],即通过增加或修改模型的有限数量参数来微调模型[45]。借鉴自然语言处理领域,PEFT被应用于计算机视觉领域。Bahng等人[52]通过修改原始输入像素空间来调整预训练模型。Jia等人[53]提出了视觉提示调整(VPT),以调整转换模型以适应下游视觉任务。

在参数效率微调(PEFT)中,由于其即插即用、参数小且效果显著, Adapter 调整(adapter-tuning)被广泛用于对VFM进行微调[44]。 Adapter 调整的主要思想是在原始大小为的VFM中添加一个大小为d的适配模块,。无需对整个模型进行微调,就可以在效果和效率方面取得满意的结果[44]。研究表明, Adapter 调整比完全微调更有效,因为它避免了灾难性遗忘,并且可以在小数据集的情况下更好地泛化到域外场景。最近的研究表明[39, 51],[54], Adapter 调整可以更好地适应各种下游计算机视觉任务。因此,作者认为 Adapter 调整技术最适合将SAM引入到滑坡检测领域。

III Methods

作者开发了TransLandSeg模型来解决滑坡分割的下游任务。在以下各节中,作者首先将介绍模型整体结构的概览,然后详细解释自适应迁移学习(ATL)。

TransLandSeg model

如图1(a)所示,TransLandSeg模型主要由三个模块组成:图像编码器、 Mask 解码器和自适应迁移学习(ATL)层。

picture.image

图像编码器:作者保留了来自SAM的原始图像编码器,这是一个使用 Mask 自动编码器(MAE)进行预训练的ViT。具体的模型是ViTH/16模型,它由14x14窗口注意力和4个等距的全局注意力块组成。在本文中,作者选择了SAM架构的大版本,它由24层Transformer块组成的主干网络。图像通过图像编码器进行下采样,然后输入到 Mask 解码器中。图像编码器的计算过程如下:

(2)

在哪里, 是输入图像, 是斑块嵌入, 是经过斑块嵌入层后的 的输出, 是 Transformer 块中第 i 层的输出,而 是 Transformer 块的第 i 层。

** Mask 解码器**:作者保留了来自SAM的原始 Mask 解码器,它由一个Transformer组成。图像编码器提取的特征首先通过Transformer进行解码,然后通过上采样模块和MLP模块来获得最终的 Mask 结果。该过程描述如下:

其中 是 Mask 解码器的输出, 是图像编码器的输出,而 是 Mask 解码器中的Transformer模块。

ATL层: ATL方法基于 Adapter 调整这一参数高效的微调策略。确切地说,在图像编码器的每个Transformer块之间插入一个ATL层以学习特定的知识。前一个Transformer块的输出 与ATL层的输出 通过残差连接融合后,送入下一个Transformer块。训练过程如图1(a)所示,首先加载SAM的ViT-L版本预训练权重。仅训练ATL层和 Mask 解码器,而Transformer层和块嵌入则保持冻结。具体过程如下:

(6) (7)

其中, 表示残差连接的输出, 表示注意力转换层(ATL),下标tune表示在训练过程中该模块的参数是可训练的,而 表示 Mask 结果的最终输出。训练过程如算法1所示。

picture.image

算法1 TransLandSeg模型训练


Adaptive Transfer Learning

作者提出的ATL结构如图2(a)所示。它由两个全连接层和一个非线性激活函数组成。ATL模型采用瓶颈结构来限制参数的数量。它包括一个带有参数的下投影层,一个带有参数的上投影层,是中间维度且满足,表示输出通道数。此外,在两个投影层之间设置MidLay以实现非线性特性,并在本文中设置了两种MidLay单元。一种是MidLay_m,由一个全连接层和一个GeLu激活函数组成,如图2(b)所示;另一种是MidLay_c,由一个卷积层、一个LayerNorm层和一个GeLu激活函数层组成,如图2(c)所示。TransLandSeg模型选择1个MidLay_m作为ATL的MidLay。假设ATL层从Transformer层获得的输入特征是,经过ATL计算后的输出结果是,具体表示为:

picture.image

在以下文本中, 代表下行投影, 是上行投影,而 是全连接层。 是 GELU 激活函数。

此外,作者通过替换不同的MidLays设计了四种其他的ATL结构,如图3所示,它们分别是2-MidLay_m、2-MidLay_c、3-MidLay_c以及2-MidLay_m+3-MidLay_c。对于2-MidLay_m和2-MidLay_c结构的ATL计算过程,分别具体表示为:

picture.image

ATL deployment locations

为了研究ATL部署位置对TransLandSeg准确性的影响,如图4(b)所示,作者尝试在Transformer块内部署ATL。具体来说,在每个Transformer块的MSA和MLP层之间插入一个ATL层。下面详细描述该过程:

picture.image

其中 表示MSA的输出, 表示ATL的输出, 是残差连接融合后的结果,随后这个结果会被送入LayerNorm和一个MLP模块。

训练过程如图4(c)所示,其中只训练了ATL层和 Mask 解码器,而Transformer层和块嵌入部分保持冻结状态。

ATL without residual structure

为了研究残差连接对TransLandSeg准确性的影响,作者移除了ATL中的残差连接,具体将ATL部署在Transformer块的外部,并且ATL层的输出直接输入到Transformer块中,如图5(a)所示,详细过程如下:

picture.image

将ATL部署在Transformer块内部,MSA的输出不经过残差连接,直接进入ATL层进行后续计算。详细过程如下:

IV Experimentation and Analysis

在本节中,作者评估了所提出的TransLandSeg模型,并将其与几种最先进的参考模型进行了比较。

Datasets

作者选择了Landslide4Sense数据集和毕节滑坡数据集进行实验。Landslide4Sense数据集源自于Sentinel-2卫星的光学影像,包含3799个训练样本,空间分辨率为10米。该数据集选择了全球四个最容易发生滑坡的地区,分别是日本北海道南部、印度卡纳塔克邦的科达古区、尼泊尔加德满都的北部以及中国台湾省台东县的西部地区。毕节滑坡数据集源自于Triple Sat卫星的光学影像,影像获取时间为2018年5月至8月,包含了中国贵州省西北部毕节市的770张滑坡图像,其空间分辨率为0.8米。作者将Landslide4Sense数据集和毕节滑坡数据集应用于不同的语义分割模型进行训练和分割性能评估。同时,作者也用毕节滑坡数据集对十种不同结构的TransLandSeg模型进行训练和分割性能评估。

根据模型结构的需求,在作者的实验中,作者将图像大小调整至1024 x 1024像素,并为每张图像选择了RGB三个波段。在图6中,作者从两个数据集中选取了几张具有不同形态特征的图像及其标签进行展示。

picture.image

Evaluation Metrics

评估分割性能的指标包括精确度(P)、召回率(REC)、F1分数、总体准确度(OA)、交并比(IoU)和平均交并比(MIoU)。公式如下:

其中TP、FP、TN和FN分别代表“真正例”、“假正例”、“真负例”和“假负例”。

Implementation Details

作者使用了SAM的ViT-L版本。对所有语义分割任务,使用了二元交叉熵损失(BCE loss)和Dice损失。所有的实验都采用了AdamW优化器。初始学习率设置为2e-4。学习率采用余弦衰减。所有的语义分割训练都执行了50个周期。实验是在一台配备NVIDIA Tesla A100 GPU的设备上使用PyTorch实现的。

Experimental Results

为了验证作者提出的TransLandSeg模型的总体性能,作者在 Bijie landslide 数据集和 Landslide4Sense 数据集上,将TransLandSeg模型与广泛使用并得到认可的语义分割方法进行了比较。这些语义分割方法包括 PSPNet、Deeplabv3+、UNet 和 CCNet。作者使用第5.2章的评价指标来评估分割性能,定量结果分别展示在表1和表2中。

picture.image

picture.image

Iv-D1 Results on the Bijie landslide dataset

表1列出了每种语义分割方法的成果。结果显示,本文提出的TransLandSeg在所有指标上均优于其他方法。PSPNet使用金字塔池化模块(PPM)对原始特征图进行池化,并结合不同大小的空间细节以获得不同的尺度。结果显示,PSPNet取得了80.52%的MIoU和88.53%的F1。Deeplabv3+通过采用扩展卷积来扩展感受野,从而提高了模型提取全局上下文信息的能力。结果显示,Deeplabv3+取得了80.28%的MIoU和88.29%的F1。UNet通过跳跃连接持续整合底层特征的空间信息,其分割效果略逊于Deeplab V3+,取得了76.2%的MIoU和85.29%的F1。CCNet通过纵向和横向网络获取纵向和横向路径上的上下文信息,实现了84.43%的F1和75.09%的MIoU。相比之下,作者提出的TransLandSeg模型具有强大的特征提取能力,能够实现卓越的性能。最终,TransLandSeg模型取得了88.10%的MIoU和93.41%的F1,相较于次优的PSPNet模型,分别提高了7.58%的MIoU和4.88%的F1。

图7展示了表1中涉及到的几种语义分割方法的预测结果。可以看出,TransLandSeg在提取滑坡细节信息以及滑坡检测方面都取得了优异成果。在图7的前三行中,滑坡较为暴露,所有模型都能识别出滑坡,但部分模型在边缘区域遗漏了部分滑坡信息,无法准确分割滑坡范围,而TransLandSeg在提取细节信息方面显示了其优势。此外,在图7的第一行和第三行中,一些模型会将其他非植被覆盖的裸露区域(例如,道路)错误地识别为滑坡的一部分,而TransLandSeg不会犯这样的错误。对于难以区分的特征和模糊图像,TransLandSeg可以利用SAM原始强大的分割能力以及从ATL中学到的新知识,得出准确的判断。即使滑坡部分被植被覆盖(图7的第四行)或者图像被雾遮挡(图7的第五行),TransLandSeg仍然可以准确识别滑坡并精确分割滑坡范围。这是其他模型无法完成的任务。总体而言,TransLandSeg在滑坡分割方面表现良好,具有整合全局信息和局部细节信息的能力。

picture.image

Iv-B2 Results on Landslide4Sense dataset

表2给出了每种方法在Landslide4Sense数据集上的分割结果,这进一步证明了作者提出的TransLandSeg的有效性。作者的TransLandSeg在MIoU上达到75.99%,在F1上达到84.46%,这优于其他方法。由于数据分辨率的差异,毕节滑坡数据集上的分割准确度通常高于Landslide4Sense数据集。值得注意的是,Deeplabv3+的表现显著差于UNet,这验证了由于两个网络之间的差异,在处理复杂且多样的小目标时,UNet网络的表现优于Deeplabv3+。与其他比较方法相比,作者的TransLandSeg在每一个指标上都获得了最高分。它相对于第二佳的PSPNet模型,MIoU提高了7.78%,F1提高了6.97%。

作者如图8所示展示了分割结果。观察前三个行,可以见到密集分布的小规模滑坡识别具有挑战性,这项任务对模型在局部细节信息提取方面提出了更高要求。TransLandSeg模型通过其强大的信息提取能力,能够准确识别密集和小规模的滑坡目标。在第四到第五行中,作者可以发现TransLandSeg在大规模和连续滑坡检测方面也表现良好,这反映了模型提取全局上下文信息的能力。同时,由于图像分辨率的限制,当目标更多地被植被覆盖时,识别目标较为困难,需要更强的细节信息提取能力。

picture.image

V Discussion

在本节中,作者讨论TransLandSeg模型的优越性以及不同ATL结构对TransLandSeg准确性的影响。

Superiority of TransLandSeg compared to other models

TransLandSeg在滑坡检测方面相较于其他传统语义分割模型具有高准确度,这是因为它成功地将SAM的强大提取能力转移到了自身。如表3所示,TransLandSeg的训练参数仅占总参数的1.3%。TransLandSeg的训练参数大约只有其他模型的5-10%。这是因为作者冻结了模型的大部分参数,只训练了ATL和 Mask 解码器,这大大节省了计算资源。综合来看,如图9所示,TransLandSeg在性能和效率上都优于其他方法。因此,作者猜测未来的趋势将是用基础模型来适应特定的下游任务。一方面,这种方法将确保模型具有高准确度,另一方面,它也避免了从零开始训练模型的麻烦。

picture.image

picture.image

Superiority of TransLandSeg compared to SAM

SAM是使用超过1000万张图片进行训练的,它在自然图像上展现了强大的分割能力。作者在多个滑坡分割任务中测试了SAM,使用SAM自身的点提示和自动分割功能进行了滑坡分割实验。实验结果表明,在这项任务中,SAM的表现不佳。在图10的前三行中,SAM几乎无法通过点提示识别滑坡特征。在图10的最后两行中,SAM可以通过点提示识别滑坡,但无法对滑坡进行完整的分割。如果使用自动分割模式,提取滑坡信息更为困难,分割结果也无法满足实际需求。

picture.image

SAM失败的主要原因是在预训练数据中缺乏遥感图像。为了使SAM适应滑坡分割任务,作者使用ATL来实现这一目标。如图10所示,通过TransLandSeg,作者能够显著提高滑坡检测效果,TransLandSeg能够清晰识别出滑坡并准确分割滑坡范围。这项实验表明,TransLandSeg在滑坡分割方面取得了出色的成果。作者认为TransLandSeg的成功是因为保留了原始基础模型的能力并融入了新知识。原始能力与新知识已经完美融合。

Effect of different ATL structures on the accuracy of TransLandSeg

为了研究不同的ATL结构对TransLandSeg准确性的影响,作者使用TransLandSeg作为基准网络,在毕节数据集上进行了消融实验。首先,作者研究了五种不同的MidLay结构对TransLandSeg准确性的影响。这五种不同的MidLay结构如图2、图3所示。其次,作者研究了ATL部署位置对TransLandSeg准确性的影响,其结构如图1、图4所示。最后,作者研究了残差连接对TransLandSeg准确性的影响,其结构如图1、图5所示。

V-C1 MidLay structure

如表4所示,作者比较了TransLandSeg与TransLandSeg-1、TransLandSeg-2、TransLandSeg-4和TransLandSeg-5。结果显示,MidLay结构对TransLandSeg的影响不大,增加MidLay层的数量和结构的复杂性并不能提高模型的检测准确率。

picture.image

V-C2 ATL Deployment Location

如表4所示,作者比较了TransLandSeg与TransLandSeg-8,以及TransLandSeg-5与TransLandSeg-6。结果表明,在相同其他条件下,部署在Transformer块外部的ATL的准确度指标高于放置在Transformer块内部的情况,并且不同的ATL结构具有不同程度的影响。

V-C3 Residual connection

正如表4所示,作者比较了TransLandSeg-2和TransLandSeg-3,以及TransLandSeg和TransLandSeg-7。结果表明,残差连接对微调效果的影响是巨大的,具有残差连接的模型的准确性远高于没有残差连接的模型。这也表明残差连接在ATL中起着至关重要的作用。

总结上述结果,作者提出的TransLandSeg,即ATL,在使用1层带残差连接的MidLay_m并将其放置在Transformer块外部时,取得了最佳效果。

VI Conclusion

在这项工作中,作者首先提出了一种新的用于滑坡检测的网络,命名为TransLandSeg,其性能相较于传统的语义分割方法有所提高。其次,作者为VFM提出了一种ATL结构,它不仅成功地将原始模型迁移到下游任务,而且极大地提高了模型的训练效率。最后,作者通过消融实验探讨了不同ATL结构对TransLandSeg准确性的影响,并为 Adapter 调优层的设计提供了原则性的建议。作者希望作者的工作能为VFM在遥感应用中提供参考。SAM不仅可以使用ATL来适应下游任务,但移除原始提示也会失去模型的动态交互能力。这篇论文仅解决了一种下游任务适应性问题。要形成一个适用于遥感的泛化模型,仍然需要对大量的遥感数据进行微调。为了适应遥感数据,训练的CLIP实现了跨模态遥感动态识别。

参考

[1].AbstractTransLandSeg: A Transfer Learning Approach for Landslide Semantic Segmentation Based on Vision Foundation Model.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
高性能存储虚拟化方案 NVMe over Fabric 在火山引擎的演进
在云计算中,虚拟化存储扮演着重要角色,其中 iSCSI 协议在业界开放、流行多年。近年来,拥有更优性能的 NVMe over Fabrics 协议也得到了发展。本次分享介绍了 NVMe over Fabrics 在云原生和虚拟化方向的演进工作和成果。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论