点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
遥感图像分割对于环境监测、灾害评估和资源管理至关重要,直接影响地表信息提取的准确性和效率。现有监督模型在遥感图像分割任务中的性能高度依赖于标签数据的质量。
然而,当前的标签数据主要依赖人工标注,这带来了高时间成本并受到主观干扰的影响,导致标签边界失真且常常丢失细节。为了解决上述问题,作者的工作提出了一种增强边缘标注网络——SAM2-ELNet,它结合了标注模块和边缘注意力机制。
该模型有效地解决了标签细节丢失、碎片化以及不准确边界等问题。由于手动标注的遥感数据稀缺,传统神经网络的特征提取能力有限。作者的方法使用预训练自监督大模型segment anything model 2 (SAM2) 的Hiera Backbone 作为编码器,在小样本上进行微调以实现高质量和高效特征提取。
本研究对比了原始标签和增强标签在手动标注的Deep-SAR油污(SOS)数据集上的训练效果。结果显示,使用增强标签训练的模型表现更好,并具有较低的最终损失,表明与真实数据分布更为一致。
作者的工作还通过泛化实验探索了扩展该模型到高效自动标注框架的可能性,从而促进大规模遥感图像解释和智能识别。
unsetunset1. INTRODUCTIONunsetunset
在航空航天或航空平台上对特定电磁波谱带的地球系统进行成像,以便获取观测目标多方面的特征信息。其成像方法包括光学成像[1]、热红外成像[2]、高光谱成像[3][4]以及合成孔径雷达(SAR)[5]。目前,已有多种方式从大量的数据中提取有价值的信息。遥感图像分割已成为当前研究的焦点,因其能够界定目标区域并揭示地表的空间结构。
遥感图像分割方法主要分为传统方法和基于深度学习的方法。传统分割方法通常采用阈值法、随机森林[37]、支持向量机[38]、[16]和条件随机场[17]等技术来划分不同的地表结构区域。在处理简单场景时,这些方法往往可以获得满意的结果。但它们对辐射噪声、遮挡阴影和拓扑歧义的敏感性会导致问题,尤其是在处理高维特征和复杂空间关系时更为明显。
得益于计算机视觉(CV)领域的进步,深度学习技术已成为遥感图像分割的主要方法[49]、[50]、[51]、[52]、[53]。该领域中的监督学习方法依赖大规模的高质量标注数据集来有效训练稳健的模型。然而,目前大多数现有的数据集都是人工标注的。遥感图像中目标固有的异质性,加上噪声干扰,影响了边界清晰度,并增加了精确识别的难度。由于标注行人的主观性和任务本身的复杂性,标注过程中往往会生成质量不佳的标注信息,这些信息往往会导致细节缺失或过度简化几何形状[6]。随着数据集规模呈指数级扩大,相应的标注成本也变得难以承受。因此,减少对高质量人工标注的依赖,提高标注效率和准确性,并开发有效的自动化标注框架对于推动智能遥感识别与解释至关重要。
有趣的是,计算机视觉社区在遇到与遥感领域相似的挑战时,不断寻求缓解对人工标注训练样本依赖性的策略。无监督学习(SSL)可以从大规模 未标注 数据中提取有意义的模式,从而降低标注成本。Dosovitskiy等人[7]引入了视觉 Transformer (ViT),将本用于自然语言处理的 Transformer 架构应用于视觉任务,使得特征编码更加高效。与此同时,对比学习[9]通过方法如简单框架下的视觉表示的对比学习(SimCLR)[11]和用于无监督视觉表示学习的动量对比(MoCo)[10]等代表性技术,通过对正样本和负样本对进行区分来精炼特征表示,从而获得更稳定和泛化的嵌入。不同于依赖显式正负样本对的对比学习方法,Grill等人[54]提出了自引导自身潜在变量(BYOL)的方法,采用基于动量的更新策略更新目标网络,无需负样本。这种方法实现了对比学习的无监督自我监督学习,并产生更为鲁棒的特征表示。近年来,在计算机视觉领域大型基础模型的出现为下游任务提供了更强的支持。Caron等人
[8] 提出了无标签的自蒸馏方法(DINO),该方法利用学生-教师网络进行自蒸馏,在不需要标注数据的情况下学习强大的视觉表示。何等人 [12] 提出了 Mask 自编码器(MAE),该方法通过随机 Mask 图像区域并训练解码器进行重建来增强视觉表示。在 MAE 成功的基础上,分割一切模型(SAM)[13] 及其增强版本 SAM2 [14] 在更大规模的数据集上进行了预训练,赋予了 SAM2 出色的特征提取能力。
随着这些方法的应用日益广泛,研究者们正在寻求更好地优化手动标注的数据,并在遥感应用中提高标注效率。与计算机视觉(CV)任务相比,遥感图像具有更严重的噪声和尺度变化问题,这使得端到端自监督方法面临更大的挑战。Wang等人[60]提出了一种自动标注工具X-Anylabeling,该工具集成了多种深度学习模型(包括SAM)。尽管X-Anylabeling已被应用于遥感图像标注,但其仍需人工输入,并且在涉及小目标检测、高噪声图像或异常数据分布的场景中的有效性有限。为了增强SAM在遥感图像分割中的应用,Zhang等人[36]引入了adapter-scale和adapter-feature模块,以提升SAM的编码能力,使其更适合遥感领域的语义分割任务。Ma等人[35]通过引入目标一致性损失和边界保持损失提出了SGO-SGB框架,解决了SAM在遥感图像语义分割中出现的分割碎片化和边界不准确的问题。Chen等人[61]开发了RSPrompter方法,该方法旨在学习生成类别特定的 Prompt ,以增强SAM在遥感实例分割中的适用性。尽管SAM2在许多任务中表现良好,但在缺少手动 Prompt 的情况下,它可能会产生与特定类别无关的分割结果,这限制了其在遥感分割特定环境中的实用性。
为了克服这一限制,熊等人[15]将SAM2的分层特征提取与U-Net的空间注意力机制相结合,提出了一种新型网络——SAM2-UNet。该架构结合了U-Net对称解码器与轻量级参数 Adapter [62, 63],从而实现下游应用的有效微调。在此基础上,作者扩展了SAM2-UNet框架,提出了一种新的边缘增强标签网络(SAM2-ELNet),用于标签细化和自动标注。该模型利用大规模自我监督预训练模型进行特征提取,并结合少样本学习在下游任务中进行微调。本研究引入了边缘注意力机制和一个标签模块,以解决手动标注遥感分割数据中存在的标签细节丢失、碎片化以及不准确边界等问题,并具有扩展成高效自动标签框架的潜力。本研究的主要贡献如下:
为了解决遥感分割任务中由于异质性和噪声干扰导致的标注质量不佳问题,作者提出了SAM2-ELNet模型,该模型结合了标注模块和边缘注意力机制。该模型有效地优化了标签细节损失、分割碎片化以及边界不准确等问题。
为了增强SAM在特定遥感图像分割任务中的适用性和训练效率,作者利用一个预训练的大语言模型,并采用冻结编码器的微调策略。这种做法保留了SAM2 robust的特征提取能力,同时显著提高了训练效率。
在探索大规模自动标注时,作者探讨了模型的泛化能力,并调查其扩展为高效自动标注框架的潜力,从而促进大规模、高质量数据集的构建。
近年来,研究行人积极探讨高效的标注和训练策略,以减少对高质量手工标注的依赖,降低费用,并提高遥感图像分割的准确性。
杨等[18]提出了EasySeg框架,该框架解决了遥感语义分割中的领域适应挑战。他们的方法特别针对跨域应用中的领域差异和感知问题。该方法引入了“先观察后提问”的点级标注策略和交互式语义分割网络(ISS-Net),在弱监督下显著降低了标注成本的同时保持了分割精度。刘等[19]研究了噪声标签在监督预训练中的作用,分析了其对遥感分割任务中编码器性能的影响。通过将噪声标签预训练与自监督学习方法如DINO和MoCo进行比较,他们进一步证明了噪声标签在预训练中的有效性,并探讨了类别不一致如何影响模型的迁移性。李等[20]开发了SAM-OIL框架,该框架结合了基于YOLOv8的目标检测、改进的SAM分割模块以及基于顺序 Mask 融合(OMF)机制,用于 SAR 图像中的溢油检测。这种方法显著提高了检测准确性,同时减少了对细粒度标注的依赖。
为了进一步提高标注质量和效率,吴等人的研究[21]开创了使用多模态视觉-语言模型(VLM)进行农田分割的方法。他们构建了一个包含图像和文本配对的数据集,并将语义分割模型与大语言模型(LLMs)结合,开发出FSVLM模型,从而提升了遥感分割的泛化能力和精度。李等人的研究[22]引入了一种半自动标注方法,该方法结合了 Anchor 实时线和ROI实时线算法,以解决传统遥感指数标签不完整以及交互式分割中的不足问题。韩等人[23]设计了DM-ProST框架,该框架通过两个深度学习模型之间的互校生成高质量的伪标签并扩展训练数据集,这种方法选取可靠的无标签样本,提高了分割准确性。朱等人[24]提出了AIO2(自适应触发在线目标标签纠正),该方法整合了自适应纠正触发(ACT)和在线目标标签纠正(O2C),增强了对噪声标签的鲁棒性。石等人[25]开发了一种自动化的多时相变化检测方法,用于遥感图像,并融入了边界保留技术。通过应用自适应裁剪和优化分类器训练,他们的方法生成了高质量的标注并更新了现有的基于多边形的标签。然而,这种方法未能解决标签遗漏的问题,并且难以处理非多边形目标,例如油污和湖泊。
该“分割一切”模型因其在遥感、医学影像及地球物理勘探等领域的自监督基础模型中的作用而备受关注[26]。在土地利用和作物类型分割方面,SAM显著提升了性能[27], [28]。Ma等人[29]研究了地球物理基础模型(GeoFM)在地球物理勘探中的应用,并将SAM应用于地震相拾取。此外,SAM还增强了遥感图像中的建筑分割和城市区域界定能力[30], [31], [32], [33], [34],展示了其处理复杂地理特征的能力。
基于 SAM2-Unet [15] 的研究进展,本文提出了一种名为 SAM2-ELNet 的模型,旨在增强标注并实现自动标注。该模型特别针对标注增强和自动标注进行了定制,通过集成 Adapter 实现参数高效微调(PEFT),同时保留预训练编码器的特征提取能力。
如图1所示,由于遥感数据集有限,从头重新训练Hiera可能会削弱其特征提取能力。为了保留其有效性,在训练过程中作者采用了冻结 Backbone 网络的策略。遥感图像表现出更高的噪声和异质性。为了实现高效的微调并保持对遥感任务的适应性,SAM2-ELNet 继承了 SAM2-Unet 的 Adapter 设计。作者在Hiera编码器的多尺度模块之前整合了 Adapter ,使模型能够动态重新调整特征分布,并减少可调参数的数量。SAM2-ELNet 采用冻结编码器的策略,其PEFT方法类似于低秩适应[39](LoRA)。LoRA 主要针对Transformer结构的注意力机制,而SAM2-ELNet 在Hiera编码器的多尺度模块之前嵌入了 Adapter 模块,以调整特征映射并增强模型的适应性,使其更适合遥感标签优化任务。
在解码阶段,SAM2-ELNet 引入了边缘注意力机制以增强沿目标边界处的特征响应,从而提高分割准确性。作者还引入了一个 Token 模块,用于将连续的灰度图转换为高保真的二进制标签,以保留关键细节。后续部分将深入探讨每个模块的功能。
Hiera(分层Transformer)[40] 是一种用于高效视觉特征提取的Transformer主干网络。与传统的卷积神经网络(CNNs)不同,Hiera 通过分层特征建模既捕捉局部细节又捕获全局语义。其分层计算策略在保持强大表示能力的同时减少了计算成本。作者的模型使用了预训练的SAM2-Hiera作为编码器,利用其多尺度特征学习生成高质量的分割特征。四个受接收场块(RFBs)[55]、[56] 进一步处理提取出的特征,将通道数减少到64,以增强轻量级特征表示。Hiera 的结构如图2所示。
Hiera 的参数量巨大,进行全面微调计算成本高昂。为了提升参数效率,作者采用了 SAM2-Unet 设计,在每个多尺度块之前冻结 Hiera 的参数并插入轻量级 Adapter 。每个 Adapter 包含一个下采样线性层,随后是 GeLU 激活函数,然后是一个上采样线性层,再接一个 GeLU 激活函数。这种结构使得模型能够高效地重新校准特征分布,同时减少可训练参数的数量。
原有的解码器遵循经典的U-Net设计,由三个解码块组成,每个块包含两层ConvBN-ReLU结构。在处理具有模糊边界或低对比度的遥感图像时,这种结构往往会产生轮廓不清晰、边缘碎片化或过度平滑的分割输出。为了应对这些问题,作者引入了边缘注意力机制(EAM),以提高边界的分割精度。
EAM 在上采样阶段增强特征图对边界区域的关注。在每次上采样步骤之后,它确保多尺度特征聚合保留了关键的边界信息。本研究中的EAM采用卷积操作提取目标边界特征,并应用逐元素加权来细化输入特征,引导模型强调边界细节。边缘注意力权重的计算如下:
其中
是输入特征图,
是一个
的卷积核。* 表示卷积操作,BN 表示批量归一化,
表示 Sigmoid 函数。
生成的边注意力权重
调节原始特征
,以实现边增强:
其中,
表示元素-wise相乘操作。
是一个强调边缘相关信息的增强特征图。该模块采用了一种轻量级设计,仅使用了一个独立的
卷积层,与自注意力机制相比,显著降低了计算成本。
作者将损失函数定义为加权交并比(IoU)损失
和加权二进制交叉熵(BCE)损失
的组合,具体定义如下:
为了增强训练效果,作者对所有的分割输出
应用深层次监督,从而得到最终的总损失函数:
其中,
表示 GT 标签,而
则代表由模型生成的多尺度分割输出。
模型的初始预测结果是灰度图像,其强度值范围从0到255。为了将这些预测转换为二元标签,作者的工作设计了一个基于边缘检测和区域生长变换的标注模块。该方法结合了Canny边缘检测[41]、形态学处理[42, 43]、距离变换以及区域生长算法[44, 45],以准确地提取前景、背景和边界区域。标注过程的结构如图3所示。
为了详细说明标注流程,作者对输入图像
应用Canny算子以提取物体轮廓,并强调显著边缘。这一过程生成了边图
,定义如下:
其中,
表示二进制边缘图,而
和
分别表示坎尼算子的下阈值和上阈值。这一步通过突出显示具有sharp强度过渡的区域来增强目标边界。
为了填补前景目标内的空缺部分,作者应用二值化和形态学膨胀的组合方法。在对输入图像进行阈值处理之后,作者执行膨胀操作:
="" $$d="{\mathrm{dilate}}(T,K,n)" 其中 ( T_{\mathrm{thresh}} ) 是二值化阈值,( K ) 是形态学核,( n ) 表示膨胀迭代次数。该操作可以增强前景区域,细化边界连续性,并减少目标内部的不连续性。
为了生成分割标签,作者通过将膨胀结果
与 Canny 边缘图
合并来构造前景 Mask
。类似地,作者通过反转二值化结果来获取背景 Mask
。
接下来,作者通过欧几里得距离变换对前景分割进行优化:
其中
是阈值缩放因子,控制前景区域的范围,以确保边界精度而不至于过度扩展。
利用提取出的前景和背景区域,构建标签矩阵
:
该矩阵作为分水岭变换的 Token 输入,基于梯度驱动的区域生长方法将图像分割为前景、背景和边界区域。
最终的标注输出
为边界区域和背景分配 O,前景目标设为 255,从而生成高质量的分割标签。
提出的方法的整体工作流程包括以下阶段:
初始人工标注。一小部分手动标注的数据作为初始训练集。虽然这些标注可能存在质量上的不足,但它们仍然提供了必要的监督信号。该数据集支持模型的初步训练,使模型能够学习基本的分割模式并适应目标任务的具体特征。
模型微调。模型初始化时使用预训练权重,并在手工标注的数据集上进行微调。在冻结编码器权重的情况下,微调过程主要优化 Adapter 和解码器。这种策略减轻了次优标注对模型学习的不良影响,有助于更好地适应遥感分割任务。
标签生成。训练完成后,微调后的模型推理出分割结果,并自动生成高质量的分割标签。
- 迭代优化(可选)。模型可以进一步利用增强的标签进行微调,并通过自适应学习逐步提高分割质量。这种迭代策略逐步提升标注的准确性和稳定性。
Deep-SAR油污(SOS)数据集包含来自两种来源的SAR图像[46]:墨西哥油污区域的PALSAR数据和波斯湾地区的Sentinel数据。PALSAR是ALOS卫星上的L波段SAR传感器,而Sentinel是C波段SAR传感器,二者均提供了全天候、无云遮挡的成像能力。在该数据集中,SAR图像中的暗区通常表示油污污染。Zhu等人[46]从21张SAR图像构建了数据集,并通过裁剪、旋转和添加噪声的方式扩展,产生了6,456张分辨率为416×416的油污图像。墨西哥油污子集包括3,101张训练图像和776张测试图像,而波斯湾子集则包含3,354张训练图像和839张测试图像。人工解释和GIS专家采样生成了标注信息,并对类别不平衡问题进行了优化处理。
理想情况下,油污区域应具有平滑和连续的边界。由于手动标注固有的主观性,以及遥感图像的异质性和噪声干扰,标注结果常常会出现标签细节缺失、断片化和多边形边界等问题。图4给出了示例。
该实验使用带有24GB内存的NVIDIA GeForce RTX 4090 GPU运行,并利用CUDA 12.4进行加速计算。模型采用sam2_hiera_large的预训练权重进行微调,并使用Adam优化器进行优化。超参数设置如下:训练周期200轮,批量大小12,学习率为0.001,权重衰减为
。
为了评估分割结果的质量,作者使用准确率和平均交并比(MIoU)作为评价指标。
总体准确率(ACC):总体准确率衡量模型正确分类所有类别的能力。其定义如下:
其中,TP 表示正确预测的前景像素数,TN 表示正确预测的背景像素数,FP 表示被错误分类为前景的像素数,FN 表示被错误分类为背景的像素数。
- 平均交并比
:平均交并比 (mIoU) 评估预测分割与 Ground Truth 之间的重叠程度。它计算公式为:
其中,
、
和
分别表示类别
的真正例、假正例和假负例的数量,而
是总的类别数量。
定性分析:该模型仅使用PALSAR数据集的训练子集进行微调,共进行了200个epochs。完成训练后,模型提升了PALSAR数据集的训练集和测试集标签,生成了高质量的标注,用于后续分析。
从定性的角度来看,增强后的标签在视觉上显著优于原始标注,这如图5所示。
如图5所示,增强后的标签边界更加平滑且连续,显著提升了标注细节的质量,与原始标签相比具有明显优势。这种改善并非局限于个别情况,而是一贯的趋势贯穿整个数据集。增强后的标签在边界平滑度、物体形状精度以及复杂区域和模糊边界的精确描绘方面表现出色,使得目标轮廓的划分更为精准。增强后的标签的一致性和准确性验证了该模型有效优化手工标注数据的能力,为遥感图像分割任务提供了更可靠的监督数据集。
定量分析:在本次实验中,作者使用开源实现的DeepLabv
[46]、[47] 对比研究了标注质量对模型性能的影响。具体而言,作者将比较使用原始标签训练的模型与使用增强标签训练的模型之间的性能差异。所有实验均采用相同的训练条件,使用DeepLabv
MobileNet、DeepLabv
ResNet50 和 DeepLabv
ResNet101 作为 Baseline 模型。每个模型均使用相同的预训练权重初始化,并以一致的超参数集训练20个周期。
实验结果表1和图6显示,使用增强标签训练的模型在平均交并比(mIoU)和总体准确率(ACC)方面始终优于使用原始标签训练的模型。这表明增强标签有助于更有效的学习代表性特征。此外,使用增强标签训练的模型收敛速度更快,并且达到更低的最终损失值,这证实了增强标签更准确地捕获了真实的数据分布。因此,利用增强标签可以显著提升分割任务的整体性能。
为了评估模型的一般化能力,作者仅在PALSAR数据集的训练集上进行微调,并在200个 epoch 中进行了优化。训练完成后,作者使用微调后的模型对哨兵数据集的训练标签和测试标签进行了 refinement,生成了更高质量的标注。这种方法帮助作者评估了模型对不同数据分布的适应性,并探索其在自动标注任务中的潜在应用。
定性分析:为了视觉上评估标签增强对Sentinel数据集分割性能的影响,作者通过视觉检查进行了对比分析。如图7所示,使用增强标签训练的模型在分割性能上优于使用原始标签训练的模型,显示出更清晰的边界、更精细的分割细节以及更好的目标区域保留。增强过程有效地缓解了边界模糊和目标遗漏等问题,从而获得更精确的分割结果。
定量分析:为进一步量化标签增强对模型泛化性能的影响,在相同的训练条件下进行了对比实验。具体来说,作者使用了DeepLabv
MobileNet、DeepLabv
ResNet50和DeepLabv
ResNet101作为基准模型。所有模型均初始化为相同的预训练权重,并采用一致的超参数配置进行训练,共训练20个epoch以评估其在不同数据集上的适应性和泛化能力。
实验结果如表2所示,在跨数据集迁移后,总体性能有所下降,但模型仍然展现出强大的自动标注能力,进一步证实了所提出方法在遥感图像自动标注中的可行性。
为了探究边缘注意力机制对面遥感图像分割性能的影响,作者的研究进行了消融实验。通过比较包含和不包含边缘注意力机制(EAM)的模型配置,作者的工作评估了其在定性可视化和定量指标方面的差异,以评估其对提高分割精度的贡献。
qualitative分析:图8展示了启用(左图)边缘注意力机制与未启用(右图)该机制时获得的分割结果。
实验结果表明,边缘注意力机制显著提高了沿目标边界处的分割精度。在对比度低或边缘模糊的区域,该模块能够捕获更精细的细节,生成更加平滑且连续的分割边界,从而减少锯齿状或断裂的边缘。相比之下,未采用边缘注意力机制的模型在这些区域的表现较差,往往会扭曲形状并产生含糊不清的边界,从而降低分割质量。
然而,引入EAM可能会在小尺度区域导致轻微的信息损失,从而导致一些小的油污区域被忽视。从标注的角度来看,在需要清晰界定边界的情况下,引入边缘注意力更为适合生成分割标签。
定量分析:为进一步量化EAM的贡献,作者的工作在相同的训练条件下进行了对比分析,评估了包含和不包含该模块的模型在关键指标上的性能。结果详见表3。
如表1HI所示,集成边缘注意力机制显著提高了ACC和mIoU,同时降低了最终损失。这些结果表明,边缘注意力机制EAM有效地增强了局部边界的精确度,从而使生成的分割标签更加稳定和准确。
为了评估计算效率,作者比较了不同深度学习分割模型每轮训练所需的时间。作者在一块NVIDIA 4090D GPU上进行了所有实验,并使用了包含3,101张图像的训练数据集。实验结果见表4。
实验结果表明,与其它模型相比,作者的模型每个训练周期的训练时间显著缩短。具体而言,与DeepLabv3+ ResNet50相比,训练时间减少了约45.8%;与DeepLabv3+ ResNet101相比,则减少了约60%。这些发现强调了作者模型的优越训练效率,能够实现更快的收敛和更低的计算成本。
该模型的解码器输出对每个像素进行分类,以区分海洋和溢油区域,生成一个单通道灰度图像。每个像素值表示属于海洋或溢油区域的概率。与直接生成二元标签不同,此输出由范围从0到255的连续灰度值组成,提供了更多详细的置信信息。
在标注过程中,基于阈值的分割不可避免地会导致细节丢失,尤其是影响边界精度和形态准确性。如图9所示,所提出的手标模块有效地保留了更多细节,尤其是在溢油区域的边缘轮廓上。实验结果进一步表明,直接使用灰度概率图能够更加精细地表示不同区域的信心水平。这种方法可以为后续分析和决策保留更多的信息,在需要人工辅助判断的情景中可能更为有利。
作者的研究提出了一种增强边缘标签网络,称为SAM2-ELNet,该网络结合了一个标签模块和一个边缘注意力机制。该模型不仅有效地解决了手动标注数据中标签细节丢失、碎片化以及不准确边界的问题,还具有高效的训练效率和强大的泛化能力。为了评估生成标注的质量,作者在手动标注的Deep-SAR OilSpill (SOS) 数据集上进行了实验,并比较了使用原始标签和增强标签训练的DeepLab系列模型的性能。实验结果显示,在相同的实验条件下,使用增强标签训练的模型在mIoU和准确性方面提高了约5%,并且收敛速度更快、最终损失值更低,这表明改进后的标注更好地逼近了真实数据分布。对于跨数据集迁移,该模型展示了较强的泛化能力,并能够为新数据集生成高保真伪标签。这种方法为大规模遥感图像的高效处理提供了可行的解决方案。
合成孔径雷达(SAR)影像的实验验证了该模型的有效性。未来的研究将进一步将其应用扩展至多光谱和高光谱遥感数据,以评估其在不同模态下的鲁棒性。遥感领域的通用分割模型的研发仍具挑战性。本研究启发了对 Adapter 模块和解码结构进一步优化的探讨,以增强迁移学习能力,支持遥感中更高效且准确的图像分析。
unsetunset参考unsetunset
[0]. SAM2-ELNet: Label Enhancement and Automatic Annotation for Remote Sensing Segmentation .
点击上方卡片,关注「AI视界引擎」公众号