点击下方卡片,关注
「集智书童」
公众号
导读
从遥感(RS)图像中提取和分割目标在 urban 环境监测中是一项关键且具有挑战性的任务。城市形态本身复杂,包含形状和尺度各异的非规则物体。这些挑战因 RS 数据源(包括传感器、平台和模式)的异质性和尺度差异而加剧,使得准确的目标分割特别具有挑战性。虽然 Segment Anything Model(SAM)在分割复杂场景方面显示出巨大的潜力,但由于需要手动交互 Prompt ,其在处理形状变化的物体方面的性能仍然有限。为此,作者提出了 UrbanSAM,这是 SAM 的一个定制版本,专门设计用于分析复杂城市环境,同时解决来自遥感观测的尺度效应问题。
受多分辨率分析(MRA)理论的启发,UrbanSAM 集成了一种新颖的可学习 Prompt 器,配备了一个 Uscaling-Adapter,该 Adapter 遵循不变性准则,使模型能够捕捉到物体的多尺度上下文信息,并以理论保证适应任意尺度的变化。此外,通过 Mask 交叉注意力操作,Uscaling-Adapter 和主干编码器的特征对齐,使得主干编码器能够继承 Adapter 的多尺度聚合能力。这种协同作用增强了分割性能,产生了更强大、更准确的结果,这些结果得到了学习 Adapter 的支持。
大量的实验结果表明,UrbanSAM 在一个全局规模的数据库上表现出灵活性和优越的分割性能,该数据库包含尺度变化的 urban 物体,如建筑物、道路和水。
- 引言
城市地表特征的局部分布揭示了自然环境与社会经济因素之间的复杂相互作用,为城市规划、灾害响应、人口统计和交通等城市管理应用提供了关键见解。凭借无与伦比的广域覆盖范围,合成孔径雷达(SAR)图像成为高效大规模城市分析的关键数据源[1]。航空航天和传感器技术的最新进展显著提高了遥感(RS)数据的数量、空间分辨率和时间频率,为高精度城市地表制图开辟了新的机遇。然而,这一快速发展也带来了以下挑战,需要进一步关注:
·挑战1(参照:高异质性和复杂物体特征):城市场景由多种类型的物体组成,这些物体在光谱、纹理和形态特征上存在显著差异。这种异质性显著增加了分割任务的复杂性,因为传统方法难以泛化到具有不同外观和结构的物体。
挑战2(与高分辨率和细粒度相比):空间分辨率的提高有助于更精细地描绘城市地表特征,增强了捕捉复杂细节的能力。然而,这种改进也带来了挑战,例如冗余信息和噪声干扰增加,需要仔细平衡分辨率、计算效率和分割精度之间的关系。
挑战3(参见高空间密度和多样化布局):文化和自然差异导致了全局城市环境的多样性,其中内部地理结构呈现出各种大小、形状和密集的布局模式。这种空间复杂性阻碍了明确区分不同目标类别,使得精确分割变得尤为困难。
为有效解决上述城市地表分割的挑战,开发能够无缝捕捉城市环境多样、多尺度、异构特性的模型至关重要。基础模型[2]在人工智能领域引发了一场技术革命,通过在庞大的数据集上进行大规模预训练,实现了可泛化的理解和表征能力[3]-[6]。这些能力可以有效地跨领域和下游应用进行迁移[7]、[8],推动人工智能研究和实践的重大进步。受到这一快速进步的推动,SAM[9],第一个专门为图像分割设计的基础模型,在数百万张图像和超过十亿个 Mask 上进行预训练。SAM的出现引领了以 Prompt 驱动的分割新范式,这促进了其在广泛领域的应用,包括计算机视觉[10]、[11]、医学影像[12]-[14]、工业检测[15]-[17]和自动驾驶[18]-[20]。目前,SAM正在积极探索在遥感(RS)领域,通过高质量预测来提升分割任务性能。例如,MeSAM[21]在SAM编码器中嵌入了一种新型 Adapter ,以改善RS光学图像的高频特征。RSAM-Seg[22]利用残差网络连接丰富了高频信息。SCD-SAM[23]引入了双编码器结构,在结合局部信息的同时提取语义变化特征。[24]将特定类别任务与文本 Prompt 相结合,生成通用示例。CWSAM[25]采用类 Mask 解码器来增加SAR图像中的低频信息。Rsprompter[26]利用基于 Anchor 点的 Prompt 生成器和 Mask 解码器来处理特定类别输入,例如分割。SAGFFNet[27]使用自适应模块在输入之前降低高光谱图像的维度。SAMRS[28]引入了一个由旋转边界框 Prompt 生成的大规模RS分割数据集。UV-SAM[29]利用来自小语义分割模型的混合 Prompt 信息来指导SAM进行细粒度边界检测。
SAM相关技术在遥感(RS)城市应用中主要可以分为三种关键方法。(1)样本标注。SAM能够实现快速、高精度的半自动化标注,显著减少了手动标注所需的时间和精力。(2)针对特定任务的微调。MAF-SAM[30]引入了一种多阶段适应策略,用于使用多光谱图像对土地覆盖进行分类时微调SAM。SAM-Road[31]-[33]将SAM应用于道路分割任务,而水体提取主要集中于微调 Mask 解码器[34]、[35]。(3)将额外的辅助信息作为 Prompt 融入。YOLOScSAM[36]利用YOLO生成的 Anchor 框作为 Prompt 输入,引导SAM分割农田区域。SAM与CLIP[37]结合用于海冰提取,以实现海冰区域的精确分割和分类。SPA[38]提出利用现有的目标检测边界框作为 Prompt ,结合SAM创建新的语义分割数据集。RSPrompter[26]利用特征聚合器在SAM的编码器中定位目标并推理其语义类别。MW-SAM[39]引入特定的湿地特征以增强 Prompt 输入。SolarSAM[40]应用文本引导的语义分割,以准确分割建筑屋顶。
SAM在遥感领域的探索还远未穷尽,因为当前的应用主要作为辅助工具,或者依赖于为单一任务目标量身定制的未充分发展的微调策略。为了在全局城市场景中实现稳健的分割,当前SAM实施中存在的一些差距可以概括如下:
- • 间隙1(与尺度效应比较):RS成像方式导致同一物体在不同分辨率下表现出不同的表面语义特征。此外,不同物体类别在特定空间尺度上的空间分布和关键特征更能得到良好表示。因此,尽管SAM可能针对特定任务进行了微调,但它通常难以适应其他任务中的尺度变化,最终损害了特征提取的准确性。
- • 漏洞2(参照手动 Prompt ):交互式SAM框架的分割性能高度依赖于提供的 Prompt 的准确性。然而,在全面区域分割任务中,高质量的手动标注往往有限。通常可用的Sparse Prompt 可能无法全面覆盖整个样本空间,导致算法稳定性降低和分割结果不一致。
为了有效解决上述挑战,作者旨在设计一种具有自适应 Prompt 的分割模型,能够处理各种城市形态的多样性和异质性。受MRA理论启发,作者研究了城市土地覆盖类型在不同分辨率下的分割性能,得出以下关键观察结果如图1所示:
-
- 有限的点和边界框 Prompt 限制了SAM的感受野,这对于道路和水体等细长目标尤其成问题,往往导致显著的遗漏。
-
- 从多分辨率视图的分割结果来看,与MRA理论一致,虽然内部结构中可能存在某些遗漏或误报,但观察到多视图之间的固有不变性。值得注意的是,目标区域感受野与整个图像的比例保持稳定。
基于这些发现,作者提出了一种灵活的 Adapter ,旨在学习跨多个分辨率的尺度不变特征。不同于现有方法中常用的传统卷积流程,作者引入了一系列符合MRA的U形 Adapter ,以解决由不同分辨率、尺度形状带来的挑战。重要的是,作者引入了交叉注意力机制,以将 Adapter 与 Backbone 编码器对齐,实现不变学习的迁移,同时取代传统的手动交互 Prompt 。
图1展示了所提出的UrbanSAM的设计概念,突出了其在解决尺度效应和提高复杂城市环境中的分割性能方面的重大贡献。
- • 针对全局城市场景的定制化SAM。据作者所知,所提出的UrbanSAM是第一个针对城市建筑中的物体提取和分割进行定制的基座模型。通过学习多尺度上的不变属性,UrbanSAM有效地消除了对人工交互 Prompt 的依赖,实现了对多样化城市特征的鲁棒且精确的分割。
- • 基于不变性理论的启发,UrbanSAM采用多个U缩放 Adapter 来捕捉跨多种尺度不同城市形态的潜在共性——即内在的、保持不变的性质。这有助于实现鲁棒且一致的特征表示,有效应对城市环境中的全局变化。
- • 注入特定领域先验。根据层次继承原则,UrbanSAM整合了跨注意力机制,以系统地对多个 Adapter 在不同阶段与 Backbone 编码器进行对齐。这种集成使编码器具备了更强的学习不变性的能力,进而产生可学习的 Prompt 。这种方法不仅增强了分割结果鲁棒性,还消除了对手动 Prompt 的依赖,使系统更加高效且能够适应多样化的城市环境。
- • 多尺度 Adapter 。UrbanSAM具备一个执行采样操作的调节器,以适应任意尺寸的输入图像。此外,U型 Adapter 能够有效地在特定分辨率下捕捉全面的上下文语义信息,减轻由尺度调整引起的精度损失,并实现跨不同空间尺度更精确和完整的特征提取。
- • 优异性能。UrbanSAM在多种城市物体提取任务中表现出卓越的性能,例如建筑、水域和道路提取。通过持续超越现有最先进的方法,它展示了在城市环境复杂性方面的非凡有效性、鲁棒性和泛化能力。
- 受多分辨率分析启发的不变性学习
A. 多分辨率分析理论
从计算机视觉的角度来看,仅基于单个像素值直接分析全局图像信息存在重大挑战。相反,更加强调局部变化,因为这些区域通常对应于感兴趣目标的关键特征。为了避免由过饱和引起的冗余计算,只有通过确定最佳尺度或分辨率,才能实现更全面的分析。然而,图像中目标尺寸的巨大变化使得预先定义一个适用于分析的通用分辨率变得复杂。自适应多尺度方法通过动态调整以适应不同的目标尺寸和分辨率,从而实现更准确的分析。
MRA的概念在[41]中被定义,该理论从理论上证明了其在不同尺度上的不变性。这一理论保证为多分辨率图像表示提供了重要的基础和来源。
不变性。存在一个最优基
,由函数
构成和转换
定理
(Rieze 基):设
为
的多分辨率逼近。尺度函数
满足以下条件:
当
趋
向
于
无
穷
大
时
,
函
数
与
之
间
的
范
数
平
方
的
极
限
等
于
。
当函数序列
在
时收敛到
的情形下,进行逼近。假设分辨率
包含了较低分辨率
中的所有信息。
,
是一个观测函数,具有
个子空间序列
。定理
:在所有不同的分辨率下,逼近操作相似,这表明目标子空间可以通过其他尺度逼近来推导或表征。
属
于
当
且
仅
当
属
于
。
MRA理论断言,任何复杂的图像空间都可以表示为一系列系数
和最优基函数空间
的乘积,其中基函数可以灵活缩放以适应任何分辨率。这一理论意味着对于每一幅图像,都存在一个分辨率不变的基函数空间,它封装了图像的全局内在结构属性,在分辨率变化的情况下保持不变。因此,推导出这个基函数空间为解决由全局图像多样性带来的挑战提供了一种稳健的方法。
B. U-Scaling:构建一个用于感知不变性的精细 Adapter
卷积定理表明,卷积运算在信号的频域中相当于乘法,这一原理也适用于图像处理。因此,一种常见的方法是直接或简单地将卷积流用于连接两条路径上的对应层。然而,城市遥感(RS)图像通常具有复杂的语义场景,这进一步增加了分析难度。此外,RS图像中显著的尺度变化——从1000米到0.5米的地面采样距离(GSD)——使得单尺度图像分析既具有挑战性又不够充分。这种尺度多样性往往导致无法捕捉到关键细节或完全反映实际城市场景中的语义上下文。
U型编码器被设计为多尺度特征的从上到下的级联组合,范围从浅层
到深层
。相比之下,解码器以自下而上的方式从深层
到浅层
聚合多尺度特征,从而纠正并增强特征表示能力。毫无疑问,这与方程(3)中描述的不变性学习近似相一致。根据定理,在整个可扩展过程中,将涉及分辨率基空间的表达式,使模型能够学习不随分辨率变化的内在图像属性,无论输入图像大小如何。
这自然促使作者通过MRA对城市遥感图像的尺度特征进行建模。更具体地说,作者旨在通过学习跨多个分辨率的场景内在尺度不变性来消除对人工 Prompt 的依赖,从而实现对SAM的自适应和有效 Prompt 引导。作者提出了一种由四个U-Scaling模块组成的 Adapter (如图3所示),其中每个U-Scaling模块被设计用来逼近不同分辨率下各种形式的最佳基空间。这种配置允许在任何分辨率和形式下有效地分割目标。通过连接所有 Adapter 并应用加权调整,UrbanSAM动态地解决了全局城市结构异质性带来的挑战。
具体而言,当图像特征
被输入到 Adapter 中的U-Scaling模块时,它们首先经过两次卷积映射。同时,ReLU激活函数的应用促进了在更高分辨率下特征空间的非线性变换。随后,使用MaxPooling操作有效地利用上下文信息,在较小的步长范围内实现不同分辨率之间的无缝过渡。最终,U-Scaling模块内同一尺度的特征通过残差连接进行聚合,从而增强了特征表示的完整性。该表达可以形式化表示为:
和
分别代表编码器和解码器的特征计算结果。
表示第
个 Adapter 在第
次尺度变换中的映射系数,实验中将
设置为 2。
表示第
个 Adapter 的输入特征。
- URBANSAM:针对城市场景的定制化SAM
在本节中,作者系统地介绍了所提出的UrbanSAM,如图2所示,提供了其设计和功能性的详细概述。最初,一个由多个U-Scaling模块组成的 Adapter ,受MRA理论启发,充当了一个关键的桥梁。交叉对齐机制促进了不变性学习能力向UrbanSAM图像编码器的转移,并将它们整合到LoRA参数的学习过程中。随后,跨多个分辨率的不变内在特征生成 Mask Prompt ,消除了对手动制作 Prompt 的依赖。值得注意的是,作者采用LoRA技术冻结了SAM中transformer块的核心参数,而只训练额外的LoRA参数。这种方法增强了UrbanSAM的泛化能力,并减轻了由变化的数据分布引起的偏差。以下提供更详细的说明。
A. 不变性迁移
通过使用交叉对齐, Adapter 的不变性学习能力被转移到图像编码器中。
同时,多尺度 Mask 预测结果被用于约束 Prompt 生成器的注意力区域,从而增强了自适应 Prompt 生成器的特征表示能力。
跨对齐机制。本节主要利用跨分支 Mask 注意力算子,在不同尺度上的U-Scaling输出
和ViT通过全局注意力块后的特征输出
,获得融合输出
。具体公式如下:
Softmax函数表示为whereSoftmax
。
对应于Query、Key、Value的参数矩阵,将特征维度从
映射到
,其中
表示交叉分支 Mask 注意力模块的维度,
表示通过sigmoid函数获得的预测结果的背景概率。在采样调整后,背景概率乘以通过softmax获得的权重矩阵中的元素。
低秩自适应(LoRA)。在基于LoRA的映射层中,作者将原始投影层的权重矩阵表示为W,并保持其冻结。通过包含两个线性层的快捷连接实现低秩近似。这些层的权重矩阵分别表示为
和
,其中
。矩阵
以随机高斯分布初始化,而
初始化为零,确保
的初始值为零。因此,修改后的投影层可表示如下:
和
是冻结的原始 SAM 中的权重矩阵,而
和
是可学习的 LoRA 参数。
B. 自适应 Mask 生成
Adapter 中多个U-Scaling模块的输出被用于增强前景区域预测,生成准确的 Prompt 。具体来说,与图像编码器交叉对齐的多尺度 Mask 被连接。随后,应用一个
卷积层来预测目标区域,前景分割由二元交叉熵和Dice损失约束。预测结果随后通过Sigmoid函数转换为前景概率,并引入一个初始化为0.5的可学习参数进行过滤。此过程可以表示如下:
符
定
义
为
:
其中
是从网络自适应学习中获得的阈值,
是Sigmoid函数,
是预测结果。采用这种方法,所提出的可学习 Prompt Adapter 模块可以根据不同的目标提取任务自适应地定制密集 Prompt ,从而消除了对UrbanSAM手动标注的需求,显著提高了UrbanSAM在复杂场景下的适应性。
C. 层次一致性解码器
解码器通过添加一个额外的层次上采样模块进行定制,该模块通过 Shortcut 逐步融合图像编码器和 Adapter 的中间输出,既作为约束也作为指导。这种集成有效地将 Adapter 的不变性学习能力融入解码器。此外,渐进式上采样策略,其特征是多次迭代和小的步长,更好地保留了空间细节和类别 Mask 信息,从而显著提高了 Mask 生成的质量。此外,作者引入了一个三层多层感知器(MLP),该感知器动态生成原始输出 Token 的权重,在深度监督下,这些 Token 包括类别和 Mask 信息。然后,这些 Token 在空间上与融合的特征相乘,以产生高质量的 Mask 生成。
这种渐进式策略包含四个特征
:1) 第一个块与ViT Backbone 编码器
中的 Adapter 进行交互;2) 来自UScaling模块的特征
;3) Mask 预测结果
;4) 解码器的最终输出
。此过程可以表示为:
其中
表示最终输出结果,
和
分别代表卷积和转置卷积操作。
表示空间逐点乘法,通过三层MLP操作实现token的动态权重生成。
D. 复合损失函数
UrbanSAM结合像素和区域损失,共同优化分割预测和 Mask Prompt 。该方法增强了模型对遥感结构的理解,提高了其在现实世界中的性能。损失函数定义为:
和
分别表示二元交叉熵损失和Dice损失。
和
是用于平衡这两个损失成分影响的加权参数。
考虑到 Mask 监督在 Mask 交叉注意力和 Mask Prompt 学习中的应用,以及应用于分层一致性 Mask 解码器结构的深度监督策略,最终的损失函数由以下公式指定的三个部分组成。
在此背景下,
表示真实值,
代表 UrbanSAM 的最终预测,而
指的是
分辨率的深度监督预测。
表示第
个 Mask 的输出,其中
考虑到 Mask Prompt 被设置为 5。
- 实验
A. 实验设置
五种常用的评估指标,包括总体精度(OA)、精确率、召回率、F1值和交并比(IoU),被用于评估UrbanSAM和比较方法的分割性能。具体来说,OA表示正确分类的像素数占总像素数的百分比。精确率量化了所有预测为正的实例中正确预测的正样本的比例。同时,召回率衡量了正确预测的正样本数与 GT 数据中总正样本数的比率。F1值是精确率和召回率的调和平均值,提供了对这两个指标的综合平衡度量。最后,IoU定义为预测区域和 GT (GT)区域交集与并集的比率。
图4进一步展示了数据集的地理覆盖范围,并详细说明了其在全局范围内的广泛分布(包括亚洲、大洋洲、北美洲、欧洲和非洲)。这突显了数据在不同地区分布的差异,进一步证明了该模型具有广泛的适用性,能够适应不同的地理环境。
实验使用PyTorch框架,在四块NVIDIA L40 GPU上进行训练,每块GPU配备48GB内存。训练损失函数定义为交叉熵损失和Dice损失的加权组合,其中交叉熵损失的权重设置为0.2,Dice损失的权重设置为0.8。模型使用带有动量和权重衰减值的随机梯度下降(SGD)优化器进行优化,动量值为0.9,权重衰减值为0.0001。学习率(lr)通过结合预热阶段和指数衰减策略进行调整。仅对transformer块中冻结的
和
投影层使用LoRA方法进行微调。LoRA秩设置为4以优化效率和性能,超参数
配置为秩的两倍。
为确保公平比较,所有方法均在相同的实验条件下进行评估,使用官方代码实现或预训练权重。作者对特定领域方法严格遵循各自出版物中指定的原始超参数配置。
B. 城市水
-
- 数据集:关于城市水问题,作者使用了GLH-Water数据集[42]。该数据集包含250张来自Google Earth的卫星图像,涵盖了除南极洲以外的所有大陆。每张图像具有约0.3米的高分辨率,覆盖面积约为3,686平方公里,分辨率为12,800×12,800像素。根据数据集原始的划分方案,作者将图像划分为512×512像素的非重叠块,从而得到125,000个训练样本和7,319个测试样本。
-
- 实现细节:在实验中,作者将输入图像大小设置为
,以尽可能保留遥感影像中水体结构的完整性和连续性。UrbanSAM的初始学习率(LR)设置为0.01,没有使用LR调度策略。遵循数据集论文中概述的原有配置,所提出的模型和比较方法在每个数据集上进行了15个epoch的训练,没有进行数据增强。 2. 3. 定量与定性比较:表1展示了UrbanSAM在水体提取任务中的定量评估结果,证明了其优越的性能。其ViT-H在无需人工 Prompt 的情况下实现了
的IoU,显著优于最佳 Baseline 方法
。这种改进归因于UrbanSAM Prompt 策略提供的多尺度不变特征,这使得模型能够超越仅依赖于水体与相邻表面之间的颜色差异的依赖,而是整合形状信息。这种融合增强了模型在颜色和形状特征不稳定的大规模水体提取场景中的泛化能力。
图5(A)展示了UrbanSAM在大型水体提取方面的出色泛化能力,能够精确捕捉不同地理景观和复杂地表覆盖条件下的各种形状的水体。与其他SOTA方法相比,第一行和第二行显示了其在复杂场景中的适应性,有效避免了相似地表覆盖的干扰,从而显著减少了遗漏和误检。第三行突出了其在不同尺度上精细分割水体的能力。此外,UrbanSAM在捕捉水体边缘的细微细节方面表现出色,表明其在全局范围内进行详细城市水系制图方面具有巨大潜力。
C. 城市道路
-
- 数据集:对于城市道路任务,作者使用了DeepGlobe [?]和LSRV [?]数据集进行实验。DeepGlobe数据集来源于DigitalGlobe
Vivid Images系列,覆盖泰国、印度尼西亚和印度等地区,总面积达
。该数据集包含6,226张标注图像,每张图像尺寸为
像素,空间分辨率为
,覆盖三个RGB波段。在作者的实验中,作者分配了4,980张图像用于训练,1,246张用于测试。LSRV数据集包括来自Google Earth的精确标注卫星图像,覆盖波士顿(美国)、伯明翰(英国)和上海(中国),空间分辨率介于
到
之间。图像被处理成
像素的非重叠块,从而得到1,041个训练样本和261个测试样本。 2. 2. 实现细节:道路提取任务输入为
的遥感图像。应用了数据增强技术,包括随机旋转和翻转。UrbanSAM及比较方法训练了200个epoch,前五个epoch采用了预热策略。初始学习率设置为0.005。 3. 3. 定量与定性比较:表Ⅱ显示,UrbanSAM的三个版本在道路提取任务中均实现了SOTA性能,相较于表现最佳的Deeplabv
,IoU分别提升了
、
和
。此外,与SAM和HQSAM的比较表明,UrbanSAM的可学习 Prompt 机制克服了传统框和点 Prompt 的限制。即使在处理遥感图像中复杂且细长的道路结构时,UrbanSAM也能有效减少误检和误报,展现出在复杂特征提取任务中的优越适应性。
图6展示了在大规模波士顿地图上精确提取连续且无碎片化的道路网络。图6(a)至(o)中的局部场景进一步强调了其在捕捉结构细节方面的卓越表现。场景1展示了在道路和背景颜色相似且纹理模糊的情况下,其精细提取能力。场景2说明了其在拓扑结构复杂的环形区域保持道路连通性的能力。场景3突出了其在具有高空间异质性的复杂场景中的优越性能。
D. 城市建筑
-
- 数据集:关于城市建筑任务,作者选择了三个具有代表性的数据集:马萨诸塞州[43]、Inria[44]和WHU[45]。波士顿数据集包含波士顿大都市区的航空图像,空间分辨率为1米,覆盖约340平方公里。每个1500×1500像素的图像代表2.25平方公里,展示了不同规模和建筑风格的建筑。为确保可重复性和公平性,数据集按照其原始配置进行划分,将图像和标签裁剪成512×512的块,重叠50%,从而得到2800个训练块和250个测试块。Inria数据集包括来自美国和奥地利的10个城市的航空RGB图像,覆盖810平方公里。根据官方指南,5000×5000像素的图像裁剪成512×512的块,重叠1%,排除了显著不平衡的样本,得到12,315个训练块和2500个验证块。最后,WHU数据集来自新西兰基督城,具有0.3米的高分辨率和超过450平方公里的面积。遵循原始研究的预处理方法,创建了非重叠的512×512图像块,从而得到包含8188个块的数据库,其中4736个用于训练,2416个用于测试。
-
- 实现细节:为了建筑提取任务,输入图像被统一重采样为
。UrbanSAM和比较方法均训练了200个epoch,数据增强仅包括随机旋转和翻转。遵循先前SAM模型(SAMed)的训练协议,作者在前五个epoch中应用了预热策略,初始学习率设置为0.005。
-
- 定量与定性比较:表1001展示了UrbanSAM在建筑提取方面的定量评估,并与SOTA方法进行了比较。结果表明,UrbanSAM在提取精度方面实现了最佳性能。具体来说,UrbanSAM优于SAM和HQ-SAM,分别提高了7.5%和6.83%的IoU。与使用可学习 Query 嵌入的RSBuilding不同,UrbanSAM在ViT-B和ViT-L版本中分别超越了其性能0.21%和0.76%。这种改进归因于UrbanSAM的尺度不变 Prompt 策略,该策略使模型能够更有效地捕捉建筑的一致几何属性,从而保留精细的内部细节和轮廓。
图7(A)直观地展示了该方法在复杂、大规模环境中准确捕捉各种建筑结构的能力,范围从密集的城市区域到分散的郊区建筑。第一场景强调了理解规则边界的好处,有效减轻了阴影干扰。第二场景突出了其在语义表示方面的精度,区分了相似物体之间的干扰。第三场景说明了该方法在辨别复杂、杂乱背景方面的鲁棒判别能力,有助于识别整个图像中的大型结构。UrbanSAM在捕捉各种建筑形式方面表现出色,并展现出强大的适应性。
E.消融分析
学习型U-Scaling Adapter 的有效性:为了评估基于不变性 Adapter 学习的 Mask Prompt 的有效性,作者模拟了不同准确度水平的各种 Prompt 场景: Mask Prompt 通过随机腐蚀和膨胀生成;点 Prompt 由随机分布的正负 Prompt 点创建;框 Prompt 通过随机偏移生成。与GT的重叠率量化了 Prompt 生成器的准确度。IoU衡量 Mask 和框的尖端,点 Prompt 的准确度基于与GT点的匹配比率。
表4显示,UrbanSAM不仅与带有70%准确率的 Mask Prompt 和带有90%准确率的20点 Prompt 相当,甚至优于带有100%准确率的框 Prompt 。图10展示了UrbanSAM在全局数据集上对水、道路和建筑的分割结果。这表明基于尺度不变性的 Prompt 策略具有显著的泛化能力和对不同地面物体提取任务的适应性。
单个组件:如图V(a)表所示,作者在马萨诸塞州建筑数据集上的消融实验验证了UrbanSAM模块在大规模城市精细制图中的应用性。实验结果表明,LoRA微调策略显著增强了SAM的零样本传输能力,相较于未使用LoRA时,提高了1.24%。与单尺度线索相比,IoU得分提高了0.83%,表明其在细粒度地面提取任务中的优势。交叉注意力模块通过有效地整合空间细节和全局语义,在 Baseline 性能上实现了0.43%的提升。分层解码结构在恢复分割细节方面尤为突出,进一步提高了地面物体提取的准确性,几乎提升了2%。这些结果表明,UrbanSAM的各个模块在提高模型分割准确性和细节保真度方面发挥着关键作用。
为进一步评估多尺度操作和 Mask 交叉注意力模块对UrbanSAM模型在地面物体信息提取中的贡献,作者在马萨诸塞州建筑数据集上进行了类别激活映射(CAMs)可视化,结果如图8和图9所示。与单尺度操作和非交互式方法相比,基于线索和交互的多尺度UrbanSAM更关注关键语义区域,并显示出对小型物体和边界细节的更好捕捉,突显了其在精细物体提取任务中的优势。这种性能得益于多尺度操作结构带来的更大感受野和更丰富的上下文特征,这显著提高了模型识别不同尺度地面物体的能力。此外, Mask 交叉注意力通过在模态特征序列之间建立互补性和相关性,有效地增强了模型在细节提取和整体分割精度方面的性能。
LoRA利用策略:尽管现有研究已经探讨了医学领域的LoRA微调策略,但在遥感领域,这种方法在很大程度上仍然是经验性的。表5(a)展示了不同编码器-解码器配置的微调结果。观察到,将LoRA应用于编码器和解码器均优于仅将LoRA应用于解码器或对所有解码器参数进行微调的策略,尽管后者涉及更多的可学习参数。这可能是由于遥感目标提取与传统计算机视觉分割任务之间的差异,过多的参数更新可能会覆盖SAM固有的分割先验,导致灾难性遗忘。
表6(a)探讨了不同秩大小对UrbanSAM性能的影响。当秩设置为4时,性能达到最优,进一步增加秩会导致性能下降。表6(b)表明,仅将LoRA应用于q和v投影层可以获得最佳性能,进一步强调了在域适应过程中过度参数更新会增加训练的复杂性和难度。
复分析:为进一步验证UrbanSAM的有效性并展示其优势,作者对马萨诸塞州建筑数据集上的网络复杂性进行了分析。表6l和图11显示,UrbanSAM的ViT-Base版本在多个独立于线索的网络框架中(包括CNN、Transformer和SAM结构变体)实现了最高的分割精度(75.80%),同时具有最少的可学习参数(11.20M)。尽管HQ-SAM的可学习参数也较少,但其性能依赖于人工线索,这往往会导致额外的参数消耗和性能波动。值得注意的是,UrbanSAM的ViT-Base和ViTLarge版本在IoU上分别提高了2.21%和3.66%,而使用的总参数仅占RSbuilding模型训练中所有参数的11.1%和5.8%。此外,分析还表明,UrbanSAM仅通过少量的额外计算成本就显著提高了特征提取精度,这展示了其在城市精细地面物体映射中的显著优势。
- 结论
本文介绍了UrbanSAM,这是第一个旨在自主解决全局城市场景的细粒度复杂性和形态异质性的分割基础模型。与现有专注于微调解码器或使用不匹配预训练编码器的SAM优化策略不同,UrbanSAM引入了一系列受MRA理论启发的灵活可学习的Uscaling Adapter 。这些 Adapter 无缝集成到主干编码器中,将特定领域的先验知识和多分辨率不变性结合到预训练基础模型的一般知识中。这种捕捉和学习固有不变属性的能力确保了其在全局多样化的城市环境中的强大适用性和鲁棒性。
这种无缝继承是通过层次交叉注意力和LoRA操作实现的,这些操作有效地对齐和融合了多尺度 Adapter 与主干编码器,消除了对手动交互 Prompt 的依赖,并产生了可学习的 Prompt 。在全局规模数据集上的大量实验结果表明,UrbanSAM在处理尺度变化的都市物体,包括建筑物、道路和水体等方面,展现了其灵活性和优越的分割性能。
展望未来,作者的研究旨在实现几个关键目标:通过纳入更广泛类型的、模态的以及时间序列,扩大训练数据的数量和多样性。这些改进将显著提升模型的通用性,并释放其在众多现实世界应用中的潜力。
参考
[1]. UrbanSAM: Learning Invariance-Inspired Adapters for Segment Anything Models in Urban Construction
扫码加入👉
「集智书童」
交流群
(备注:
方向
学校/公司+
昵称
)