ROs-SAM：基于LoRA微调、增强深层网络及结合全局局部信息的遥感视频交互分割方法，大幅提升IoU并具零样本能力 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

大规模遥感视频数据的可用性突显了高质量交互分割的重要性。然而，小目标尺寸、模糊特征以及有限的泛化能力使得当前方法难以实现这一目标。在本文中，作者提出了ROs-SAM方法，旨在在保持对多样化遥感数据的泛化能力的同时，实现高质量的交互分割。ROs-SAM基于三项创新：

1）基于LoRA的微调，能够实现高效领域适应并保留SAM的泛化能力；

2）增强深层网络层以提高提取特征的可区分性，从而减少误分类；

3）在 Mask 解码器中结合全局上下文与局部边界细节，生成高质量的分割 Mask 。此外，作者设计了数据 Pipeline ，确保模型在训练过程中学会更好地处理不同尺度的目标，并且在推理时专注于高质量预测。遥感视频数据集上的实验结果显示，重新设计的数据 Pipeline 将IoU提升了6%，而ROs-SAM则将IoU提升了13%。

最终，在现有遥感目标跟踪数据集上的评估表明，ROs-SAM展示了令人印象深刻的零样本能力，生成的 Mask 与手动标注高度相似。这些结果证实了ROs-SAM作为遥感应用中细粒度分割的强大工具的地位。

代码可在以下链接获取：https://github.com/ShanZard/ROS-SAM。

unsetunset1. Introductionunsetunset

视频卫星视觉任务的研究已成为当今遥感领域最有前景和发展最活跃的前沿之一[6, 24, 25]。然而，对于遥感视频移动目标（RSVMO），这些目标的小尺寸、模糊特征、高密度以及逐帧标注的复杂性和成本使得识别和分割这些目标极其困难。如图1所示，飞机、汽车、船只和火车是视频卫星数据中最常见的移动目标，对这些目标进行标注和开发检测算法都是严峻的挑战。同时，缺乏像素级标注信息直接导致许多算法无法正确训练和推理。

picture.image

遥感目标跟踪多年来已得到了积极的发展，已有许多带标签的数据集可供使用[6, 13, 26, 60, 63, 66]。自然地，可以问是否可以通过交互式分割利用现有的目标跟踪数据集来实现遥感视频目标分割。此外，这种方法的主要优势在于能够将现有目标跟踪数据集转化为分割数据，从而以最小的额外成本推进遥感视频分割。

Segment Anything 模型（SAM）[23] 是一个基础模型，旨在用于图像的视觉分割，它基于11亿个多样化的高质量分割 Mask 进行了训练。这种广泛的训练赋予了 SAM 强大的先验知识和零样本能力。此外，SAM 的基于 Prompt 的交互式学习策略非常适合将边界框转换为分割 Mask 。然而，作者的实验表明，SAM 在遥感数据背景下无法有效地实现这一转换。这引发了一个问题：在一般视觉任务中，SAM 的性能与在遥感领域的局限性有何不同？作者旨在从三个角度来回答这个问题：

(i) 许多实证研究表明，通用视觉模型与遥感任务之间存在显著差距。一个明显的例子是，在遥感数据中，物体通常不受重力影响，其方向性往往具有不确定性。当预测飞机的方向时，SAM 经常难以确定飞机面向的方向，往往预测出一个普通的四边形。此外，SAM 辨别地物特征的能力有限，难以区分船只和波浪或飞机和登机桥。

(ii) SAM的预测 Mask 经常面临两个主要问题：粗糙的 Mask 边界和碎片化的 Mask ([21])。SAM的 Mask 解码器采用了一个修改过的Transformer架构，它通过图像嵌入和 Prompt Token生成 Mask 预测。然而，从图像嵌入中精确推理出物体的位置是一项挑战，因为图像嵌入往往缺乏精细的纹理细节和边缘信息。这些因素使得SAM难以直接生成高质量的分割 Mask ，这些 Mask 与通过人工标注创建的 Mask 高度相似。

(iii) SAM 要求输入图像的分辨率固定为 (1024 \times 1024) 像素 [20]，这在处理遥感数据时会带来挑战。遥感图像通常具有较大的空间维度，但感兴趣的物体往往很小。因此，下采样可能会导致这些物体完全消失。为了应对这些问题，必须设计一个更适合训练和推理的新 Pipeline ，该 Pipeline 能够更好地适应遥感图像的独特特征。

基于这些分析，作者提出了一种有效的方法——ROS-SAM，用于对SAM进行遥感视频移动目标分割的微调。此外，作者设计了一个新颖的训练和推理Pipeline，旨在实现高质量的分割效果。首先，作者使用低秩适应（LoRA）[14]来调整图像编码器的参数，以最小化预训练数据与遥感数据之间的领域差距。作者还解冻图像编码器的最后一层块，以增强其提取更具辨别力的图像嵌入的能力。其次，作者在HQ-SAM[21]的基础上修改了 Mask 解码器，将网络中的早期和最终特征结合起来，以提高预测恢复和细化的效果。此外，与HQ-SAM不同，作者没有冻结原始SAM的 Mask 解码器。相反，作者应用交替优化方法来更新编码器和解码器的参数。这种方法增强了SAM在RSVMO中的适用性，同时保留了其零样本能力。最后，通过在训练过程中引入大规模抖动（LSJ）[11]和随机旋转等策略，作者重构了训练和推理Pipeline，以捕获各种尺度的目标。对于推理，作者设计了一种基于 Prompt 的中心裁剪策略，以提高分割质量。

主要贡献总结如下：

作者提出了一种名为ROS-SAM的方法，通过整合遥感专业知识并优化 Mask 解码器，实现了高质量的预测。

作者提出了一种新颖的数据Pipeline，在训练过程中引入了更多多尺度目标，而在推理时则专注于单个目标的高质量推理。

实验结果显示，作者的数据 Pipeline 和ROS-SAM显著提高了在SAT-MTB数据集[25]上的性能，分别将IoU提高了6%和13%，超过了原始SAM。此外，当在现有的遥感目标跟踪数据集上进行评估时，ROS-SAM展现了强大的零样本能力。

unsetunset2. Related Workunsetunset

视频遥感是遥感领域的一个新兴分支，为实时分析地面目标奠定了基础。遥感视频中的移动物体与图像中的物体存在显著差异，具有低分辨率、尺度变化大和高噪声等固有特性。这些因素给视觉算法有效分析数据带来了巨大挑战。早期对该领域的研究主要集中在三个关键方面：开发更稳健的特征提取方法[5, 39, 40, 54]，建立连续帧之间的时序关系[38, 42, 57]，以及捕捉时空信息以实现多帧关联[58, 64]。这些努力极大地提高了物体跟踪的准确性，并推动了该领域的进一步发展。然而，视频目标分割比目标跟踪更为实用且复杂。它要求模型依赖先验知识、显著特征或手动 Prompt 来识别感兴趣区域并在连续帧之间进行识别[18, 19, 69]。尽管存在挑战，研究行人已经尝试对卫星视频中的物体进行了分割。一个突出贡献是SATMTB数据集[25]，这是一个包含多种任务的基准，其中包括卫星视频的目标跟踪、检测和分割任务。然而，该数据集仅包含249段卫星视频，部分视频缺乏标注。由于数据集如此有限，实现高质量的遥感视频分割几乎是不可能的，这突显了在这一领域需要更多全面且标注良好的数据的重要性。

对SAM进行微调以应用于各种任务已成为视觉领域的热点。大量实证研究表明，SAM的强大先验知识能够有效地引导一系列下游任务，包括医学图像分析[16, 31, 34, 70]、三维视觉[7, 41, 53, 61]、视频分析[10, 29, 56, 65]、遥感[30, 32, 36, 55]以及其他领域[27, 35, 44, 62]。在对SAM进行微调时的关键挑战在于，在适应新任务特定目标的同时保留其强大的零样本能力。为此适应性方法中， Adapter (Adapter)和LoRA两种方法尤为突出。 Adapter [3, 4]是一种简单、灵活且有效的组件，作为一个额外的网络层，它能够通过少量数据注入特定任务的指导。其灵活性使它可以与SAM的不同部分结合使用，适用于多种任务[12, 49, 51, 67]。LoRA[14]则是一种参数高效微调方法，通过在Transformer架构中引入可训练的线性投影层来恢复SAM提取高级语境特征的能力。与 Adapter 不同，LoRA擅长处理小数据集，它采用低秩矩阵表示权重变化，从而减少对预训练模型的依赖和过拟合的风险[28, 47, 50, 59, 68]。这些方法共同提供了强有力的手段，使SAM能够适应特定任务的同时保持其泛化能力。

unsetunset3. The Proposed Methodunsetunset

3.1. Preliminary

作者首先简要回顾一下SAM和LoRA的设计。SAM主要由三个模块组成：(a) 图像编码器：基于ViT的重模型[9]，用于图像特征提取；(b) Prompt 编码器：编码 Prompt 的位置信息，例如点、框和 Mask ；(c) Mask 解码器：一个轻量级的Transformer解码器，将图像嵌入与 Prompt Token进行拼接，以获得最终的 Mask 预测。SAM模型在大规模数据集上进行了训练，赋予了SAM强大的先验知识和零样本能力。

LoRA 是一种高效的方法，用于通过冻结预训练模型权重并在Transformer块的每一层中引入可训练的分解矩阵来注入领域特定知识。具体来说，给定SAM的预训练权重矩阵 $W\_{0} \in \mathbb{R}^{m \times n}$ ，LoRA 添加一对编码器 $W\_{e} \in \mathbb{R}^{r \times n}$ 和解码器 $W\_{d} \in \mathbb{R}^{m \times r}$ ，这些编码器和解码器表示秩分解矩阵，并且 $r \ll \min(m, n)$ 。借助LoRA，原始SAM的前向传播从 $h = W\_{0}x$ 转变为

$h=W\_{0}x+W\_{d}W\_{e}x.$

3.2. ROS-SAM

图2概述了所提出方法的整体架构。上半部分展示了ROSSAM的训练过程。首先，使用LSJ和随机旋转将不同尺寸的遥感图像输入图像编码器。在图像编码器中，作者更新LoRA参数和网络的最后一层以整合特定于遥感领域的指导信息，并增强特征的辨别能力。接着，作者利用HQ Mask 解码器，这是一种扩展自原始解码器的方法，结合多阶段图像特征、 Prompt Token和 Mask Token来生成高质量的 Mask 预测。同时，作者引入交替更新策略来优化原始 Mask 解码器和HQ Mask 解码器。下半部分描述了推理过程。初始步骤是对图像根据 Prompt 信息进行裁剪，确保只有一物体位于中心位置以供推理。随后对小块进行一次上采样以放大特征，提高推理质量。最后，单个小块推理结果被恢复到原始位置，与初始图像对齐，确保与原始输入的一致性。

picture.image

3.2.1. Fine-tuning the image encoder

SAM的图像编码器是一个结构复杂的ViT，具有强大的先验知识。为了适应RSVMO的同时尽量保留这些先验知识，关键挑战在于有效地注入领域特定信息。为此，作者引入了LoRA来微调图像编码器的所有Transformer层，如图3所示。

picture.image

在图像编码器中，输入图像首先通过.patch嵌入处理，然后传入ViT中的多个级联Transformer块。每个Transformer块逐步利用Self-Attention机制捕获图像 Patch 之间的依赖关系。为了在不削弱模型原始能力的情况下注入领域特定知识，作者在注意力计算阶段应用LoRA。具体来说，作者引入一个新的分支，该分支并行于Query (Q) 和 Value (V) 矩阵。这个分支使用编码器-解码器结构将原来的Q和V矩阵分解为低秩矩阵，通过简单的线性层实现。在训练过程中，只有低秩矩阵的权重被更新，使模型能够快速适应新任务同时保留预训练中学到的一般特征。基于以往的经验[14]，作者发现更新Q和V矩阵是平衡模型性能和计算效率的最佳方式。

此外，作者还发现当 Prompt 框内存在多个重要物体时，例如飞机和登机桥，模型往往难以应对。SAM 是一种缺乏显式语义理解的分割模型，它倾向于分割出所有显著的物体，而不论其相关性如何。研究表明，在语义分割模型中，浅层通常捕捉纹理细节，而深层则编码更丰富的全局上下文信息。基于这一洞察，作者更新了图像编码器的最后一块，在训练过程中提取更具区分性的特征，从而增强模型在复杂场景中关注相关物体的能力。

3.2.2. Mask decoder and high-quality mask decoder

如图4中的实线框所示，原始SAM的 Mask 解码器使用两层Transformer来输出用于 Mask 预测的Token。该Token预测动态的MLP权重，然后与 Mask 特征进行点积运算。HQ-SAM [21] 认为有效的 Mask 解码器应结合高层目标上下文和低层边缘信息以实现高质量的预测。图像编码器的不同阶段捕捉不同类型的信息：早期层通常提取局部细粒度特征，而后期层则专注于全局上下文。基于此，作者使用HQ-SAM的 Mask 解码器生成高质量的 Mask ，如图4所示。另一个使用HQ-SAM Mask 解码器的关键优势在于，它是在包含44,320个高精度 Mask 标注的HQSeg-44K数据集上进行训练的，提供了强大的边缘细节先验知识。

picture.image

作者注意到两个重要因素：首先，SAM 的 Mask 解码器是一个相对轻量级的网络，包含大量涉及卷积和转置卷积的上采样操作。这些操作是为像素 Level 的分类设计的，并且更新这一部分模型不会导致对先前知识的灾难性遗忘。其次，卷积和转置卷积固有的归纳偏置要求在新任务中进行参数调优。因此，与 HQ-SAM 不同，作者在训练过程中建议更新这些权重。具体而言，在训练过程中，作者交替更新 SAM 的 Mask 解码器和 HQ-SAM 的 Mask 解码器，以同时细化这两个组件。

3.2.3. Training and inference of ROS-SAM

ROS-SAM训练。RSVMO图像与自然图像之间存在显著差异。RSVMO图像通常尺寸更大，包含不同尺度的目标，并且缺乏明确的方向性。为了应对这些特性，作者重新设计了训练数据Pipeline。首先，作者使用大规模抖动[11]来增强模型在不同目标尺度上的泛化能力。其次，由于遥感目标不受重力影响且没有固定的方向，作者引入随机旋转以生成更多样化的训练样本。在训练过程中，作者冻结预训练SAM的参数，仅让图2中的红色组件可学习。作者使用Binary Cross-Entropy (BCE)损失和Dice损失的组合监督mask预测Token，并交替更新SAM Mask和ROS-SAM Mask的网络权重。作者的ROS-SAM在学习率为1e-3的情况下进行了24个epochs的训练。

ROS-SAM推理。SAM和其他相关工作的推理 Pipeline 依赖于直接缩放，这不适合遥感图像，因为遥感图像通常尺寸较大且包含小物体。为了获得精细化预测，作者重新设计了推理 Pipeline 。首先，根据 Prompt 的位置信息，作者crop出 $\mathrm{N}{\times}512{\times}512$ 大小的patches靠近目标区域。然后，作者使用双立方插值将这些patches放大至 $\mathrm{N}{\times}1024{\times}1024$ 。接着，作者将这些patches依次输入到ROS-SAM并存储在内存中。最后，基于 Prompt 的位置信息恢复这些patches至完整的mask。作者的实验表明，放大两倍因子能得到最优结果，而过度放大会导致精度显著下降。

unsetunset4. Experimentsunsetunset

4.1. Experimental Setup

数据集。作者使用SAT-MTB [25] 进行训练和评估，这是唯一一个包含遥感视频中目标跟踪、检测和分割任务的数据集。SAT-MTB 数据集包含249个视频，总计约5万个帧，并涵盖了最常见的四种地面目标类型：飞机、汽车、船只和火车。值得注意的是，对于汽车，不需要生成 Mask ，因为它们通常只占据大约10个像素，并且具有均匀形状，这些形状与检测框高度吻合。此外，原始数据集中有一些标签缺失，因此作者从分析中排除了这些不完整的数据点。为了缓解大多数视频帧之间的高相似度问题，作者从每个视频中随机抽取1/4的帧来构建最终数据集。有关数据集的详细描述见补充材料。除非另有说明，后续的所有实验均使用该修改后的数据集进行。

评价指标。为了准确量化模型的性能，作者利用BIOU和IoU联合评估预测精度。

4.2. Ablation Experiments

作者使用SAM1-L作为 Baseline ，即采用ViT-L版本的图像编码器，对每种提出的方法进行了全面的消融研究。除了验证方法外，所有实验设置均保持一致。如图5所示，作者的每种方法均显著提高了预测准确性。

picture.image

在图6中，作者可视化了预测结果，展示了作者的方法如何提升模型的表现。例如，作者的Pipeline能够使模型专注于个体物体，从而提取出更接近物体真实形状的结果，如第二列中的预测飞机。此外，当提出的解码器被引入时，模型的预测变得更加精确。解码器有效地学习了一部分RSVMO的知识，提升了模型区分物体的能力。这一点在第五列中尤为明显，SAM未能正确预测火车，其预测形状远大于火车本身，很可能错识为铁路。这种差异可以归因于SAM在RSVMO领域的有限知识。相比之下，作者的ROS-SAM取得了最佳效果，其预测几乎与地面真相一致。值得注意的是，ROS-SAM成功地区分了飞机和登机桥，而其他所有模型都无法做到这一点。另外，ROS-SAM提供的预测非常精确，即使是在区分靠近的物体时也能紧密匹配物体的真实形状，如第三列和第四列所示。

picture.image

尽管ROS-SAM在整体性能上表现优异，但它也有一些局限性。例如，它在准确区分飞机发动机的数量时存在困难，并且可能无法预测那些难以视觉辨别的物体的形状（在这种情况下，基于先验知识的手动标注可能会更准确）。如需进一步的视觉比较，请参阅补充材料。

4.2.1. Ablation study of our pipeline

首先，作者利用未经过训练的两个模型SAM和SAM2验证了推理Pipeline的有效性。根据表1的结果，采用作者的推理Pipeline对SAM进行推理可以分别在IoU和BIoU上提高超过6%。对于SAM2，作者的推理Pipeline也可以带来显著的改进。接下来，作者评估了推理过程中各种因素的影响，包括不同的采样算法、采样率以及一次性只推理一个目标的效果。结果如表2所示， Baseline 配置没有使用采样（裁剪到1024×1024，并包含多个目标）。实验结果显示，所有三个因素都对准确性产生了明显影响。在不同的采样率中，2的采样率表现最好，因为更高的上采样率会导致锯齿状的目标边缘，无法真实反映目标的形状。此外，双三次插值和限制每次推理一个目标也提高了性能。基于上述发现，作者将表现最佳的配置作为最终的推理Pipeline。

picture.image

作者随后对ROS-SAM的训练Pipeline进行了消融实验。所提出的训练Pipeline包含了两种数据增强技术：LSJ（将物体尺度从0.1放大到4.0）和随机旋转。如表3所示，这两种增强方法都能提升模型的准确性，其中LSJ带来的提升更为显著。这是因为LSJ引入了更广泛的物体尺度范围，使模型能够更好地泛化。相比之下，随机旋转主要增加了训练样本的数量，导致提升较为有限。

picture.image

4.2.2. Ablation study of the mask decoder

提出的 Mask 解码器包括两个贡献：1）使用高质量（HQ） Mask 解码器融合图像嵌入与早期纹理特征，并且2）交替更新高质量 Mask 解码器和原始 Mask 解码器以获得更精确的像素级预测。如表4所示，直接更新SAM的 Mask 解码器会导致准确率下降。这是因为原始解码器已经在大量数据集上进行了训练，直接调整其权重会破坏它已学到的重要先验知识。相比之下，高质量 Mask 解码器是一个新引入的轻量化组件，它整合了多个阶段的图像特征，从而显著提高了性能。正如第3.2.2节所述，交替更新高质量 Mask 解码器和原始解码器是一种最优的方法，因为两者能够互相受益，共同提升整体性能。

picture.image

4.2.3. Ablation study of the image encoder

在这一消融实验中，作者具体评估了使用LoRA微调图像编码器所取得的性能提升，以及仅微调编码器的最后一层所取得的性能提升。实验结果如图7所示，突出了在SAM和ROS-SAM中微调图像编码器带来的显著性能改进。

picture.image

4.3. Comparison with Other Methods

作者进行了比较实验以全面验证ROS-SAM的优越性。如表5所示，作者将ROS-SAM与三个算法SAM、SAM2和HQ-SAM进行了仔细比较，作者使用自己的推理Pipeline来进行训练和推理。此外，作者还对其他一些当前最先进算法进行了微调，例如[3, 15, 22, 52]。然而，这些算法都产生了非常差的结果（IoU的准确性低于原始SAM），因此作者不再继续进行对比。图6仅展示了最具代表性的可视化结果，作者分析了大量的可视化结果并总结如下：(1) 未经过微调的模型如SAM1和SAM2无法进行高质量推理，它们大多数情况下边缘模糊。(2) 虽然HQ-SAM生成了精细的预测结果，但它在语义上不够 discriminative，导致更多的误分类。(3) 当特征清晰时，作者的方法几乎可以完美地预测结果；而当特征模糊时，标注者可以根据作者的方法预测目标的大致形状，这通常是难以实现的。

picture.image

4.4. Experiment Results on Other Datasets

4.4.1. Segmentation results on static image dataset

在分辨率、传感器类型以及采集时间和地点方面提供了训练集，从而对模型的泛化能力进行了稳健的测试。由于跟踪数据集中缺乏分割 Mask ，作者进行的是预测的定性评估而非定量分析。如图8所示，ROS-SAM 在这些数据集上表现出色，始终能够生成高质量的分割 Mask 。由于论文篇幅限制，更多可视化结果参见补充材料。

picture.image

unsetunset参考unsetunset

[0]. ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object .

点击上方卡片，关注「AI视界引擎」公众号