EarthInstruct基准搭配InstructSAM框架：解决遥感目标识别难题，多任务性能与效率双提升！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

遥感图像中的语言引导目标识别对于大规模制图和自动化数据标注至关重要。然而，现有的开集和视觉定位方法依赖于明确的类别线索，这限制了它们处理需要High-Level推理的复杂或隐式 Query 的能力。为解决这一问题，作者引入了一套新的任务，包括指令导向的目标计数、检测和分割（InstructCDS），涵盖开集、开放式和开放子类场景。

作者进一步提出了EarthInstruct，这是首个用于地球观测的InstructCDS基准。该基准由两个具有不同空间分辨率和20个类别的标注规则的遥感数据集构成，要求模型解释数据集特定的指令。

鉴于遥感中语义丰富的标注数据稀缺，作者提出了InstructSAM，这是一种无需训练的指令驱动目标识别框架。InstructSAM利用大型视觉语言模型来解释用户指令并估计目标计数，采用SAM2进行 Mask Proposal ，并将 Mask -标签分配表述为二元整数规划问题。通过将语义相似性与计数约束相结合，InstructSAM有效地将类别分配给预测的 Mask ，而无需依赖置信度阈值。

实验表明，InstructSAM在多个任务中均达到或超越了专用 Baseline 的性能，同时保持近恒定的推理时间，无论目标数量如何，与直接生成方法相比，输出token减少了89%，整体运行时间减少了超过32%。

作者相信，所提出的任务、基准和有效方法将推动未来在开发多功能目标识别系统方面的研究。

1 引言

遥感影像中的目标识别能够捕捉到不同环境中各种物体和现象，为支持联合国发布的可持续发展目标[56, 3]提供了丰富的信息，例如野生动物监测[78, 91]、贫困估计[1, 48]和灾害响应[18]。近年来，强大的视觉语言模型（VLMs）如CLIP[58]的出现，开启了面向遥感的开集目标识别算法的新时代（例如检测[37, 54]和分割[21]）。然而，现有的开集方法主要依赖显式的类别线索，这限制了它们处理需要High-Level推理和上下文理解的复杂或隐式 Query 的能力。换句话说，由于鸟瞰视角，遥感图像中可见物体的丰富多样性决定了任何预定义的固定类别列表必然是不完整的，这限制了其在现实世界开放性分析中的实用性。

为解决这一问题，作者扩展了指令导向目标检测任务[57]，并引入了一套新的任务——指令导向目标计数、检测和分割（InstructCDS），该任务涵盖了开集、开放结束和开放子类设置，如图1所示。InstructCDS任务在固定类别集之外提供了更灵活和可扩展的解释，并理解复杂的用户任务需求。作者进一步提出了EarthInstruct，这是首个针对InstructCDS的地球观测基准。该基准由两个通用的遥感目标数据集构成，涵盖20个类别，具有不同的标注规则和空间分辨率。EarthInstruct引导模型理解预定义的三种设置之外的复杂用户指令。

picture.image

近年来，视觉语言模型（VLMs）在自然图像领域中的目标检测[44, 39, 57]、语义分割[85, 11]、视觉定位[2, 7]和推理式分割[63, 29]等方面取得了令人瞩目的性能表现。然而，将这些方法迁移到遥感图像领域面临着若干挑战。首先，由于自然图像与航拍图像之间存在显著的领域差异[14]，直接推理会导致精度大幅下降。其次，大多数现有的遥感开集检测[37, 38, 86]和分割[87, 84, 21]方法仅在类别数量有限的训练数据集上进行训练，这限制了它们对多样化未见类别的泛化能力。第三，传统检测器[34, 10, 49]依赖阈值来过滤预测的边界框，但在零样本场景中无法获取此类阈值。

为应对这些挑战，作者将指令导向的目标检测与分割任务分解为若干可处理的步骤，并提出无需特定任务训练的框架InstructSAM。首先，采用大型视觉语言模型（LVLM）来解释用户指令并预测目标类别与数量，通过系统设计的 Prompt 最大化模型能力。同时，利用SAM2 [60]自动生成 Mask 候选区域。

接下来，在遥感图像上预训练的CLIP模型计算预测目标类别与 Mask 候选区域的语义相似度。随后，作者将目标检测与分割问题形式化为 Mask -标签匹配问题，通过整合语义相似度与全局计数约束，将预测类别分配给 Mask 候选区域。InstructSAM通过内建三种强大的基础模型，在多项任务上相较于在大规模目标识别数据上训练的通用及遥感特定视觉语言模型（VLMs）均实现了更优性能。值得注意的是，InstructSAM的推理时间与预测目标数量几乎无关，在开放场景下相较于使用Qwen2.5-VL [2]直接生成边界框，输出token数量减少了89%，整体运行时间缩短了32%。作者的工作为可扩展的指令驱动遥感目标检测与分割铺平了道路，无需昂贵的预训练或手动阈值调整。此外，无训练范式使得配备通用CLIP模型的InstructSAM能够在自然图像中识别目标。

总之，作者的贡献如下：

作者介绍了InstructCDS任务，该任务要求模型解释用户提供的自然语言指令，并推理相关目标的数量和位置。
作者构建了EarthInstruct，用于在地球观测领域对InstructCDS进行基准测试，涵盖开集、开放式和开放子类设置，以及计数、检测和分割任务。
作者开发了InstructSAM，一个无需训练且无需置信度的框架，该框架在InstructCDS任务上实现了近乎恒定的推理时间。
基准测试实验表明，InstructSAM在目标计数方面与近集模型表现相近，并在开集和开放目标识别方面超越了通用模型和遥感特定模型。

2 相关工作

2.1 基于指令的目标检测与分割

指令导向方法指令导向目标检测（IOD）最初在[57]中提出，包括四种指令设置：类别指定（开集[76]）检测、所有目标检测（开放式[39]）、超类内检测（作者称之为开放子类）以及实现特定目标的检测。Ins-DetCLIP[57]训练一个检测器来识别前景目标，并将它们的特征传递给大语言模型（LLM）根据用户指令生成类别。除了专门为IOD任务设计的模型，Qwen2.5-VL[2]在多任务指令数据上训练，也展示了密集目标检测的能力。然而，这两种方法都需要大量的特定任务训练数据，并且随着目标数量的增加，它们的推理时间显著增加。

开集方法大词汇目标检测与分割数据集[67, 17, 72]以及视觉定位数据集[27, 23]支持多种开集学习方法，包括知识蒸馏[16]和区域文本预训练[26, 50, 44, 34]。利用图像-文本对（例如CC3M[5]、WebLI2B[6]）生成的置信度阈值过滤伪标签进行自训练，可进一步提升性能[49, 44, 89, 83]。然而伪标签的质量对所选阈值高度敏感[49]，且这些方法需要预定义目标类别，限制了它们在不同场景中的灵活性。

开放式方法 GenerateU [39] 首次提出了开放式目标检测（OED）问题。同时进行的如 DetCLIPv3 [83]、Florence-2 [79] 和 DINO-X [62] 等工作引入了生成式框架，这些框架联合使用语言模型预测目标类别和边界框。然而，构建包含边界框和标题对的超大规模数据集需要大量资源。VL-SAM [40] 提出了一种基于注意力的 Prompt 训练无关方法，但其迭代 Mask 细化和多 Prompt 集成策略计算成本较高。

2.2 基于指令的遥感目标检测与分割

近年来，视觉语言模型（VLMs）[58, 43] 的进展也使得遥感领域实现了开集学习。来自OpenStreetMap [19] 的多样化语义标签以及由LVLMs生成的标签推动了遥感图像对比语言图像预训练的发展 [90, 73]。遵循通用的开集学习框架，出现了遥感开集检测 [37, 75, 54, 22] 和分割 [87, 84, 21, 31] 方法。然而，其人工标注的训练数据仅限于几十个类别 [33, 74, 69]，阻碍了在分布外或零样本场景中的泛化。尽管一些LVLMs能够支持遥感任务，如单类目标检测 [28, 47, 25]、视觉定位 [52, 55]、指代表达分割 [92, 53]、基于定位的对话生成 [65] 和场景图生成 [47]，但它们无法遵循复杂的推理指令，例如开集和开放子类目标检测。为标注遥感目标检测的广泛词汇训练数据，LAE-Label [54] 采用通用LVLM [8] 对裁剪的 Mask Proposal 预测类别。然而，这种方法因缺乏全局上下文而无法进行准确的类别分类。

相比之下，作者的InstructSAM采用无置信度范式，无需特定任务的预训练或微调，并且无论目标数量如何，推理时间都保持近乎恒定。

3 地球指令 EarthInstruct，遥感指令CDS的基准

3.1 指令设置

为了在遥感领域实现实际应用，例如大规模制图[1]和图像标注，作者为InstructCDS定义了三种不同的设置：

开集：基于用户指定类别的计数、检测和分割。
开放式：对所有目标进行计数、检测和分割，而不指定类别3) 开放子类：对超类中的目标进行计数、检测和分割

作者使用NWPU-VHR-10 [9] 和 DIOR [33] 数据集构建EarthInstruct，这些数据集因其广泛使用以及多样化的传感器、分辨率和标注规则而被选中。关键在于，这些数据集特有的标注规则可能与常识相悖（例如，排除低分辨率车辆）或存在语义模糊性（例如，“桥梁”与“立交桥”的区别），这反映了原始标注者的特定目标（图2）。因此，简单的指令如“统计车辆”将无法捕捉到数据集规范或用户意图所需的细微差别。EarthInstruct因此需要模型能够解释详细指令，以明确目标定义并处理数据集特有的规则（例如，“不要统计空间分辨率低于1米的图像中的车辆”）。为确保与数据集规范和用户需求相一致的公平评估， Prompt 被相应设计，但禁止使用图像特定的 Prompt ，以保持在大面积应用中的可扩展性，在这些应用中，每张图像的先验内容知识不可用。

picture.image

3.2 评估指标

多类别目标计数

标准计数指标，如平均绝对误差（MAE）和均方根误差（RMSE），在FSC-147 [59] 和RSOC [15] 等基准测试中使用，无法充分捕捉多类别评估的细微差别。它们无法区分计数过多和计数不足的错误。此外，由于未进行归一化处理，当跨类别进行平均时，计数较多的类别会不成比例地扭曲整体评分。

为解决这些问题，作者采用精确率、召回率和F1分数，从而提供归一化、按类别的分析。作者定义每张图像、每类别的计数组件如下：令

表示图像中某类别的真实计数，

表示预测计数。那么，真阳性（TP）=

，假阳性

用于处理计数过多的情况，假阴性（FN）=

用于处理计数不足的情况。这些定义使得精确率、召回率和F1分数的计算标准化，可以按类别对每张图像进行汇总，然后计算最终的平均分数。

重新思考无置信度检测器的评估指标

评估像 Florence2 [79] 或 Qwen2.5-VL [2] 这样输出无置信度分数的生成模型，对标准指标提出了挑战。平均精度（AP）[12] 依赖于置信度分数对预测结果进行排序并生成精度-召回曲线。没有这样的排序，标准AP的界定就存在问题。此外，实际应用中通常使用固定阈值过滤预测结果，将所有剩余检测视为同等重要 [1, 49]。

为解决这些问题并确保公平比较，作者采用无置信度指标：平均 F1 分数（mF1）和无置信度平均精度（mA Pnc）[35]。mF1 在单个工作点衡量性能，适用于固定阈值部署。mA Pnc 通过对所有预测分配最大置信度来调整 AP。对于无置信度模型，这些指标直接计算（结果见表10）。对于提供分数的传统检测器（例如 [61, 4]），当置信度阈值从 0 到 1（步长 0.02）扫描时，选择在类别间最大化 mF1（使用 IoU 阈值为 0.5）的阈值，并报告相应的尖峰分数。

开放和开放子类设置评估在开放和开放子类设置中，LVLMs可能生成与真实标签文本质不同的类别名称（例如"car"，而真实标签为"vehicle"）。为在评估中处理这种同义关系，作者遵循既定协议[39, 57]采用语义相似度匹配。具体而言，作者使用GeoRSCLIP[90]文本编码器，并采用模板"：a satellite image of a {category}"对生成类别和真实类别进行编码。若生成类别名称与真实类别的嵌入余弦相似度超过0.95，则认为二者等效。这允许关联生成名称的预测目标与匹配的真实类别进行准确评估。

4 InstructSAM

针对遥感目标识别中的指令遵循、领域差距和阈值敏感性等挑战，作者提出了一种无需训练的框架，命名为InstructSAM。该框架将InstructCDS分解为三个协同步骤：使用LVLM进行基于指令的目标计数、通过SAM2进行类无关 Mask 生成，以及一种新颖的计数约束 Mask -标签匹配程序。这种方法避免了昂贵的模型训练和阈值调整，提供了高效且鲁棒的性能。

4.1 基于LVLM的指令导向目标计数

如第3节所述，准确解释遥感中的用户意图需要处理数据集特定的规则和语义歧义，而简单的类别 Prompt 可能无法捕捉这些内容。作者利用最先进的LVLMs（例如GPT-4o[24]、Qwen2.5-VL[2]）来完成这项任务。受[20]的启发，作者使用JSON格式的结构化 Prompt ，这允许轻松地将数据集特定的指令与核心任务相结合（详见附录C）。给定图像

和详细 Prompt

，LVLM充当计数器，输出图像中存在的目标类别

及其对应的计数

：

。

4.2 类别无关的 Mask 提出

在计数的同时，SAM2 [60] 被用于生成高质量、类别无关的目标 Mask ，以实现其对遥感图像的强泛化能力 [71, 77]。通过使用由常规点网格触发的自动 Mask 生成模式，作者获得了一组密集的 Mask Proposal

。为提高小目标的召回率， Mask 生成i也应用于图像裁剪（详见附录C.4）。

4.3 基于计数约束的 Mask 标签匹配

InstructSAM的一个关键创新是将目标检测和分割重新定义为受约束的 Mask -标签匹配问题，通过整合前一步的输出。作者不是使用脆弱的置信度阈值[10, 49]，而是利用来自LVLM的全局计数

来约束语义标签

分配给视觉 Mask Proposal

。给定

个 Mask Proposal 和

个带计数的靶类别，作者计算一个语义相似度矩阵

，其中

表示围绕

裁剪的图像块（按1.2缩放以提供上下文）的CLIP[90]图像嵌入与类别

的文本嵌入（使用模板

卫星图像的{类别}）之间的余弦相似度。然后，作者通过求解二元整数规划（BIP）问题来寻找一个二元分配矩阵

，其中

将

分配给

。

约束（2）确保每个 Mask 最多被分配到一个类别。约束（3）强制要求每个类别的分配 Mask 数量与LVLM提供的计数相匹配。约束（4）处理 Proposal 数量少于总目标计数的情况，确保所有 Proposal 都被分配。

如图3所示，该BIP公式巧妙地融合了视觉信息、语义信息和定量信息。视觉信息来源于 Mask 建议

的CLIP嵌入，这些信息有助于计算

。语义信息则源自类别句嵌入

，同样有助于计算

。目标计数

提供的定量信息在公式(3)中充当约束条件。该问题可以使用PuLP [51]等标准BIP求解器高效求解。

中的非零项定义了最终识别的目标集合

。

picture.image

5 实验

5.1 实现

作者使用GPT-4o-2024-11-20 [24]（简称InstructSAM-GPT4o）或Qwen2.5-VL-7B [2]（简称InstructSAM-Qwen）作为LVLM计数器，SAM2-hiera-large [60]用于 Mask Proposal ，以及GeoRSCLIP-ViT-L [90]用于相似度计算。对于开集设置，作者遵循先前研究[75, 21, 86]的方法将基础类和新增类进行分割，并报告mF1、平均IoU（mIoU）或mAP_nc。对于开放子类设置，作者设定了两个父类“交通工具”和“运动场”。作者将InstructSAM与一系列模型进行比较，其训练数据和能力列于表6。

5.2 地球Instruct结果

开集设置作者报告了针对所有类别通用的方法[44, 49, 2]和遥感开集分割模型[84, 31]在更广泛的词汇表上训练后的平均指标，如表1所示。在基础类别上训练的模型[86, 75, 21]在新类别上的零样本性能如表10所示。使用新类别图像或在整个检测数据集上训练的模型在两个额外的数据集（表11）上进行了评估。

picture.image

开放场景表2总结了开放场景下的结果。InstructSAM始终比遥感特定方法获得更高的F1分数，包括那些在基于描述的任务上训练的方法[47, 65]。值得注意的是，InstructSAM通过利用图像的全局视图来准确预测目标类别，超越了LAE-Label[54]。虽然在此设置中缺少特定类别的指令限制了进一步的

picture.image

增益，InstructSAM仍然表现出强大的性能（图4）。

picture.image

开放类别设置表3显示InstructSAM在两个父类别中均优于或与Qwen2.5-VL相当。当使用GPT-4o识别的类别进行 Prompt 时，OWLv2在“交通工具”类别中表现优异，但在“运动场”类别中表现不佳，这可能是由于自然图像数据集中交通工具相关类别的普遍存在。这些发现与开集结果一致，其中通用检测器（如Grounding DINO和OWL）在除飞机、车辆和船舶之外的遥感类别中表现不佳。

picture.image

推理时间分析图5比较了配备7B大语言模型的开放方法在推理时间上的表现。与其它方法线性增长的运行时相比，InstructSAM展现出近乎恒定的推理速度。与Qwen2.5-VL将边界框表示为自然语言 Token 不同，InstructSAM将输出 Token 减少了89%，并将总推理时间缩短了32%。随着模型规模的扩大，这一优势将更加明显，突显了yinqing-InstructSAM_2505的效率。

picture.image

5.3 消融实验

表4揭示了附加指令如何提升物体计数效果，特别是在具有模糊或数据集特定标注规则的类别中。最初，在DIOR上训练的Faster-RCNN和LVLM计数器在NWPU-VHR-10上表现出较低的车辆精度。指令中的明确标注规则显著提升了Qwen2.5-VL和GPT-4o的车辆精度，并在DIOR上分别将

提升了3%和8%。与[88]的结果相反，这些结果表明，具备强大基础模型且通过指令驱动 Prompt 的LVLM确实能够达到或超过封闭集模型的性能。

picture.image

模型泛化与扩展性为评估InstructSAM的泛化能力和扩展性，作者在NWPU-VHR-10数据集上针对开集检测（OVD）任务消融了LVLM计数器、 Mask Proposal 器和CLIP模型（表5）。InstructSAM始终受益于在遥感数据上微调的CLIP模型[42, 73]，相较于通用CLIP[13]，其Box F1分数更高。性能随着模型组件的增大而提升，展示了该框架的扩展性。值得注意的是，即使使用较小的SAM2-S和SkyCLIP-B，InstructSAM与Qwen2.5VL结合（40.6 Box F1）的性能也优于单独使用Qwen2.5VL的直接检测（36.4 Box F1·），这突显了yinqing-InstructSAM_2505的有效性。

picture.image

基于固定阈值过滤CLIP预测的 Mask 标签匹配方法[10]存在固有局限性。图6显示其性能对阈值高度敏感，这与[35]中的发现一致。每个类别需要不同的最优值，使得单一阈值在各类中无效。InstructSAM的计数约束匹配通过根据预测计数动态调整分配，消除了这种依赖性，在多类别和开放世界场景中取得了更优的结果。

picture.image

5.4 OVD任务误差分析

错误识别揭示了不同方法之间的明显错误模式（图7）。OWLv2主要受到分类错误的影响，而Qwen2.5-VL在分类方面有所改进，但检测遗漏问题仍然存在。InstructSAM-GPT4o受益于SAM2的定位能力，但由于GeoRSCLIP的场景聚焦训练，背景混淆问题仍然存在——该训练优先考虑更广泛的上下文而非单个目标。

picture.image

6 结论

本文介绍了InstructCDS，用于指令驱动的目标计数、检测和分割，以及EarthInstruct，这是遥感领域中该任务首个基准。作者的无训练InstructSAM框架集成了LVLMs、SAM2和领域特定CLIP，以处理指令导向场景，并结合计数约束的 Mask 标签匹配。

实验表明，InstructSAM在性能上优于专用 Baseline ，同时保持近乎恒定的推理时间，不受目标数量影响。作为首个将指令导向检测扩展到更广泛的InstructCDS范式的方案，InstructSAM将受益于遥感基础模型[41, 81, 82, 64, 66]和通用模型[70, 93, 46]的进步，为更具可扩展性的指令驱动地球观测数据分析铺平道路。

点击上方卡片，关注「AI视界引擎」公众号

EarthInstruct基准搭配InstructSAM框架：解决遥感目标识别难题，多任务性能与效率双提升 ！

1 引言

2 相关工作

2.1 基于指令的目标检测与分割

2.2 基于指令的遥感目标检测与分割

3 地球指令 EarthInstruct，遥感指令CDS的基准

3.1 指令设置

3.2 评估指标

4 InstructSAM

4.1 基于LVLM的指令导向目标计数

4.2 类别无关的 Mask 提出

4.3 基于计数约束的 Mask 标签匹配

5 实验

5.1 实现

5.2 地球Instruct结果

5.3 消融实验

5.4 OVD任务误差分析

6 结论