RS 视觉定位中的跨任务难题与 GeoGround 的解决方案！

备注好友：

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

遥感（RS）视觉定位旨在使用自然语言表达在RS图像中定位特定物体（以边界框或分割 Mask 的形式），从而增强人与智能RS解释系统的交互。

早期在这个领域的研究主要基于水平边界框（HBB），但随着更多样化的RS数据集的出现，涉及定向边界框（OBB）和分割 Mask 的任务也出现了。

在实际应用中，不同的目标需要不同的定位类型：HBB可以定位物体的位置，OBB提供其方向，而 Mask 描绘其形状。然而，现有的专业方法通常针对一种类型的RS视觉定位任务，跨任务泛化困难。

相比之下，大型视觉语言模型（VLMs）表现出强大的多任务学习能力，但在处理密集预测任务（如分割）时仍存在困难。

本文提出GeoGround，这是一个新颖的框架，将支持HBB、OBB和 Mask RS视觉定位任务，允许灵活的输出选择。

作者的工作并非定制VLM的架构，而是通过TextMask技术优雅地支持像素级视觉定位输出。作者定义了 Prompt 辅助和几何指导学习来增强不同信号的一致性。为了支持模型训练，作者提出了refGeo，这是一个包含161万图像-文本对的大规模RS视觉指令遵循数据集。

实验结果表明，GeoGround在四个RS视觉定位任务上表现强劲，在多个基准测试上与专业方法相匹配或超过。

代码可在 https://github.com/zytx121/GeoGround 。

1 Introduction

在遥感和（RS）社区中，早期的视觉定位任务[26, 37]特指在卫星图像和相关文本 Query 的基础上，给出特定物体的水平边界框（HBBs）的位置。随着RS数据集[12, 25, 34]的日益丰富，研究行人开始使用定向边界框（OBBs）[9]或分割 Mask [36]来更准确地描绘所指物体。RS视觉定位使得人类能够以更直观的方式与计算机进行互动，这在提高智能RS解释系统的效率方面具有巨大的潜力[29]。

大多数现有的RS视觉定位[26, 37]和参考分割[16, 36]方法都针对特定任务设计任务特定模块和损失函数。基于HBB的模型通常采用目标检测任务中的损失函数，如Smooth L1，而基于 Mask 的模型通常使用来自语义分割任务中的损失函数，如像素级交叉熵。在这样的一些模型中，实现多任务学习[27]不仅需要修改网络结构，而且还需要仔细调整各种损失函数之间的权重，使得这个过程相当具有挑战性。尽管大型视觉语言模型（VLMs)[1, 2, 5, 15]可以通过使用统一的文本回归损失函数同时支持多个多模态RS任务，但它们在像素级任务如分割方面存在困难。这是因为，作为VLMs的输出模块，大型语言模型（LLM）只能生成文本数据，而不能在图像模式下产生输出[4]。

为解决这些挑战，作者提出了GeoGround，一种优雅的视觉定位模型（VLM），能够无缝地将HBB、OBB和像素级遥感任务统一在一起。作者的关键创新在于将 Box 级和像素级信号转换为文本序列，使模型可以在一个统一的训练 Pipeline 中训练多种视觉定位任务。具体来说，作者提出了文本遮挡（Text-Mask）范式，将遮挡中的信息压缩成紧凑的文本序列，由VLMs高效学习。此外，作者还引入了混合监督，如图1所示，将 Prompt 辅助学习（PAL）和几何引导学习（GGL）相结合，使用三种类型的信号微调模型，以确保输出一致性，并增强模型对不同定位类型之间关系的理解。

picture.image

为了支持GeoGround训练并促进视觉遥感 GT 性的发展，作者提出了refGeo，这是一个大规模的遥感视觉定位遵循数据集。refGeo整合了来自遥感的四个现有视觉定位数据集，并引入了一个新的航空车辆视觉定位数据集（AVVG）。AVVG将传统的2D视觉定位扩展到3D环境，使VLMs能够从2D航空图像中感知3D空间。对于每个参考目标，作者提供了HBB、OBB和 Mask ，其中 Mask 由SAM[8]自动生成。

总的来说，作者的主要贡献如下：

作者提出了GeoGround，一种新颖的VLM框架，它将 Box 级和像素级的RS视觉定位任务统一起来，同时保持其内在的对话和图像理解能力。
作者推出了refGeo，这是目前最大的RS视觉定位遵循指令数据集，包括161万图像文本对和80万RS图像，还包括一个全新的3D Aware 航空车辆视觉定位数据集。
作者在各种RS视觉定位任务上进行了广泛实验，为未来的RS VLM研究提供了宝贵见解，为RS视觉定位研究开启了新的研究途径。

2 Related Work

远程传感参照检测与分割。与RS中的多模态任务（如图像描述 [14, 40]，文本图像检索 [19] 和视觉问答（VQA） [17] 相比，参照检测是一个新的人工智能研究领域，受到早期研究的限制。GeoVG [36] 首先提出了第一个RS视觉定位数据集。MGVLF [37] 利用多尺度视觉特征和多粒度文本嵌入，解决RS图像中的尺度变化问题。RS参照分割也处于初级阶段，由于前面提到的挑战。它首先由RefSegRS [36] 提出，并提出了一种新的数据集和基准模型。最近，基于 Transformer 的方法RMSIN [16] 提出了一种自适应旋转卷积，以解决空中图像中普遍存在的尺度变化和方向问题。然而，这两种类型的模型始终被单独研究，阻碍了该领域的发展。在本文中，作者将这两种任务置于单个框架中，使它们可以共享数据和架构。

通用的视觉语言模型（VLMs）。 许多工作已经致力于使VLMs在自然图像领域具有视觉定位能力[3, 4, 10, 22, 30, 33, 38]。例如，Shikra[3]直接将HBB文本化为支持视觉定位任务，但其离散坐标输出对于像素级任务是不够的。LISA[10]通过集成一个 Mask 解码器来处理RES任务，而NExT-Chat[38]则通过添加两个解码器来支持框和 Mask 输出来扩展这种范式。相比之下，作者的方法优雅地将基于通用VLM的框级和像素级视觉定位任务统一起来，无需额外的编码器或解码器。

遥感视觉语言模型（VLMs）在图像级任务如场景分类、图像描述和视觉问答等方面取得了令人鼓舞的结果[13, 31, 41]。然而，针对目标级任务如遥感视觉定位的研究还相对较少。GeoChat [9] 利用OBB标注构建了一个新数据集，并提出了第一个基于OBB的遥感视觉定位模型。但是，OBB角度表示的不合适选择限制了其性能。此外，LHRS-Bot [20] 和 H

RSVLM [21] 选用的遥感视觉定位数据集规模较小，这也限制了它们在该任务上的泛化能力。为了解决这些问题，作者引入了refGeo，这是一个大规模的遥感视觉定位数据集，具有多种标注类型。对于每种标注类型，作者都进行了系统性的探索，以确定最合适的格式。

3 GeoGround

地理地面（GeoGround）的架构非常简洁，仅包括一个视觉编码器（CLIP-ViT [23]），一个连接器（两个层的多层感知机）和一个语言模型（Vicuna 1.5 [43]），没有引入额外的编码器或解码器。图2说明了作者提出的模型的框架，该模型可以根据用户指令灵活地输出HBBs，OOBs或分割 Mask 。除了单目标输出外，该模型还可以处理多目标输出。

picture.image

Signal Textualization

作者将三种视觉定位任务的地面监督信号文本化为三个对应的文本字符串。作者称这个过程为信号文本化，这是作者方法的基础。

Text-HBB和Text-OBB是通过直接将数值坐标转换为文本序列生成的[3]。具体来说，坐标是归一化的，乘以分辨率，然后四舍五入。结果的数字用逗号分隔，并放在括号内，如图2所示。在GeoGround中，作者将Text-HBB的分辨率设置为1000，以便在RS图像中更精确地定位小目标。与Text-HBB相比，Text-OBB包括一个额外的角度参数。由于OBB有各种角度表示，前四个数字的意义不同。根据实验，作者在GeoGround中采用长边90度表示[44]，其中角度范围为0到90度。为了确保这些值与角度范围相符，作者默认将Text-OBB的分辨率设置为100。

文本- Mask 应该通过将 Mask 转换为文本序列来生成。然而，由于图像和文本模态之间的固有差异，这种转换具有挑战性。受到Text4Seg [11]的启发，作者提出了一种新颖的文本- Mask 范式，将分割 Mask 视为文本。具体而言，作者将 Mask 降采样为一个N×N的网格，其中物体区域 Token 为1，背景区域 Token 为0，如图2所示。这导致了一个二进制矩阵，它大致上代表了物体的位置和形状。更高的分辨率可以提高形状精度，但会导致文本序列更长，增加训练难度并减慢推理速度。为了进一步减少表示 Mask 所需的 Token 长度，作者采用了R-RLE [11]来压缩冗余文本序列。这显著缩短了文本- Mask 的长度，并加速了推理速度，而没有牺牲性能。对于RS视觉定位数据集，32分辨率可以使文本- Mask 有效地表示大多数物体。

Hybrid Supervision

作者提出了一种混合监督方法，同时利用Text-HBB、Text-OBB和Text-Mask来全面提高VLMs的视觉定位能力。首先，作者采用一种基本的监督学习范式来训练三种类型的视觉定位任务，如下所示：

首先，

表示作者模型的LLM（低秩矩阵分解），

代表图像嵌入，

代表 Query 文本嵌入。

可以分别表示Text-HBB（文本-隐去重），Text-OBB（文本-在线边界）和Text-Mask（文本- Mask ）。接下来，作者定义了两个辅助任务来建立不同信号之间的联系。

其中，

表示稀疏文本化信号，可以分别是 Text-HBB 或 Text-OBB。

表示比

更密集的文本化信号。

几何引导学习将密集信号转换为受几何知识引导的稀疏信号，从而降低信息熵。这意味着GGL不需要图像作为输入，转换过程仅基于几何知识即可实现。例如，一个包含外接球体（OBB）的HBB可以通过计算其四个角点最大和最小值来获得。GGL可以表示为：

where

表示密集的文本化信号，可以表示为 Text-OBB 或 Text-Mask。图3 展示了 PAL 和 GGL 的示例。与现有的 VLMs 类似，GeoGround 仅通过文本回归损失进行监督。

边界框一致性得分。理想情况下，对于同一目标的模型输出应具有相似的边界框。然而，HBB、OBB和mask输出的位置可能不同。为了评估预测的一致性，作者提出边界框一致性得分（BCS）：

其中

, 和

分别表示 HBB、OBB 和 mask 信号。IoU 表示交集与并集的比值。

和

分别表示计算从 OBB 和 mask 计算出的包含 HBB 的函数。BCS 范围从 0 到 1。当模型预测完全一致时，BCS 等于 1。

4 refGeo

为了应对由于现有RS视觉定位数据集相对较小的规模而导致的VLMs通用化能力有限的问题，作者提出了一项大规模的RS参考表达式理解数据集，refGeo。该数据集整合了现有的大部分RS视觉定位数据集。数据集的详细信息请参见表1。由于GeoChat [9]和VRSBench [13]都使用DIOR [12]图像数据，与DIOR-RSVG [37]有重叠，因此作者从GeoChat和VRSBench训练集中删除了与DIOR-RSVG测试和验证集中的图像对应的样本，以防止数据泄露。

picture.image

相对于之前的RS视觉定位数据集，其主要的优势在于：

3D视觉定位：该数据集利用无人机和摄像机参数将像素坐标映射到摄像机坐标系，首次将RS视觉定位任务的二维平面扩展到三维空间。如图4所示，部分参照表达式需要VLM具有空间推理能力以准确定位物体。这一扩展为远程感知的空间智能进一步探索提供了重要数据支持，促使VLMs从实际世界投影出的二维图像中感知三维空间，就像人类一样。

picture.image

细粒度属性 ：作者的数据集也是首个精心标注了车辆品牌和型号的航空器数据集。尽管涉及细粒度车辆属性的视觉定位任务更具挑战性，但它们更符合实际需求。

为了支持像素级视觉定位任务，作者采用了SAM [8]来根据现有的边界框标注生成 Mask 标注。具体而言，作者将边界框和图像作为输入，输入到SAM-H模型中，该模型输出一个 Mask 及其对应的置信度得分。为了确保 Mask 的质量，置信度得分低于0.9的预测被舍弃。在这种情况下，受到SegVG [7]的启发，作者直接使用边界框作为 Mask ，以提供密集的监督信号。对于置信度得分高于0.9的 Mask ，作者遵循RSMIN [16]的思想，应用形态学膨胀算法来固定 Mask 。因此，作者构建了refGeo数据集，该数据集提供了三种形式的标注：HBB、OBB和分割 Mask 。

5 Experiments

Implementation Details

作者的方法基于LLaMA-1.5-7B [15]，输入图像分辨率固定为336

336。作者使用AdamW优化器[18]，起始学习率为2e-4，在 Warm up 阶段（比例为0.03）后线性衰减。为了降低GPU内存消耗，所有模型都使用LoRA微调（秩64），并结合ZeRO-2阶段内存优化。所有模型在8块NVIDIA V100 GPU（32GB）（128个全局批量大小）上进行训练，共5个周期。推理批量大小设置为1，所有实验中均为1。在GeOround的微调过程中，作者使用了3个RS目标检测数据集[12, 25, 34]，以增强其基本视觉感知能力。

Referring Expression Comprehension

设置。作者遵循标准的评估协议[13, 21]，使用Acc@0.5指标评估REC任务。除了H2RSVLM [21]和EarthGPT [39]，由于缺乏开源代码，其指标在原始文章中引用，其他VLMs的结果是通过使用提供的官方模型权重进行推理获得的。对于GeoChat [9]，作者将其输出OBBs转换为HBBs。

结果.Tab.2 对比了 GeoGround 与 2 个专业模型和 8 个主流 VLMs 在 7 个 REC 基准测试上的性能。GeoGround 在所有基准测试上都取得了最佳性能，超越了专业模型在 DIOR-RSVG 测试集上的表现。作者在 refGeo 数据集上进行微调的 VLMs，如 Qwen-VL [1] 和 GeoChat [9]，在 REC 任务上取得了显著的改进，验证了在 RS 视觉定位领域中缩放定律的有效性。得益于 refGeo 数据集中图像分辨率和 GSD 的广泛范围，微调后的模型在具有较高比例的小物体数据集上（如 RSVG 和 AVVG）表现出了显著的性能提升。当 Text-Mask 的分辨率设置为 16 时，GeoGround 达到了最佳性能。这可能是因为在更高的分辨率上训练变得更加困难。虽然低分辨率会导致较粗的 Mask ，但它们可以被视为注意机制，有助于局部化近似物体区域。

REC with OBB

设置。遵循GeoChat [9]的研究，作者也使用Acc@0.5作为指标，不同之处在于计算中使用了旋转IoU [35]而不是普通IoU。

结果.Tab.3比较了GeoGround与GeoChat和LLaVA-1.5在三个提供OBB标注的REC基准测试上的性能。结果表明，GeoGround在基于OBB的RS视觉定位任务上具有优势，进一步验证了作者的混合监督方法的有效性。由于需要学习参数的数量增加，该任务比标准REC更具挑战性，导致OBB任务相对于HBB任务的分数较低，即使是在相同的测试集上也是如此。

Generalized REC

作者提出了一个基于AVVG的RS通用REC基准，与标准REC不同之处在于，一个引用表达式可能对应多个目标。作者遵循VOC评估协议[6]，并使用AP@0.5指标评估作者的方法。

结果.Tab.4比较了在以颜色、类型和品牌为参照条件下，GeoGround和LLaVA-1.5的性能。结果验证了作者的混合监督方法的有效性，并表明此任务比标准REC更具挑战性。

Referring Expression Segmentation

作者使用Acc@0.5和Mean Intersection-over-Union (mIoU)作为评价指标，类似于先前的研究[32, 36]。由于GeoGround是目前唯一支持RES任务的RS VLM，作者将它与在RRSIS-D数据集[16]上具有原生RES任务分割能力的三个通用VLM进行了比较。

结果.Tab.5表明GeoGround在像素级遥感视觉定位任务中表现优越。与其他VLMs不同，GeoGround不需要引入额外的 Mask 解码器，因为它本身具有分割能力。此外，作者尝试使用SAM[8]来优化GeoGround生成的粗糙 Mask ，这使得GeoGround能够达到与最佳遥感参考分割模型[16]相匹配的结果。详见附录 for 更多细节。

Visual Understanding

作者使用Accuracy、METEOR和ROUGE-L作为VQA和图像描述任务的评估指标，这与先前的研究[9, 13]相似。

结果.表6 对比了 LLVA-1.5 和 GeoGround 的视觉理解性能，两者均使用 VRSBench [13] 通用的指令集进行了微调。这些结果表明，与 LLVA-1.5 相比，GeoGround 在 VQA 和图像描述任务上的表现略有波动，但在 REC 任务上取得了显著提高。这证实了作者的方法在增强区域级理解的同时，并未牺牲 VLMs 的整体图像理解能力。

picture.image

Ablation Study

混合监督的影响。表7展示了作者提出的混合监督方法中各个组件的消融研究。为了计算BCS，作者首先将OBB和 Mask 转换为HBB，然后在计算Acc@0.5之前进行计算。结果证实了它们的有效性，并进一步强调了输出一致性在提高性能方面的作用。表8说明了不同学习策略对VLM性能的影响。所有模型都在训练集上进行训练，并在DIOR-RSVG测试集上进行评估。结果表明，PAL在预测稀疏信号时改善了性能，而GM，该模型不需要视觉输入，在预测密集信号时产生了更好的结果。表9进一步探索了多个信号对模型性能的影响。结果表明，直接使用三个信号可以增强VLM在HBB和OBB任务上的视觉定位能力。

picture.image

设计选项

到作者了解为止，Text4Seg [11] 是唯一一个尝试将 Mask 视为文本的工作。然而，随着参考表达式的增加，其语义描述符变得过于冗余。表10比较了作者在DIOR-RSVG测试集上提出的Text-Mask与Text4Seg的性能。HBB预测是通过计算分割 Mask 的边界来获得的。实验表明，将 Mask 映射到二进制矩阵不仅使Text4Seg的文本长度减少40%，而且提高了其性能18%。由于RS中的目标相对较小，使用最近下采样方法会导致小目标的 Mask 信息丢失，从而导致显著的性能降低。虽然增加 Mask 量化分辨率可以进一步提高分割精度，但较长的输出文本序列会增加推理时间和训练难度。

picture.image

角度表示的OBB。表11比较了旋转目标检测领域中5种常见的OBB角度表示[44]。结果表明，不同的角度表示会影响VLM的视觉定位能力。具体而言，GeoChat [9]使用的角度表示表现不佳，而le90和le135的两侧边表示则展示了优越的结果。最终，作者选择le90作为GeoGround的默认角度表示。

picture.image

Visualization Examples

如图5所示，作者对比了GeoGround和GeoChat在HBBs和OBBs上的定性结果。可以看出，GeoGround在处理简单或相对复杂的参照表达式时，始终表现出卓越的定位精度。此外，它具有3D空间理解能力，可以从2D图像中推理3D距离。图6比较了在不同的Text-Mask分辨率下，GeoGround在RES任务上的性能。当分辨率达到32时，尽管粗糙的 Mask 边缘仍表现出小的锯齿状，但结果已经非常接近真实值。这些结果有力地验证了GeoGround在解决像素级视觉定位任务方面的有效性。

picture.image

6 Conclusion

尽管利用水平边界框、定向边界框和分割 Mask 的远程感知（RS）视觉定位任务有所进展，但由于框架限制，这些任务尚未得到统一。

为了解决这个问题，作者提出了GeoGround，这是一个新颖的框架，将 Box Level 的和像素 Level 的视觉定位任务集成到单个模型中。

GeoGround不是添加额外的编码器或解码器，而是使大型视觉语言模型（VLMs）通过将分割 Mask 视为文本，使用作者的Text-Mask方法在像素 Level 上执行视觉定位。这不会损害模型的会话能力或其对图像 Level 的理解能力。

作者还引入了一个大规模的RS视觉定位指令遵循数据集refGeo，它为RS的各种视觉定位任务提供了全面的基准，并为RS VLMs提供了一个有价值的语料库。

作者的综合基准和消融研究为RS领域VLMs的开发提供了重要见解。

参考文献

[0]. GeoGround : A Unified Large Vision-Language Model.

RS 视觉定位中的跨任务难题与 GeoGround 的解决方案 ！

1 Introduction

2 Related Work

3 GeoGround

4 refGeo

5 Experiments

6 Conclusion