遥感视觉语言新标杆：分离嵌入层+任务Token架构详解（300万对多模态数据）！ - 文章 - 开发者社区

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

来自多种模态和平台的遥感(RS)图像由于传感器特性和成像视角的差异而呈现出多样化的细节。遥感领域现有的视觉语言研究主要依赖于相对同质化的数据源。此外，这些研究仍然局限于分类或描述生成等传统视觉感知任务。因此，这些方法无法作为一个统一且独立的框架，在实际应用中有效处理来自多样化来源的遥感图像。为解决这些问题，作者提出了RingMoAgent，这是一个专为处理多模态和多平台数据而设计的模型，能够根据用户的文本指令执行感知和推理任务。

与现有模型相比，RingMoAgent

得到了名为RS-VL3M的大规模视觉语言数据集的支持，该数据集包含超过300万个图像-文本对，涵盖了从卫星和无人机平台收集的光学、SAR和红外(IR)模态数据，覆盖了感知和具有挑战性的推理任务；
通过引入分离的嵌入层来构建异构模态的独立特征并减少跨模态干扰，从而学习模态自适应表示；
通过引入任务特定 Token 并采用专为长时程空间任务设计的基于 Token 的高维隐藏状态解码机制，统一了任务建模。在各种遥感视觉语言任务上的大量实验表明，RingMo-Agent不仅在视觉理解和复杂分析任务中表现出色，而且在不同平台和传感模态上展现了强大的泛化能力。

1 引言

随着大语言模型（LLMs）在语义理解和推理方面的显著进步，为开放世界环境设计的视觉语言模型经历了快速发展。利用DeepSeek [1–4]、GPT [5, 6]和Llama [7–9]等先进LLMs的能力，这些模型现在能够感知复杂语义、进行多轮交互并执行上下文感知的任务规划。这一演变标志着从静态感知向动态理解和自主决策的重大转变，从而在智能交互和High-Level场景推理中实现了更广泛的应用。

受自然场景相关研究最新进展的推动，视觉-语言模型的范式已逐渐扩展到遥感领域[10]，将指令调优和联合视觉-语言建模等能力引入遥感图像分析。这些努力催生了一批在目标识别和场景分类等基础遥感感知任务中展现出良好性能的模型[11–21]。然而，当前用于遥感的视觉-语言模型仍存在显著局限性：

• 多样化RS数据中单源建模的局限性

由于数据采集平台（如卫星和无人机）和成像模态（如光学、SAR和红外）的变化，RS数据在空间分辨率、观测几何和光谱响应等物理特性上表现出显著差异。这些异质性特性从根本上影响了图像中信息的表示方式。然而，大多数现有的RS视觉语言模型都是在单一模态或平台的数据上训练的，这限制了它们处理实际场景中多源数据复杂性的能力。因此，这些方法在跨平台和跨模态应用中常常表现出泛化能力差和兼容性有限的问题。

• 现有推理任务范式的局限性

现有的遥感视觉-语言研究主要集中于特定的视觉感知任务。然而，这些任务仍然局限于基础感知和识别，模型缺乏在High-Level认知能力方面的训练，如场景实体间的关系推理和动作预测。因此，这些模型被限制在狭窄的应用范围内，并且在面对需要决策的High-Level任务时，难以复制Agent系统在自然场景中展示的卓越智能，如图1所示。这一限制根本上是由于缺乏面向复杂语义交互和推理的大规模遥感图像-文本数据集，这限制了模型泛化多模态知识的能力。

picture.image

为解决上述局限性，作者提出了RingMo-Agent，这是一个旨在处理多模态和多平台数据的模型，能够根据用户指令执行感知和推理任务。首先，为了释放vision-language models在智能 Agent 应用中的潜力，作者构建了一个名为RS-VL3M的视觉语言数据集，包含300万图像-文本对，涵盖三种模态（光学、SAR和红外）、两种平台（卫星和UAVs）以及八项任务，如图2所示。

其次，作者采用了一种基于特殊token的高维隐藏状态解码机制，该机制通过关注最后一层的隐藏表示来建模动态轨迹信息，从而支持RS长视野推理任务。第三，作者整合了一个具有分离嵌入的模态感知视觉编码器，以减轻不同感知平台和模态之间的分布偏移，支持鲁棒的特征提取和对齐。最后，与以往主要关注光学图像和基础感知任务的方法不同，RingMo-Agent统一了跨异构模态和平台的感知和推理，如表1所总结。作者还在公共和自构建的多源RS数据集上对作者提出的模型与现有先进方法进行了全面比较。

picture.image

主要贡献可总结如下：

作者提出RingMo-Agent，这是一个支持三种感知模态和八种任务类型的模型，可跨两个平台运行，实现了一个从基础视觉感知到High-Level推理的统一框架。
作者构建了RS-VL3M，这是首个整合多平台和多模态数据的大规模RS视觉语言数据集，包含超过300万图像-文本对。它还包括一个专为多轮对话评估设计的高质量共享多模态子集。
RingMo-Agent采用独立的嵌入层来缓解特定模态的分布偏移，并实现对异构输入的联合处理。它进一步包含一个由长期任务特定token引导的高维隐藏状态解码器，通过关键隐藏表示来建模动态轨迹。

在验证过程中，RingMo-Agent在八项RS任务上表现出强劲的性能，优于专家模型和通用模型，同时展现出稳健的zero-shot泛化能力。

2 相关工作

2.1 自然场景中的Vision-Language研究

近年来，视觉语言模型在人工智能领域取得了显著进展，成为视觉理解和语言理解之间的重要桥梁。

早期研究主要集中在感知级任务上，如图文匹配、图像描述和封闭式问答，强调视觉与语言之间的跨模态对齐和表示学习。例如，BLIP-2[22]引入了视觉和文本内容之间的三种不同损失约束策略，以促进跨模态对齐，在VQA和图文检索等任务上取得了先进性能。InstructBLIP[23]探索了一种统一的指令调优范式，其中采用指令感知的视觉特征提取来完成基本的视觉感知任务。随后，一些研究开始调查LLM是否能在定位、检测和分割等像素级任务上有效执行。MiniGPTv2[24]、Kosmos-2[25]和Shikra[26]还探索了使用自然语言表示空间坐标的方法。LISA[27]引入了一种基于推理分割的嵌入即 Mask 范式，其中通过预测特殊 Token 的隐藏表示来解码分割 Mask 。

随着模型能力的进步，以GPT-4 [28]为代表的研究已逐渐扩展到涵盖开放式问题回答、视觉常识推理和多轮对话任务，结合了上下文建模和知识推理。诸如MiniGPT-4 [29]、mPLUG-Owl [30]、Qwen-VL [31]、DeepSeekVL2 [32]等模型倾向于利用广泛的指令调优来增强深度图像理解、推理和生成能力，从而实现与用户意图的更好对齐。最近，新兴的视觉语言研究 [33–35] 越来越围绕大语言模型展开，整合环境交互以使通用 Agent 能够进行复杂的感知和推理。

当前模型正在从感知驱动系统演变为具有推理能力的通用Agent，但仍主要聚焦于自然场景，并在处理遥感图像的复杂性方面存在困难。

图像描述

目标检测

遥感中的视觉-语言研究

由于遥感数据的异质性和特定任务要求，将大语言模型应用于遥感领域仍然很大程度上是探索性的。

最近的方法调整现有的网络架构，并通过微调利用预训练权重。

随着RSGPT [20]和RSVG [36]等工作证明了视觉语言模型可以在RS图像上有效泛化并取得优越性能，研究越来越集中于这些模型的设计和训练。RemoteCLIP [37]建立了一个统一的RS视觉语言模型，并验证了其在图像分类、图像文本检索和目标计数等下游任务中的有效性。诸如GeoChat [17]、RingMoGPT [19]和SkyEyeGPT [15]等模型进一步将任务范围扩展到包括多轮对话、变化检测等。

然而，现有研究主要关注使用光学图像的感知任务，仅覆盖了RS数据的有限部分。最近，EarthGPT [11]整合了SAR和红外数据，以增强视觉语言模型的多模态检测能力。SkySenseGPT [16]探索了模型推理图像中物体之间关系的能力。AeroVerse [38]试图将基于UAV的Agent任务整合到视觉语言模型中，以探索在导航探索方面的能力。

尽管最近取得了进展，但当前的RS研究仍然主要局限于基本的感知表示，缺乏自主决策能力。此外，它们主要关注单平台和单模态数据，这限制了它们在现实世界RS场景中的适用性。

遥感视觉语言研究的任务与数据集

为了支持RS智能系统的训练，已经开发了大量的视觉-语言数据集，其中大多数是从单模态数据集扩展而来的，这些数据集最初是为目标检测、语义分割、图像分类和变化检测等任务设计的，并已逐步演变为大规模和多模态的基准测试。

早期数据集大多基于手动标注的图像描述，具有有限规模的语义层次，主要支持VQA和分类等基本任务，以RSVQA [39]和AID [40]为例。随着任务的扩展，数据集的类型和规模逐渐增长。例如，RemoteCLIP [37]通过将基于规则的方法应用于为检测、分割和检索设计的RS数据集，构建了一个大规模的标题数据集，实现了视觉和语言数据的对齐。RSVG [36]基于光学目标检测数据集DIOR [41]，对图像物体进行属性分析，并通过基于规则的处理生成视觉定位数据集。RSGPT [20]扩展了光学目标检测数据集DOTA [42]，利用RS专家的专业标注开发了一个全面的图像标题数据集。

最近，几项研究旨在构建大规模、高质量的遥感图像-文本数据集，涵盖多种任务类型。EarthGPT [11] 收集了多样化的遥感数据，涵盖五种任务类型和三种图像模态，通过设计不同的指令来构建预训练数据集。此外，如GeoChat [17]、RingMoGPT [19]和SkySenseGPT [16]等模型利用受限的LLMs为增强任务生成响应，作为训练数据。

尽管取得了这些进展，仍然缺乏能够支持多样化任务类型、多种模态和各种平台的数据集，这对于向通用智能 Agent 迈进至关重要。

3 数据集构建

3.1 整体数据分析

作者构建了一个大规模、高质量的遥感图像-文本数据集，名为RS-VL3M，包含了安装在不同成像平台上的各种传感器所捕获的图像。该数据集的图像具有多样化的分辨率、视角和成像机制，总计超过300万图像-文本对。它支持两大类任务：面向推理的任务（任务调度、行动决策、指令分解和关系推理）和面向感知的任务，如表2详述。此外，为了在一致的数据条件下增强模型的多轮对话能力，作者基于共享图像池建立了一个多模态对话子集。该子集能够对同一图像同时在红外和SAR模态上进行交互式分类、检测和描述任务。

picture.image

3.2 任务数据集构建

除了直接利用公开可用的数据集外，作者还通过处理开源多模态数据为复杂任务构建了数据集。整体工作流程如图3所示。作者从光学、SAR和红外图像中提取了目标级属性信息，并根据每个任务的设计要求对数据进行了格式化。对于数据使用，为确保一致的空间表示，所有坐标都被归一化到[0, 999]范围内。用户需要使用 Token [label]指定当前的模态，可能的值为opt、sar和ir。每个任务类别的数据详情如下所示。

picture.image

任务调度。该任务聚焦于基于遥感影像的复杂城市环境中自主空中导航的轨迹规划。给定描述目标位置周围空间上下文的指令，模型必须根据附近建筑物或地标的参考信息识别目标的3D位置，并在给定Agent初始位姿的情况下，生成一系列3D航点及相应的方向角。

作者使用与之前相同的来源构建SAR和红外分类数据集。对于SAR，作者采用原始的类别定义，而对于红外数据，通过将标签分为街景和船只两个粗略类别来解决不同数据集中标注不一致的问题。光学数据来源于公开可用的数据集。

Prompt ：请输出对应图像的场景：• 响应：飞机。

作者为红外和SAR数据构建了一个共享图像子集，涵盖检测、描述生成和分类任务，其中每张图像都被标注以支持所有这三项任务。这种设计使得在一致的视觉输入条件下进行多轮对话评估成为可能。

VQA. 作者使用公开数据集[39]作为作者的训练和评估基准。这些数据集被广泛采用为评估视觉语言模型的标准基准。

Prompt ：是否存在一条小路？这个问题的答案是 • 响应：是的。

4 方法

4.1 架构

提出的RingMo-Agent包含四个主要组件：用于提取视觉特征的视觉编码器、处理语言信息的LLM、作为中间 Adapter 将视觉特征投影到语言模型语义空间的MLP Projector ，以及为时空建模设计的轨迹解码器，如图4所示。llm-RingMo-Agent_2507采用两阶段训练策略，统一光学、红外和SAR图像等多源数据，同时将传统感知任务扩展到更具挑战性的推理任务，例如从无人机角度理解复杂城市场景。

picture.image

冻结视觉编码器。该视觉编码器基于SigLIP [59]方法，动态地将输入图像重新缩放为384的倍数，同时适应不同宽高比的RS图像。特别地，给定一个大小为

的输入图像，该图像被重新缩放为

的尺寸，其中

。

和

的值是通过选择分别大于或等于原始图像高度

和宽度

的384的最小倍数来确定的。在这个重新调整尺寸的步骤之后，图像被分割成大小为

的独立块。此外，通过将图像直接调整大小为

来生成一个全局缩略图，以提供粗略的全局表示。

大多数现有研究主要集中在单光学模态学习上。然而，在处理多模态数据时，模态间的分布差异阻碍了统一编码器提取判别性特征。为缓解这一问题，作者为红外、SAR和光学模态引入独立的嵌入层，以进行孤立的特征提取，从而减少跨模态干扰。为了形式化特定模态的视觉嵌入过程，令

分别表示来自光学、红外和SAR模态的输入图像。每个模态的视觉嵌入获取如下：

其中

、

和

分别是光学、红外和SAR数据的嵌入层。这些嵌入然后被传递到后续的图像编码器进行进一步处理。冻结的视觉编码器，表示为

，接收输入图像

并输出相应的视觉特征：

其中

代表提取的视觉特征。

冻结的MLP Projector 。该adapter遵循由线性层组成的MLP架构。遵循DeepSeek-VL2 [32]的设置，adapter执行的映射可以通过以下计算表示：

其中，

表示由MLP层组成的 Adapter ，

表示映射的特征。在

中，首先应用

的混洗操作，将每个Tile的视觉token从

布局转换为

。随后，三种特殊token被插入到视觉特征中以作为位置指示器：一种被附加到全局缩略图Tile的每一行的末尾，另一种被附加到局部Tile的最后一列的末尾，第三种被放置在全局和局部Tile之间。然后，如图4所示，处理后的embeddings被作为输入输入到LLM中。

LoRA微调大语言模型

该LLM基于DeepSeekMoE架构[2, 3]，该架构通过将键值缓存压缩为潜在表示来引入多头潜在注意力，从而降低训练成本。DeepSeek-VL2 [32]提供了具有1.0B、2.8B和4.5B激活参数的模型，其中作者采用1.0B版本进行实现。作者采用LoRA方法[60]，该方法将少量可训练低秩矩阵插入到LLM中。然后仅对这些额外参数进行微调。该过程可以表述如下：

算法1 从预测的tokens中解码轨迹

picture.image

其中，

表示使用LoRA进行微调的LLM，

代表文本输入，而

代表输出结果。

可训练轨迹解码器

传统模型通过序列 Token 解码生成文本或2D坐标，这限制了空间运动建模。受LISA [27]的启发，作者提出了一种使用任务特定 Token 的高维隐藏状态解码机制，从最终的transformer层显式捕获动态轨迹，从而提高时间动作连续性。该解码机制的详细过程在算法1中进行了描述。特殊 Token

trajectory

仅在需要坐标输出的任务调度场景中被预测，这使得在统一框架内进行端到端训练成为可能。

具体而言，多模态输入和对应的ground truth分别统一表示为

和

，而模型生成预测

。令

表示最后一层中

trajectory

token的嵌入向量。作者将轨迹解码器的内部计算定义如下。

其中

是一个线性投影。潜在向量被投影到隐藏状态空间以获得初始隐藏状态

，编码当前环境的上下文特征。在每个时间步

，解码器更新隐藏状态并预测下一个轨迹状态如下：

其中

是前一个状态的线性投影。然后，作者使用 GRU 网络来更新当前状态：

其中

代表更新后的隐藏状态。然后，通过输出投影层从隐藏状态中预测下一个轨迹状态：

其中

是一个线性投影，输出下一个轨迹点。每一步预测的轨迹状态被附加到相应的轨迹序列

中。作者将终止距离阈值设置为1e-3，并根据场景中最长的轨迹定义最大步数。当任一条件满足时，循环终止。

约束损失由用于文本预测的交叉熵损失

和用于轨迹回归的均方误差损失

组成。每个损失分别由其系数

和

加权，最终损失计算为它们的加权和。损失函数可以表示如下：

4.2 训练方法论

RingMo-Agent采用两阶段训练方法，包括视觉语言生成阶段和指令微调阶段。

在视觉-语言生成阶段，主要目标是将模型从自然场景理解调整到遥感图像域。原始预训练权重难以处理复杂的遥感场景，经常将多个不同的目标错误识别为单个实体，使其不足以胜任细粒度识别任务。为了解决这个问题，作者利用配对的遥感图像-文本数据进行生成式训练。在此过程中，作者采用图像-文本配对数据集，通过大语言模型的生成损失来实现优化。数据来源于公开可用的分类、标注和检测数据集[41, 42, 46, 47, 49–51, 61–65]。为了增强语言多样性同时保持语义准确性，作者使用GPT-4 [28]来扩展原始标注，应用约束条件，例如要求生成的句子包含原始的真实标签。此外，作者采用基于规则的提取方法来验证生成的描述是否准确反映了原始标签。在指令调优阶段，模型被优化以生成与给定指令一致的输出，确保准确的任务执行。

5 实验

本节详细介绍了训练过程，并使用定性和定量分析评估了指令微调模型在感知任务（检测、VQA、分类、字幕生成）和推理任务（关系推理、任务调度、指令分解、动作决策）上的表现。

在报告的结果中，FT表示微调后的结果，而ZS指的是零样本结果。粗体表示最佳性能，下划线表示次佳性能。

5.1 实验设置

在视觉语言生成阶段，应用LoRA [60]对LLM进行微调。LoRA配置定义为rank为64，scaling factor为16，这平衡了参数效率和表示能力。作者使用AdamW优化器在8个NVIDIA A100 GPU（80 GB）上训练模型。学习率采用linear warmup后接cosine decay schedule，初始学习率为1e-4，warmup学习率为1e-6，最小学习率为1e-5。作者应用0.05的weight decay进行regularization。作者在超过500,000个样本上训练模型10个epochs，图像大小固定为384。

在指令微调阶段，RingMo-Agent采用线性预热后接余弦衰减学习率调度。训练使用AdamW优化器，初始学习率为1e-6，预热从1e-8开始，最小学习率衰减至0。为了进一步增强泛化能力并减轻过拟合，在整个优化过程中应用了0.05的权重衰减。在此阶段，作者对图像分辨率不做限制，并保留每个样本的原始尺寸。模型还训练了10个epoch。合并的训练集、验证集和测试集包含超过300万个样本，统称为RS-VL3M。对于用于报告准确率的评估数据集，除了零样本设置外，作者还进行单独的微调。

5.2 任务调度

数据集。作者使用CityNav数据集[43]，该数据集包含34个不同的城市场景环境。该数据集被划分为训练集、已见验证集、未见验证集和未见测试集。该数据集涵盖广泛的目标目标类别，如建筑物、车辆、地面和停车场。

指标

作者在所有三个测试集上评估模型，并将其性能与现有专业模型进行比较。遵循CityNav [43]的方法，作者使用四个指标来评估生成轨迹的准确性：导航误差（NE）、成功率（SR）、理想成功率（OSR）和路径长度加权的成功率（SPL）。

结果如表3所示，RingMo-Agent优于微调的Seq2Seq [66]和CMA [67]，并接近MGP [43]的性能，该方法融合了地图编码和多视角特征。与MGP不同，作者实现了

picture.image

在不依赖外部地图先验的情况下取得了具有竞争力的结果，在已见的验证集上仅有

的SR差距。值得注意的是，当前的通用视觉语言模型(VLMs)和遥感视觉语言模型(RSVLMs)仍然难以完成这一复杂的空间导航任务。

5.3 动作决策

数据集。作者在SkyAgent-Plan3k [38]数据集上评估此任务，该数据集包含四种不同的城市场景类型：上海、深圳、校园和住宅区。

指标

为了评估生成的逐步行动计划的质量，作者采用BLEU和SPICE作为评估指标。

结果。如表4所示，作者在所有场景类别中都显著优于所有 Baseline 方法，在每种情况下均获得了最高的BLEU-1和SPICE分数。现有的RSVLMs尚未探索其在多图像输入引导下的3D空间推理能力。这些结果验证了llm-RingMo-Agent_2507在弥合视觉语言推理和可操作控制之间差距的有效性。

picture.image

5.4 关系推理

数据集

作者在两个关系推理数据集上进行了评估实验：FIT-RS数据集[16]和作者自建的ReCon1M-REL数据集。FIT-RS数据集包含54个关系类别，所有图像被裁剪为固定分辨率

。相比之下，ReCon1M-REL保留了59个关系类别并采用可变分辨率。

指标

作者使用F1-score来评估这个任务。

结果如表5所示，RingMo-Agent表现出优越的性能，达到了

的准确率，略微超过了SkySenseGPT [16]获得的

。在ReCon1M-REL数据集上，作者达到了

的F1分数。相比之下，其他VLMs如MiniGPT-v2 [29]以及其他RSVLMs [17]无法有效执行此类任务，因为它们没有在相应的特定领域语料库上进行训练。

picture.image

5.5 指令分解

数据集

作者在自构建的ReCon1M-DEC数据集上评估了llm-RingMo-Agent_2507。

指标为了全面评估性能，作者使用mAP@50和F1-score来评估性能。

结果。作者在表6中报告了区域内物体识别的精确度以及关系推理的准确性。现有的RSVLMs无法处理这类任务。为了进行比较，作者使用其默认的LoRA配置对MiniGPTv2 [24]和DeepSeek-VL2 [32]进行了微调，与作者自己的训练设置保持一致。这些结果被报告为 Baseline 。具体而言，MiniGPT-v2在mAP@50上达到了

，在F1分数上达到了

，而DeepSeek-VL2分别达到了

和

。相比之下，llm-RingMo-Agent_2507实现了显著更高的性能，mAP@50为

，F1分数为

。这种改进源于特定领域的预训练和微调，这增强了模型捕捉RS影像中小物体特征的能力。

picture.image

5.6 图像描述

数据集

作者分别在光学、SAR和红外模态上进行评估。光学数据集使用UCM-Captions [46]和NWPU-Captions [48]，而SAR和红外模态则在作者自建的数据集上进行测试。

指标。使用BLEU、METEOR、ROUGE-L和CIDEr指标来报告性能。

结果。如表8所示，RingMo-Agent在UCM数据集的所有指标上均优于SAA[69]等专业模型，并在METEOR和ROUGE-L指标上分别超越SkyEyeGPT[15]

和

。在NWPU-Captions数据集上的零样本结果（表9）进一步证明了其强大的泛化能力，尽管经过了多任务微调。此外，在SAR和红外数据集（表7）上，RingMo-Agent显著优于未经微调的VLMs，表明其具有强大的跨模态字幕生成能力。

picture.image

5.7 VQA

数据集。作者报告了在 RSVQA-LR [39] 测试集上的微调结果和在 RSVQA-HR [39] 上的零样本结果。这些基准评估模型理解物体类型、数量和空间位置的能力。

指标。作者计算了每种问题类型的准确率以及整体平均准确率。

结果. 表10展示了RSVQA-LR上的结果，重点关注两种问题类型：存在性问题和比较性问题。与其他方法相比，作者在存在性问题上达到了

的准确率，超越了第二好的方法

RS-LLaVA [21] 提高了

。表11显示，作者在存在性问题上的准确率达到

，在比较性问题上的准确率达到

，整体平均准确率为

，表明相比其他RSVLMs具有明显优势。

picture.image

5.8 分类

数据集。作者在AID [40]和NWPU-RESISC45 [49]数据集上报告结果，同时包括作者自构建的IR-CLA和SAR-CLA数据集，并在UCMerced-LandUse [51]和WHU-RS19 [50]上提供零样本结果。

指标。作者采用分类准确率作为评估指标。对于光学数据集，每个问题 Query 图像类别，并提供了五个候选选项。

结果。如表12所示，RingMo-Agent在光学任务上取得了强大的性能，在NWPU-RESISC45上达到了

的准确率。在SAR和红外分类方面，作者分别达到了

和

，如表14所示。在零样本数据集UCMerced-LandUse上，作者达到了

，超越了其他RSVLMs，如表13所示。这种改进归因于模型的强大泛化能力。

picture.image

5.9 Object Detection

数据集

RingMo-Agent支持跨三种模态的目标检测：光学、SAR和红外。SAR结果报告于SARDet-100k [45]，而红外结果报告于作者的IR-DET数据集。

指标。作者使用

报告了每个类别和整体的检测性能。

结果. 如表16和表15所示，与现有模型相比，RingMo-Agent在SAR和红外目标检测上实现了卓越的性能。与具有强大定位能力的VLMs相比，llm-RingMo-Agent_2507经过多轮微调后，在不同模态上的理解能力显著提升。

picture.image

5.10 消融研究

为了评估RingMo-Agent中关键设计组件的有效性，作者从三个角度进行消融实验：(1)两阶段训练范式的影响，(2)特定模态嵌入层的作用，以及(3)轨迹解码器的功能。

两阶段训练

作者在大规模遥感图像-文本数据集上预训练RingMo-Agent，以增强图像-文本生成能力。为了评估影响，作者将其与一个由未经预训练的DeepSeek-VL2初始化的 Baseline 模型进行比较，使用相同的数据集和训练策略。如表17和表18所示，两阶段训练在推理和感知任务上都持续提升了性能。这种提升源于捕捉遥感特定特征（如分辨率、视角和光谱差异）的能力，从而提高了泛化能力。

picture.image

模态特定嵌入层

作者在训练和推理过程中，在模态标签的指导下，为光学、SAR和红外模态微调独立的嵌入层。只有嵌入层被更新，而视觉编码器的其余部分保持冻结。如表19所示，冻结这些层并移除模态特定设计会降低性能，这凸显了专用提取器的重要性。尽管共享相同的结构，但独立的嵌入能更好地捕捉模态特定特征，避免了通过共享滤波器强制处理异构数据所导致的特征退化。

picture.image

轨迹解码器

为了解决LLMs逐点生成轨迹时出现的损失不平衡和序列约束困难等挑战，作者另外专门为任务调度设计了一个轨迹解码器。在表20中，作者另外比较了不使用轨迹解码器的情况，在这种情况下，模型顺序预测下一个token以输出每个点的六维坐标。CityNav数据集[43]上的结果证明了轨迹解码器的有效性，表明在已见和未见场景中性能都有所提升。

5.11 可视化

为了更清晰地理解模型行为，作者在本工作中展示了代表性结果的可视化，如图5所示。这些包括任务调度(a)、动作决策(b)、指令分解(c)、关系推理(d)，以及在SAR和红外数据上的分类、描述和检测(e, f)。此外，图6提供了可视化示例来展示对话交互。

picture.image

6 结论

在这项工作中，作者提出了RingMo-Agent，一个专为跨多个平台和模态的RS数据定制的统一基础模型。它能够处理具有多样视角和传感特性的图像，并执行复杂的推理任务。

该模型得益于几个关键支持：一个包含超过300万图像-文本对的大规模数据集RS-VL3M；

构建分离的嵌入层以解决跨模态的分布差异并隔离特征提取过程；以及引入基于token的高维隐藏状态解码机制用于长期空间任务，这显著扩展了任务覆盖范围。

作者设想未来的RS Agent 将进一步向更深层次的逻辑推理能力发展，从而支持在灾害响应等紧急情况下的损害评估和决策制定等实际应用。

参考

[1]. RINGMO-AGENT: A UNIFIED REMOTE SENSING FOUNDATION MODEL FOR MULTI-PLATFORM AND MULTI-MODAL REASONING