RingMoAgent：统一多模态遥感视觉语言框架，智能感知推理跨平台！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

多模态、多平台遥感（RS）图像由于传感器特性及成像视角的差异呈现出丰富的细节。现有的遥感视觉语言研究主要依赖于相对同质化的数据源，并且仍然局限于分类或字幕生成等传统视觉感知任务。

因此，这些方法无法作为统一且独立的框架，在现实应用中有效处理来自不同来源的遥感图像。为解决这些问题，作者提出了RingMoAgent模型，该模型基于用户文本指令，设计用于处理多模态、多平台数据，执行感知和推理任务。

与现有模型相比，RingMoAgent具有以下特点：

1）基于一个名为RS-VL3M的大规模视觉语言数据集，该数据集包含超过300万张图像-文本对，涵盖光学、SAR和红外（IR）模态，数据来源于卫星和无人机平台，覆盖感知和具有挑战性的推理任务；

2）通过引入分离的嵌入层学习模态自适应表示，为异构模态构建隔离特征，减少跨模态干扰；

3）通过引入任务特定 Token ，并采用基于 Token 的高维隐藏状态解码机制，统一任务建模，该机制专为长时序空间任务设计。

在多种遥感视觉语言任务上的大量实验表明，RingMo-Agent不仅证明了在视觉理解和复杂分析任务中的有效性，还展现出在不同平台和传感模态上的强大泛化能力。

1 引言

随着大语言模型（LLMs）在语义理解和推理方面的显著进步，面向开放世界环境的设计愿景语言模型得到了快速发展。借助DeepSeek [1-4]、GPT [5, 6]和Llama [7-9]等先进LLMs的能力，这些模型现在能够感知复杂语义、进行多轮交互以及执行情境感知任务规划。这一演变标志着从静态感知向动态理解和自主决策的重大转变，从而推动了智能交互和高阶场景推理领域的更广泛应用。

受自然场景研究近期进展的推动，视觉语言模型的范式逐渐扩展到遥感（RS）[10]，将指令微调和联合视觉语言建模等能力引入遥感图像分析。这些努力催生了在目标识别和场景分类等基础遥感感知任务中表现出良好性能的模型[11-21]。然而，当前的遥感视觉语言模型仍存在显著局限性：

单一源建模在多样化遥感数据中的局限性。由于数据获取平台（例如卫星和无人机）和成像模式（例如光学、SAR和红外）的差异，遥感数据在空间分辨率、观测几何和光谱响应等物理特性上表现出显著差异。这些异构特性从根本上影响了图像中信息的表现方式。然而，大多数现有的遥感视觉语言模型是在单一模式或平台的数据上训练的，这限制了它们处理实际场景中多源数据复杂性的能力。因此，这些方法在跨平台和跨模式应用中通常表现出泛化能力差和兼容性有限的问题。

现有推理任务范式的局限性。现有的视觉语言推理研究主要集中于特定的视觉感知任务。然而，这些任务仍然局限于基础感知和识别，模型缺乏在场景实体间关系推理和动作预测等High-Level认知能力方面的训练。因此，这些模型的应用范围受限，在面对需要决策的高层次任务时，难以复制Agent系统在自然场景中展现出的优越智能，如图1所示。这一局限性根本源于缺乏面向复杂语义交互和推理的大规模推理图像文本数据集，这限制了模型泛化多模态知识的能力。

picture.image

为解决上述局限性，作者提出了RingMo-Agent模型，该模型设计用于处理多模态和多平台数据，能够根据用户指令执行感知和推理任务。首先，为释放视觉语言模型在Agent应用中的潜力，作者构建了一个名为RS-VL3M的视觉语言数据集，包含300万张跨三种模态（光学、SAR和红外）、两个平台（卫星和无人机）和八种任务的图像文本对，如图2所示。其次，作者采用基于特殊 Token 的高维隐藏状态解码机制，通过关注最后一层隐藏表示来对动态轨迹信息进行建模，从而支持RS长时程推理任务。第三，作者引入了具有分离嵌入的模态感知视觉编码器，以减轻不同传感平台和模态之间的分布偏移，支持鲁棒的特征提取和对齐。最后，与之前主要关注光学图像和基本感知任务的方法不同，RingMo-Agent统一了跨异构模态和平台的感知与推理，如表1所示。作者进一步在公开和自建的多源RS数据集上，将作者提出的模型与现有先进方法进行了全面的比较。

picture.image

主要贡献可以总结如下：

作者提出了RingMo-Agent模型，该模型支持跨两个平台的三个感知模态和八种任务类型，构建了一个从基本视觉感知到High-Level推理的统一框架。
作者构建了RS-VL3M，首个集成多平台和多模态数据的大规模RS视觉语言数据集，包含超过300万张图像-文本对。该数据集还包括一个高质量的多模态子集，专门为多轮对话评估而设计。
RingMo-Agent采用独立的嵌入层来缓解模态特定的分布偏移，并支持异构输入的联合处理。它进一步结合了一个由长时程任务特定 Token 引导的高维隐藏状态解码器，通过关键隐藏表示来建模动态轨迹。

在验证过程中，RingMo-Agent在八个RS任务上表现出色，超越了专家模型和通才模型，同时展现出强大的零样本泛化能力。

2 相关工作

2.1 自然场景中的视觉-语言研究

近年来，视觉语言模型在人工智能领域取得了显著进展，成为连接视觉理解和语言理解的重要桥梁。

早期研究主要集中于感知层面的任务，如图像文本匹配、图像描述生成和封闭式问答，强调视觉与语言之间的跨模态对齐和表征学习。例如，BLIP-2 [22] 在视觉内容与文本内容之间引入了三种不同的损失约束策略以促进跨模态对齐，在VQA和图像文本检索等任务上取得了先进性能。InstructBLIP [23] 探索了一种统一的指令微调范式，采用指令感知的视觉特征提取来完成基本的视觉感知任务。随后，一些研究开始探究大语言模型（LLMs）是否能在像素级任务（如定位、检测和分割）上有效执行。MiniGPTv2 [24]、Kosmos-2 [25] 和 Shikra [26] 进一步探索了使用自然语言表示空间坐标的方法。LISA [27] 引入了一种基于推理的分割嵌入 Mask 范式，其中分割 Mask 通过预测特殊 Token 的隐藏表征进行解码。

随着模型能力的提升，以GPT-4[28]为代表的研究逐渐扩展至开放式问答、视觉常识推理和多轮对话任务，融入了上下文建模和知识推理。MiniGPT-4[29]、mPLUG-Owl[30]、Qwen-VL[31]、DeepSeekVL2[32]等模型倾向于通过大规模指令微调来增强深度图像理解、推理和生成能力，从而更好地与用户意图保持一致。近年来，新兴的视觉语言研究[3-35]日益聚焦于大语言模型，通过整合环境交互，实现具备复杂感知和推理能力的通用Agent。

当前模型正从感知驱动系统向具备推理能力的通用Agent演进，但仍然主要集中于自然场景，并在处理遥感（RS）图像的复杂性方面存在挑战。

2.2 遥感中的视觉-语言研究

由于遥感数据具有异质性和任务特定的需求，将大语言模型应用于遥感领域仍主要处于探索阶段。

近期方法通过微调来适应现有的网络架构并利用预训练权重。

随着RSGPT [20] 和 RSVG [36] 等研究工作的出现，这些工作证明了视觉语言模型在遥感图像上能够有效泛化并取得优异性能，因此研究重点逐渐转向这些模型的设计与训练。RemoteCLIP [37] 建立了一个统一的遥感视觉语言模型，并在图像分类、图像文本检索以及目标计数等下游任务中验证了其有效性。GeoChat [17]、RingMoGPT [19] 和 SkyEyeGPT [15] 等模型进一步扩展了任务范围，涵盖了多轮对话、变化检测等任务。

然而，现有研究主要集中于使用光学图像进行感知任务，仅涵盖了遥感数据的一小部分。最近，EarthGPT [11] 整合了SAR和红外数据，以增强视觉语言模型的多模态检测能力。SkySenseGPT [16] 探索了模型在推理图像中物体关系方面的能力。AeroVerse [38] 尝试将基于无人机的Agent任务集成到视觉语言模型中，以探索导航探索方面的能力。

尽管近年来取得了进展，当前的遥感（RS）研究仍主要局限于基本感知表征，缺乏自主决策能力。此外，它们主要关注单平台和单模态数据，这限制了它们在现实世界遥感场景中的适用性。

2.3 遥感视觉语言研究的任务和数据集

为支持RS智能系统的训练，已开发出大量视觉语言数据集，其中大多数是从最初为目标检测、语义分割、图像分类和变化检测等任务设计的单模态数据集扩展而来的，并逐渐演变为大规模和多模态基准。

早期的数据集大多基于人工标注的图像描述，其语义 Level 规模有限，主要支持问答（VQA）和分类等基本任务，例如RSVQA [39]和AID [40]。随着任务的扩展，数据集的类型和规模逐渐增长。例如，RemoteCLIP [37]通过将基于规则的方针对用于检测、分割和检索的遥感（RS）数据集进行应用，构建了一个大规模的描述数据集，实现了视觉和语言数据的对齐。RSVG [36]基于光学目标检测数据集DIOR [41]构建，对图像目标进行属性分析，并通过基于规则的处理生成一个视觉定位数据集。RSGPT [20]扩展了光学目标检测数据集DOTA [42]，利用遥感专家的标注来开发一个全面的图像描述数据集。

近期，多项研究致力于构建大规模、高质量的遥感图像-文本数据集，涵盖多样化的任务类型。EarthGPT [11] 收集了涵盖五种任务类型和三种图像模态的多样化遥感数据，设计不同的指令来构建预训练数据集。此外，GeoChat [17]、RingMoGPT [19] 和 SkySenseGPT [16] 等模型利用约束性大语言模型生成增强任务的响应，作为训练数据。

尽管取得了这些进展，但仍然缺乏能够支持多样化任务类型、多种模态和不同平台的数据集，这对于推动通用智能 Agent 的发展至关重要。

3 数据集构建

3.1 整体数据分析

作者构建了一个大规模、高质量的RS图像-文本数据集RS-VL3M，其中包含由不同成像平台搭载的各种传感器拍摄的图像。该数据集具有多样化的分辨率、视角和成像机制，总共有超过300万张图像-文本对。

它支持两大类任务：以推理为导向的任务（任务调度、动作决策、指令分解和关系推理），以及以感知为导向的任务（图像描述、目标检测、图像分类和VQA），具体如表2所示。此外，为了在一致的数据条件下增强模型的多轮对话能力，作者基于共享图像池建立了一个多模态对话子集。该子集支持对同一图像进行红外和SAR模态的交互式分类、检测和描述任务。

picture.image

3.2 任务数据集构建

除了直接使用公开数据集外，作者还通过处理开源多模态数据构建了用于复杂任务的数据集。整体工作流程如图3所示。作者从光学、SAR和红外图像中提取了目标级属性信息，并根据每个任务的设计要求对数据进行格式化。在数据使用方面，为确保空间表示的一致性，所有坐标均归一化到[0, 999]范围内。用户需要使用 Token [1abe1]指定当前模态，可能的值包括opt、sar和ir。以下是每个任务类别数据的详细信息。

picture.image

任务调度。该任务聚焦于基于遥感影像在复杂城市环境中对自主飞行器进行轨迹规划。给定描述目标位置周围空间环境的指令，模型必须根据附近建筑物或地标的参考信息确定目标的3D位置，并基于Agent的初始姿态生成一系列3D航点以及相应的朝向角度。

4 方法

4.1 架构

所提出的RingMo-Agent包含四个主要组件：一个用于提取视觉特征的视觉编码器，一个用于处理语言信息的语言模型（LLM），一个作为中间 Adapter 将视觉特征投影到语言模型的语义空间的多层感知机（MLP） Projector ，以及一个用于时空建模的轨迹解码器，如图4所示。llm-RingMo-Agent_2507采用两阶段训练策略，统一了光学、红外和SAR图像等多源数据，同时将传统感知任务扩展到更具挑战性的推理任务，例如从无人机视角对复杂城市场景的理解。

picture.image

冻结视觉编码器。视觉编码器基于SigLIP [59]方法，动态地调整输入图像大小至384的倍数，同时兼容具有不同宽高比的RS图像。具体而言，给定一个大小为

的输入图像，将其调整至尺寸

，其中

，且

。

和

的值通过选择分别大于或等于原始图像高度

和宽度

的最小384倍数来确定。调整大小步骤完成后，图像被划分为独立的

大小的块。此外，通过直接将图像调整至

生成全局缩略图，以提供粗粒度的全局表示。

现有研究主要集中于单一光学模态学习。然而，在处理多模态数据时，不同模态间的分布差异阻碍了统一编码器提取判别性特征。为缓解这一问题，作者引入了独立的嵌入层，用于红外、SAR和光学模态的隔离特征提取，从而减少跨模态干扰。为形式化模态特定的视觉嵌入过程，令

分别表示来自光学、红外和SAR模态的输入图像。各模态的视觉嵌入可通过以下方式获得：

、

和

分别是用于光学、红外和SAR数据的嵌入层。这些嵌入随后被传递到后续的图像编码器以进行进一步处理。冻结的视觉编码器，记为

，接收输入图像

并输出相应的视觉特征：

其中

表示提取的视觉特征。

冻结MLP Projector 。该 Adapter 遵循由线性层组成的MLP架构。遵循DeepSeek-VL2 [32]的设置， Adapter 执行的映射可以由以下计算表示：

其中，

表示由MLP层组成的 Adapter ，

表示映射后的特征。在

中，首先应用一个

的Shuffle操作，将每个Tile的视觉 Token 从

布局转换为

。随后，将三种类型的特殊 Token 插入视觉特征中，作为位置指示器：一种附加到全局缩略图Tile每一行的末尾，另一种附加到最后列的局部Tile末尾，第三种则放置在全局Tile和局部Tile之间。然后，如图4所示，处理后的嵌入被作为输入送入LLM。

LoRA微调大语言模型。该LLM基于DeepSeekMoE架构[2,3]，通过将Key-Value缓存压缩为潜在表示来引入多头潜在注意力，从而降低训练成本。DeepSeek-VL2[32]为模型提供了1.0B、2.8B和4.5B激活参数，其中作者采用1.0B版本进行实现。作者采用LoRA方法[60]，该方法插入少量参数。

将可训练的低秩矩阵引入LLM。然后仅在这些附加参数上进行微调。该过程可表述如下：

此处，

表示使用LoRA微调的大语言模型，

表示文本输入，

表示输出结果可训练轨迹解码器。传统模型通过顺序 Token 解码生成文本或二维坐标，限制了空间运动建模。受LISA [27]启发，作者提出一种基于任务特定 Token 的高维隐藏状态解码机制，用于从最终Transformer层显式捕获动态轨迹，从而提高时间动作的连续性。解码机制的详细步骤在算法1中描述。特殊 Token

轨迹

仅在任务调度场景中预测，当需要坐标输出时，它能够在一个统一的框架内实现端到端训练。

picture.image

具体而言，多模态输入及其对应的真实标签分别统一表示为

和

，而模型生成预测结果

。令

表示最后一层中

trajectory

Token 的嵌入向量。作者定义轨迹解码器的内部计算如下。

其中

是一个线性投影。潜在向量被投影到隐藏状态空间以获得初始隐藏状态

，编码当前环境的上下文特征。在每个时间步

，解码器更新隐藏状态并预测下一个轨迹状态为：

其中

是先前状态的线性投影。然后，作者使用GRU网络来更新当前状态：

其中

表示更新后的隐藏状态。然后，通过输出投影层从隐藏状态预测下一个轨迹状态：

其中

是一个线性投影，用于输出下一个轨迹点。每一步的预测轨迹状态被追加到相应的轨迹序列

中。作者设置终止距离阈值为 1e-3，并根据场景中最长的轨迹定义最大步数。当满足任一条件时，循环终止。

约束损失由用于文本预测的交叉熵损失

和用于轨迹回归的均方误差损失

组成。每个损失分别乘以其对应的系数

和

，最终损失计算为它们的加权和。损失可以表示如下：

4.2 训练方法

RingMo-Agent采用两阶段训练方法，包括视觉语言生成阶段和指令微调阶段。

在视觉-语言生成阶段，主要目标是将模型从自然场景理解适应到遥感图像领域。原始预训练权重难以处理复杂的遥感场景，经常将多个不同目标误识别为单一实体，导致其在细粒度识别任务中表现不足。为解决这一问题，作者利用成对的遥感图像-文本数据进行生成式训练。在此过程中，作者采用图像-文本成对数据集，通过大语言模型的生成式损失进行优化。数据来源于公开的分类、描述和检测数据集[41,42,46,47,49-51,61-65]。为增强语言多样性同时保持语义准确性，作者使用GPT-4[28]扩展原始标注，应用诸如生成的句子必须包含原始真实标签等约束。此外，作者还采用基于规则的提取方法来验证生成的描述是否准确反映了原始标签。在指令微调阶段，优化模型以生成与给定指令一致的输出，确保任务执行准确。

5 实验

本节详细阐述了训练流程，并使用定性和定量分析方法对指令微调模型在感知任务（检测、问答、分类、描述）和推理任务（关系推理、任务调度、指令分解、行动决策）上的表现进行评估。

在报告的结果中，FT表示微调结果，而ZS表示零样本结果。粗体表示最佳性能，下划线表示次优性能。

5.1 实验设置

在视觉语言生成阶段，LoRA [60] 被应用于微调LLM。LoRA的配置参数设置为秩为64，缩放因子为16，以平衡参数效率和表征能力。作者使用AdamW优化器在8块NVIDIA A100 GPU（每块80 GB）上训练模型。学习率遵循线性预热后接余弦衰减的调度策略，初始学习率为1e-4，预热学习率为1e-6，最小学习率为1e-5。作者采用权重衰减0.05进行正则化。模型在超过500,000个样本上训练10个epoch，图像大小固定为384。

在指令微调阶段，RingMo-Agent采用线性预热后接余弦衰减的学习率调度方案。训练过程使用AdamW优化器，初始学习率为1e-6，预热阶段从1e-8开始，最小学习率衰减至0。为进一步提升泛化能力并缓解过拟合问题，在整个优化过程中应用了0.05的权重衰减。在此阶段，作者对图像分辨率不做限制，并保留每个样本的原始尺寸。模型训练周期为10个epoch。训练集、验证集和测试集合并后包含超过300万样本，统称为RS-VL3M。用于报告准确率的评估数据集，除了零样本设置外，作者还进行了单独的微调。

5.2 任务调度

数据集。作者使用CityNav数据集[43]，该数据集包含34种多样的城市场景环境。数据集被划分为训练集、已见验证集、未见验证集和未见测试集。数据集涵盖了广泛的目标目标类别，如建筑物、车辆、地面和停车场。

指标。作者在三个测试集上评估模型，并将其性能与现有的专家模型进行比较。遵循CityNav [43]，使用四个指标来评估生成轨迹的准确性：导航误差（NE）、成功率（SR）、神谕成功率（OSR）和按路径长度加权的成功率（SPL）。

结果。如表3所示，RingMo-Agent的表现优于微调的Seq2Seq [66]和CMA [67]，并接近包含地图编码和多视图特征的MGP [43]的性能。与MGP不同，作者实现了

picture.image

在不依赖外部地图先验的情况下，取得了具有竞争力的结果，在已看到的验证集上仅存在

的SR差距。值得注意的是，当前的通用视觉语言模型（VLMs）和遥感视觉语言模型（RSVLMs）仍然难以完成这项复杂的空间导航任务。

5.3 行动决策

数据集。作者在SkyAgent-Plan3k [38]数据集上评估该任务，该数据集包含四种不同的城市场景类型：上海、深圳、校园和住宅区。

指标。为了评估生成的逐步行动方案的质量，作者采用BLEU和SPICE作为评估指标。

结果。如表4所示，作者在所有场景类别中均显著优于所有 Baseline 方法，并在每种情况下实现了最高的BLEU-1和SPICE指标。现有的RSVLM模型尚未探索在多图像输入引导的3D空间中的推理能力。这些结果验证了llm-RingMo-Agent_2507在弥合视觉语言推理与可执行控制之间差距方面的有效性。

picture.image

5.4 关系推理

数据集。作者在两个关系推理数据集上进行了评估实验：FIT-RS数据集[16]和作者的自建ReCon1M-REL数据集。FIT-RS数据集包含54种关系类别，所有图像均裁剪为固定分辨率

。相比之下，ReCon1M-REL保留了59种关系类别，并采用可变分辨率。

指标。作者使用F1分数来评估这项任务。

结果。如表5所示，RingMo-Agent表现出优异的性能，达到了75.34%的准确率A，略微超越了SkySenseGPT[16]所获得的74.33%。在ReCon1M-REL数据集上，作者实现了90.23%的F1分数。相比之下，MiniGPT-v2[29]等其他视觉语言模型（VLMs），以及其他关系视觉语言模型（RSVLMs）[17]，无法有效执行这类任务，因为它们没有在相应的领域特定语料库上进行训练。

picture.image

5.5指令分解

数据集。作者在自建的ReCon1M-DEC数据集上评估了llm-RingMo-Agent_2507。

指标。为了全面评估性能，作者使用mAP@50和F1分数来评估性能。

结果。作者在表6中报告了区域内物体识别的精度以及关系推理的准确率。现有的RSVLMs无法处理此类任务。为了进行比较，作者使用其默认的LoRA配置对MiniGPTv2[24]和DeepSeek-VL2[32]进行了微调，并与作者自己的训练设置保持一致。这些结果被报告为 Baseline 。具体而言，MiniGPT-v2在mAP@50上达到了11.50%，在F1分数上达到了15.19%，而DeepSeek-VL2分别达到了19.80%和10.32%。相比之下，llm-RingMo-Agent_2507实现了显著更高的性能，mAP@50达到了24.20%，F1分数达到了32.85%。这种改进源于特定领域的预训练和微调，增强了模型捕捉RS图像中小物体特征的能力。

picture.image

5.6 图像描述

数据集。作者对光学、SAR和红外模态分别进行评估。光学数据集使用UCM-Captions [46] 和 NWPU-Captions [48]，而SAR和红外模态则在作者自行构建的数据集上进行测试。

指标。性能使用BLEU、METEOR、ROUGE-L和CIDEr指标进行报告。

结果。如表8所示，RingMo-Agent在UCM数据集上所有指标均优于专用模型SAA [69]，在METEOR和ROUGE-L指标上分别比SkyEyeGPT [15]高出5.55%和6.02%。在NWPU-Captions上的零样本结果（表9）进一步证明了其在多任务微调后的强大泛化能力。此外，在SAR和红外数据集（表7）上，RingMo-Agent显著优于未微调的VLMs，表明其具有稳健的跨模态字幕生成能力。

picture.image

5.7 VQA

数据集。作者报告了在RSVQA-LR [39]测试集上的微调结果和在RSVQA-HR [39]上的零样本结果。这些基准测试评估了模型理解物体类型、数量和空间位置的能力。

指标。作者计算了每种问题类型的准确率以及总体平均准确率。

结果。表10展示了在RSVQA-LR上的结果，重点关注两种问题类型：存在和比较。与其他方法相比，作者在存在问题上达到了

的准确率，超越了第二好的方法。

picture.image

RS-LLaVA [21] 提高了

。表11 显示，作者在存在性问题上的准确率达到

，在比较性问题上的准确率达到

，整体平均准确率为

，这表明与其他 RSVLMs 相比具有明显优势。

picture.image

5.8 分类

数据集。作者在AID [40] 和 NWPU-REsISC45 [49] 数据集上报告了结果，还包括作者自行构建的 IR-CLA 和 SAR-CLA 数据集，并在 UCMerced-LandUse [51] 和 WHU-RS19 [50] 数据集上提供了零样本结果。

指标。作者以分类准确率作为评估指标。对于光学数据集，每个问题向图像类别 Query ，并提供五个候选选项。

结果。如表12所示，RingMo-Agent在光学任务上表现出色，在NWPU-RESISC45上达到了94.72%的准确率。对于SAR和红外分类任务，作者分别达到了92.67%和99.45%的准确率，如表14所示。在零样本数据集UCMerced-LandUse上，作者达到了88%的准确率，超越了其他RSVLM模型，如表13所示。这一改进归功于模型的强大泛化能力。

picture.image

5.9 目标检测

数据集。RingMo-Agent支持跨三种模态进行目标检测：光学、SAR和红外。SAR检测结果报告在SARDet-100k [45]上，红外检测结果报告在作者的IR-DET数据集上。

指标。作者使用

报告了每类和整体的检测性能。

结果。如表16和表15所示，RingMo-Agent在合成孔径雷达和红外目标检测方面相较于现有模型表现出更优的性能。与具有强大定位能力的目标检测模型相比，经过多轮微调的llm-RingMo-Agent_2507在不同模态上展现出显著提升的理解能力。

picture.image

5.10 消融研究

为评估RingMo-Agent中关键设计组件的有效性，作者从三个方面进行消融实验：(1) 两阶段训练范式的影响，(2) 特定模态嵌入层的作用，以及(3) 轨迹解码器的功能。

两阶段训练。作者在大规模RS图像文本数据集上预训练RingMo-Agent以增强图像文本生成能力。为评估其影响，作者将其与未经预训练的DeepSeek-VL2初始化 Baseline 进行比较，使用相同的数据集和训练策略。如表17和表18所示，两阶段训练在推理和感知任务上均表现出持续的性能提升。这种增益源于其捕捉RS特定特征（如分辨率、视角和光谱差异）的能力，从而增强了泛化能力。

picture.image

模态特定嵌入层。作者针对光学、SAR和红外模态分别微调嵌入层，在训练和推理过程中依据模态标签进行指导。仅更新嵌入层，而其余视觉编码器保持冻结状态。如表19所示，冻结这些层并移除模态特定设计会降低性能，这突显了专用提取器的重要性。尽管共享相同结构，单独的嵌入能更好地捕获模态特定特征，避免了因将异构数据强制通过共享滤波器而导致的特征退化。

picture.image

轨迹解码器。为了应对LLM在生成逐点轨迹时面临的损失不平衡和序列约束困难等挑战，作者额外设计了一种专门用于任务调度的轨迹解码器。在表20中，作者额外比较了未使用轨迹解码器的情况，其中模型按顺序预测下一个token以输出每个点的六维坐标。CityNav数据集[43]上的结果展示了轨迹解码器的有效性，表明其在已见和未见场景中均表现出性能提升。

picture.image

5.11 可视化

为更清晰地展示模型行为，本文展示了代表性结果的可视化，如图5所示。这些结果包括任务调度（a）、动作决策（b）、指令分解（c）、关系推理（d），以及SAR和红外数据上的分类、描述和检测（e、f）。此外，图6提供了可视化示例，以展示对话交互。

picture.image

6 结论

在这项工作中，作者提出了RingMo-Agent，一个专为跨平台和多模态遥感（RS）数据设计的统一基础模型。该模型能够处理具有不同视角和感知特征的图像，并执行复杂的推理任务。

该模型得益于以下几个关键支持：一个包含超过300万幅图像-文本对的超大规模数据集RS-VL3M；构建分离的嵌入层以解决跨模态的分布差异，并隔离特征提取过程；

以及引入基于 Token 的高维隐藏状态解码机制，用于长时程空间任务，这显著扩展了任务覆盖范围。作者设想未来的遥感Agent将朝着更深层次的逻辑推理能力发展，从而支持诸如灾害响应等紧急场景中的损害评估和决策等实际应用。

参考

[1]. RINGMO-AGENT: A UNIFIED REMOTE SENSING FOUNDATION MODEL FOR MULTI-PLATFORM AND MULTI-MODAL REASONING

RingMoAgent：统一多模态遥感视觉语言框架，智能感知推理跨平台 ！

1 引言

2 相关工作

2.1 自然场景中的视觉-语言研究

2.2 遥感中的视觉-语言研究

2.3 遥感视觉语言研究的任务和数据集

3 数据集构建

3.1 整体数据分析

3.2 任务数据集构建

4 方法

4.1 架构

4.2 训练方法

5 实验

5.1 实验设置

5.2 任务调度

5.3 行动决策

5.4 关系推理

5.5指令分解

5.6 图像描述

5.7 VQA

5.8 分类

5.9 目标检测

5.10 消融研究

5.11 可视化

6 结论

参考