遥感全能大模型 | Falcon视觉语言大模型发布,统一指令范式覆盖14任务,7800万数据驱动67个数据集验证

大模型向量数据库数据中台

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

导读

本文介绍了一种针对遥感领域的整体视觉-语言基础模型,命名为Falcon。Falcon提供了一种统一、基于 Prompt 的范式,能够有效地执行综合和复杂的遥感任务。Falcon在图像、区域和像素 Level 展现了强大的理解和推理能力。具体来说,给定简单的自然语言指令和遥感图像,Falcon可以在14个不同的任务中产生令人印象深刻的文本结果,例如图像分类、目标检测、分割、图像标题等。为了促进Falcon的训练并增强其表示能力,以编码丰富的空间和语义信息,作者开发了Falcon_SFT,这是一个大规模、多任务、指令调整的遥感领域数据集。Falcon_SFT数据集包含约7800万个高质量数据样本,覆盖了560万个具有多空间分辨率和多视角的遥感图像,并包含多样化的指令。它具有分层标注,并经过人工抽样验证,以确保高数据质量和可靠性。进行了广泛的比较实验,验证了Falcon在67个数据集和14个任务上取得了显著的性能,尽管其参数量仅为0.7亿。

数据集、代码和模型权重: https://github.com/TianHuiLab/Falcon

  1. 引言

大型视觉语言模型(LVLMs)在自然图像上的各种视觉语言任务中取得了显著的成功[1, 12, 38, 55, 101]。然而,由于自然图像与遥感图像之间存在显著的领域和嵌入知识差距,开发遥感基础视觉语言模型仍然是一个重大挑战。为此,先前的研究[21, 27, 37, 51, 96]通常集中于学习在特定遥感任务中表现卓越的视觉语言模型,这限制了它们在更多样化和复杂场景中的适应性。随着人工智能通用(AGI)系统的持续发展,创建一个具有全面理解和推理能力的遥感基础模型具有重要的价值。

然而,构建这样一个基础遥感模型仍然面临着重大挑战,作者总结如下:

    1. 现有模型缺乏对多样化遥感任务的通用表示,往往无法促进全面感知和推理能力的学习;
    1. 缺乏大规模、高质量、多任务数据集进行训练,也限制了当前遥感模型学习稳健和泛化表示的能力。

为了解决上述挑战,作者首先提出了Falcon,这是一种适用于遥感领域的多功能视觉-语言基础模型,具备全面感知和推理能力。特别是,Falcon具有一个统一的架构,用于多任务学习,将图像级、区域级和像素级的推理和理解能力集成在一个模型中。据作者所知,Falcon是第一个能够在图像、区域和像素 Level 同时执行14种不同理解和推理任务的遥感视觉语言模型。以下是在表1中提供的各种遥感视觉语言模型与Falcon的能力比较。与Falcon相比,之前的模型如GeoChat [27] 和RSGPT [21] 只能支持有限的遥感任务范围,缩小了它们的应用场景。

picture.image

设计Falcon的关键挑战是学习适用于各种遥感任务的通用表示。受自然图像领域最新研究成果的启发[74, 77, 81, 91],作者采用统一的网络架构,将空间层次和语义粒度信息无缝集成到通用表示中。该架构包括图像编码器和多模态编码器-解码器。这种设计使视觉和语言表示对齐,并为各种遥感任务提供了一个统一的框架,无需额外的模块设计。此外,为了进一步提高Falcon的指令理解能力,作者提出了一种动态 Prompt 训练策略,该策略利用每个指令的不同措辞版本。通过这种方式,给定用户的 Prompt 和遥感图像,Falcon可以在广泛的任务中产生统一文本格式的结果,例如图像分类、目标检测、分割、图像标题生成、变化检测等。

此外,为了便于Falcon的训练,作者进一步开发了Falcon_SFT,这是一个大规模、多任务指令微调数据集。早期的遥感数据集[14, 43, 80]通常专注于单一或少数视觉任务。最近的研究提出了适用于训练视觉-语言模型的多模态遥感数据集。然而,这些数据集通常包含有限数量的图像-文本对,使得它们仅适用于特定任务的模型训练[21, 89, 96]。因此,作者提出了Falcon-SFT,这是一个大规模的多任务指令微调数据集。Falcon_SFT数据集包含约7800万个高质量数据样本,涵盖了560万个多空间分辨率和多视角遥感图像。具体来说,作者将Falcon_SFT数据集中的每个样本统一标准化为统一格式,便于作者提出的Falcon的训练。请参见图3中的数据示例。

picture.image

在实验中,作者对提出的Falcon进行了多种定性和定量评估(见图1快速预览)。对于定性评估,作者分别可视化14个任务的预测结果,并与其他最先进的方法进行比较,以评估Falcon的性能。对于定量评估,作者评估了Falcon在每个下游任务上的性能,以及其在未见数据样本上的零样本性能,突出了Falcon的泛化能力。此外,作者还对Falcon进行了详细的消融研究,展示了作者训练方法的有效性。

picture.image

最后,为了解决社区中缺乏高性能基础模型这一关键问题,作者将完全开源作者的工作,包括完整的数据集、代码和模型权重,旨在弥合遥感图像基础模型与自然图像基础模型之间的差距。尽管作者提出的Falcon项目投入了大量的资金,但作者希望这一努力能够促进该领域的进一步研究和开发,提升遥感模型的能力及其在现实世界中的应用。

本文的贡献可以概括如下:1)据作者所知,Falcon是第一个具备图像、区域和像素级理解和推理能力的遥感视觉-语言模型,在一个统一的架构中支持14项任务。2)截至2025年3月,Falcon_SFT是遥感领域训练视觉-语言模型的最大和最全面的数据集。3)作者进行了广泛的实验,以证明Falcon相较于之前的VLMs的优越性,突出了Falcon和Falcon_SFT在遥感领域的有效性。完整的数据集、代码和模型权重将完全开源给社区。

  1. 相关工作

2.1. 遥感数据集

近年来,高质量遥感数据集的发展引起了越来越多的关注。该领域的前期研究主要集中于两个视角。一些研究[14, 34, 67, 80]专注于图像数据集,每个数据集针对单一或少数视觉任务。Long等人[43]提出了Million-AID,这是一个包含51个类别和一百万个实例的大规模图像数据集,用于遥感场景分类。G. Sumbul等人[65]介绍了BigEarthNet,该数据集包含从Sentinel-1和Sentinel-2卫星收集的590,326张图像,具有多种分辨率和图像尺寸。DOTA系列数据集[14, 80]主要来源于Google Earth、GF-2卫星和航空图像,这些数据集在目标检测领域取得了重大进展。最新版本[14]包含11,268张图像、18个类别和一套广泛的带有方向性边界框的标注。Jacob Shermeyer等人[61]提出了RarePlanes数据集,旨在提高在卫星图像中检测飞机及其属性的性能。GID[69]、UAVid[45]、DLRSD[59]是用于RGB遥感图像语义分割任务的常用数据集。

此外,有几项研究[40, 44, 86, 88]开发了多模态数据集以支持遥感中的视觉-语言模型。Dilxat Muhtar等人[51]开发了LHRS-Align,该数据集包含9K个用于视觉推理的样本,4K个用于详细图像描述的样本,以及7K个用于对话任务的样本。然而,要使用这个数据集,用户必须从谷歌地球影像中下载原始图像。RSICD[44]、Sydney-Captions[54]、UCM-Captions[54]、NWPU-Captions[9]是专门为遥感图像字幕生成任务创建的数据集,分别包含10921、613、2000、31500张图像,每张图像都附有不同长度的描述。

尽管之前取得了进展,现有的遥感数据集在数据规模、任务多样性、层次标注和标注质量方面仍然有限。该领域仍然缺乏一个适合训练基础视觉-语言模型的大规模、多任务数据集,这阻碍了其进展。为了应对这一挑战,本文提出了Falcon-SFT,这是一个针对遥感的全面、大规模、多任务指令微调数据集。具体来说,作者汇编了涵盖各种任务的67个遥感数据集,详细信息请参阅补充材料。

2.2 遥感基础模型

近期,围绕开发遥感基础模型的主题,相关文献数量显著增加。这些预训练的基础模型可以根据架构设计进行分类。第一类包括基于ViT的视觉基础模型[35, 48, 50, 56]。例如,Sun等人提出了RingMo[66],这是一个经典的遥感视觉模型,在4个下游任务上进行微调。这些方法缺乏推理能力,无法通过自然语言指令进行控制。第二类包括基于CLIP的视觉-语言模型[37, 75, 96]。例如,Liu等人提出了RemoteCLIP[37],这是第一个用于遥感的视觉-语言基础模型,它对下游应用进行了文本嵌入的对齐。然而,这些方法在没有设计额外模块的情况下无法执行不同的任务。第三类包括基于LLM的视觉-语言模型[27, 51, 92, 93]。Zhan等人提出了SkyEyeGPT[89],专门用于遥感图像理解。Kartik Kuckreja等人[27]引入了GeoChat,这是一个多功能的基于LLaVA的遥感视觉-语言模型,但它无法执行如分割或变化检测等复杂的像素级任务。同样,LHRS-Bot[51]也缺乏这些能力。此外,这些方法通常超过70亿参数,导致在边缘设备上部署时计算 Bottleneck 和低推理效率。更重要的是,作者认为,包含大量参数的LLM模块在遥感中可能并不扮演关键角色,考虑到这项任务仍然主要关注视觉输入。因此,在本文中,作者提出了一种轻量级的视觉-语言模型,以统一范式高效地处理各种遥感任务。

  1. 算法

在本节中,作者旨在深入探讨Falcon的细节,介绍一种简单而有效的方法来解决统一众多复杂遥感任务挑战。具体来说,作者将介绍Falcon架构的设计以及多任务学习范式,该范式能够实现各种视觉-语言任务的统一。

符号:令

表示输入的遥感图像,其中

分别表示图像的高度和宽度。

表示输入的文本 Prompt 。

表示预测目标,即所形成的视觉标注。

表示图像编码器。

表示文本 Token Embedding 函数。

表示transformer架构的标准编码器-解码器网络。

在Falcon中,作者采用了一种序列到序列的框架,能够将所有不同的任务以统一格式处理。如图2所示,给定一个遥感图像

和文本 Prompt

,作者将

输入到图像编码器

中,以提取视觉 Token Embedding

,其中

分别代表视觉 Token 的数量和维度。同时,作者利用

处理

,以获得文本 Token Embedding

。接下来,作者将视觉 Token Embedding 和文本 Token Embedding 结合,形成多模态嵌入

,其中

是通过视觉 Adapter [81]从

导出的,作为对

的任务无关输入。与之前的研究[27, 81]不同,作者提出了一种动态 Prompt 训练策略,以消除对特定任务 Token 的依赖。特别地,给定一个 Prompt

,Falcon将从预定义的 Prompt 策略中动态采样几个不同表述的版本

,形成

以参与训练过程。需要注意的是,

具有相似的意义。这种设计进一步增强了Falcon对自然语言的理解能力。

picture.image

为确保不同任务的输入和输出以统一格式呈现,作者将每个任务视为一个序列到序列的翻译任务。如图3所示,作者将图像、 Prompt 和标注视为特殊语言。例如,对于区域字幕的统一格式指令如下:“描述图像中的

。”其中是表示位置 Token 的

。位置 Token 是边界框的坐标。作者将位置 Token 添加到分词器的词汇表中,代表量化坐标。作者创建了1000个区间,这些区间使用针对任务需求定制的格式来表示区域。

损失函数。作者使用交叉熵损失函数来优化Falcon,以完成与常规大语言模型类似的14项任务。

是输入向量,由图像编码器输出的图像嵌入和 Prompt 嵌入组成;

是预测目标;

是目标 Token 的数量,

是 Falcon 的参数。

  1. 数据集

为了使Falcon具备强大的图像、区域和像素级理解和推理能力,作者引入了Falcon_SFT,这是首个大规模、多任务遥感指令微调数据集。它包含覆盖560万多分辨率、多视角遥感图像的7800万高质量样本。本节详细介绍了其创建过程,包括数据收集、预处理和指令生成。

4.1 数据收集与预处理

目前,尚无现有数据集能够完全满足Falcon的训练需求。为此,作者设计了一种简单直接的方法,即整理和结合遥感领域的各种开源数据集。

作者收集了90个标注的任务特定RGB图像数据集,例如Million-AID [43]、RSICD [44]和DOTA [14, 80],涵盖了几乎所有来自卫星、飞机、无人机等公开可用的数据集。经过人工筛选,作者将选择范围精炼至67个相关数据集。完整列表可在补充材料的Sec. A中找到。值得注意的是,作者提供了下载链接和元数据(图像大小、空间分辨率和数量),以帮助研究行人减少数据收集的工作量。

接下来,作者通过建立统一且一致的标注格式,整合了67个收集到的遥感数据集。这种标准化是必要的,因为不同的数据集使用不同的标注格式(例如,多边形与 Mask 图像),这可能会复杂化数据整合。此外,为了拓宽应用场景,作者重新利用现有的数据结构生成额外的标注,将支持的任务数量扩展到14项。这些任务分为三个 Level ,即:图像级:图像分类、图像问答、计数、图像描述和详细图像描述;区域级:区域分类-HBB、区域分类OBB、区域检测-HBB、区域检测-OBB、视觉定位和区域描述;像素级:像素分类、像素分割和变化检测。这种分类与文献[77, 91]中的先前讨论相一致。关于更详细的数据收集和预处理过程,请参阅补充材料的第A节。

4.2 统一指令生成

接下来,作者将作者的集成数据集转换为用于视觉-语言模型训练的多任务指令微调数据集。具体步骤如下。

定义指令模板。为了促进VLMs对特定任务的理解和执行,作者根据不同的遥感任务设计了标准化的指令模板。例如,对于目标检测任务,“在图像中检测

。使用旋转的边界框。”被给出。旋转的边界框表示为

,指定四个顶点的坐标,每个坐标以千分之一为单位。请参见图3,了解所有14个任务的指令示例。

生成图像指令对。为了根据定义的模板创建图像指令对,作者首先遍历数据集,并根据图像的任务类型(例如,检测、分割)为每张图像生成特定的指令。然后,作者将生成的指令与相应的图像和标注组合成一个结构化的对。这使模型能够通过不同的基于指令的 Prompt 学习多样化的任务响应。

生成多指令池。为了提升语言理解和减少对特定任务 Token 的依赖,作者使用一个LLM [2] 对每个任务的指令模式进行多样化处理。它生成具有不同复杂程度的同一指令的多个变体。例如,“描述这张图片。”扩展为“描述这张图片的内容。”、“分析这张图片并解释其视觉内容。”以及“你能识别出这张图片展示了什么吗?”。这种方法丰富了训练数据中的文本多样性,有助于VLMs在各个任务上提升性能。请参阅补充材料B节中的多指令示例。

4.3 鹰式SFT数据集

在上述数据处理步骤之后,作者最终构建了大规模遥感指令微调数据集Falcon_SFT。作者在表2中比较了Falcon_SFT与用于遥感视觉-语言模型的各个数据集。Falcon_SFT数据集具有最大的样本数量(7800万)和图像数量(560万),支持的任务数量最多(14个)。它还更加全面,涵盖了图像、区域和像素级空间层次。有关Falcon_SFT数据集的详细统计信息,请参阅补充材料A节中的表2。

picture.image

  1. 实验

在本节中,作者展示了评估Falcon性能的实验设置和结果,包括:1)对14个复杂遥感任务进行的定性和定量性能评估;2)Falcon与先前方法的零样本性能比较。结果表明,Falcon能够处理复杂的视觉语言任务,并突显其在图像、区域和像素级理解和推理方面的优势。需要指出的是,由于篇幅限制,作者在补充材料中提供了额外的实验结果,包括第E节中所有14个任务的定性性能评估,第F节中未在主论文中涵盖的任务的定量性能评估,第G节中多样化指令的定性性能评估,第H节中图像标题性能的人类评估,第I节中更多的消融研究,以及第J节中每个任务的评估指标细节。

实现细节。Falcon由一个图像编码器和基于Transformer的编码器-解码器组成,总参数量为0.7B。详细的架构如图2所示。作者使用[81]提供的预训练权重初始化模型参数。与[81]不同,作者将输出 Token 长度增加到4096,以获得更详细的表达。Falcon的训练批次大小为640,学习率设置为

,图像大小为

。作者使用160个Nvidia A100 GPU训练模型,共4天。

5.1 在14个任务上的性能评估

图像级任务。在本节中,作者展示了Falcon在图像分类任务(参见表3)、计数任务(参见表4)和VQA任务(参见表5)中的性能。

picture.image

如表3所示,通用视觉语言模型,如MiniGPTv2 [101]和Qwen_chat [3],在处理遥感数据时遇到了障碍,因为它们通常缺乏该领域的专业知识。与此同时,与专注于遥感的VLMs [27, 37, 51]相比,Falcon在所有相关数据集上都取得了更好的性能,且参数量仅为0.7B。

picture.image

此外,作者还在表4中提供了计数目标的详细性能比较。这类任务需要组合感知和推理能力,对最先进的VLMs提出了重大挑战。为此,Falcon在目标计数方面表现出卓越的性能,展示了其复杂的处理能力。

picture.image

最后,作者将Falcon与之前在VQA任务中表现优异的VLMs进行了比较。如表5所示,Falcon在模型参数更少的情况下仍然超越了之前的VLMs,这表明其强大的指令遵循能力。

对于图像标题任务,作者对Falcon的响应进行人工评估。具体来说,标题在三个维度上进行评估:细节、位置和幻觉,采用四级评分系统(即A、B、C、D,量化为4到1分,其中分数越高代表标题越好)。表6的结果显示,与其他VLM相比,Falcon在所有三个维度上均取得了最高的平均分。请参阅补充材料的第H节以获取详细的实验设置。

picture.image

区域级任务。除了图像级任务之外,作者的Falcon还支持细粒度的区域级任务。为此,作者在表7中展示了Falcon在目标检测(水平边界框)上的性能。值得注意的是,之前的VLMs在此任务上表现出有限的性能,暴露了它们在定位能力方面的局限性。相比之下,Falcon优于先前的方法,突显了其处理复杂遥感任务的能力。像素级任务。

picture.image

此外,作者还展示了Falcon在像素级任务上的评估结果。据作者所知,Falcon是第一个能够在像素级任务上表现出令人满意性能的VLM,例如分割和变化检测。Falcon的定性结果如图4所示。Falcon根据 Prompt 成功分割了图像中的指定复杂目标,并识别了两个相似图像之间的变化。

picture.image

5.2 零样本评估

最后,作者通过零样本评估来评估Falcon的能力。作者在表8中展示了详细的性能比较,其中这些评估数据集在训练过程中并未使用。与之前的视觉语言模型(VLMs)相比,Falcon在所有三个任务 Level 上都实现了性能提升。在图像级任务中,Falcon在许多数据集上,如UCM-Captions和MAR20,为图像描述和图像计数任务建立了新的记录。在区域级任务和像素级任务中,Falcon在许多需要综合定位和推理能力的数据集上表现出色。相比之下,这些能力在之前的VLMs中通常缺失或甚至不受支持。

picture.image

5.3 消融实验

本节展示了消融实验,用于分析数据规模、任务粒度和模型大小对性能的影响,具体结果总结于表9中。结果表明,随着训练数据规模的增加,性能得到持续提升——例如,从10%的训练样本增加到50%的训练样本,最终达到100%的训练样本。此外,随着任务粒度的细化,模型不仅能够有效处理更复杂的任务,而且还能提升简单任务的表现。0.3B参数模型和0.7B参数模型之间的比较显示,参数数量越多,泛化性能越好。更多消融实验结果可参见补充材料的第I节。

picture.image

  1. 结论

本文开发了一种名为Falcon的整体视觉-语言基础模型,该模型针对遥感应用,具备全面的感知和推理能力。为了促进Falcon的训练,作者进一步创建了Falcon_SFT数据集,该数据集包含约7800万高质量数据样本,涵盖560万遥感图像。多种定性和定量实验表明,Falcon在14个遥感视觉-语言任务和超过100个测试数据集上展现了卓越的零样本和在数据集内的性能。作者将发布完整的数据集、代码和模型权重,希望有助于进一步推动这一研究领域的进展。

参考

[1]. Falcon: A Remote Sensing Vision-Language Foundation Model

picture.image

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称)

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论