LHRS-Bot-Nova: 改进的多模态大语言模型用于 Vision-Language 解析 !

大模型向量数据库云存储

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

自动快速地理解地球表面对于作者认识生活环境和做出明智决策至关重要。这强调了需要一个具有全面分析地球表面能力的统一系统来满足人类多样化的需求。

多模态大型语言模型(MLLMs)的出现在提高智能地球观测的效率和便利性方面具有巨大潜力。

这些模型可以进行人机对话,作为图像理解的统一平台,遵循多种指令,并提供有益的反馈。

在本研究中,作者引入了LHRS-Bot-Nova,这是一个专注于理解遥感(RS)图像的MLLM,旨在 expertly 执行与人类指令相对应的广泛的RS理解任务。

LHRS-Bot-Nova具有增强的视觉编码器和新颖的桥接层,使得视觉压缩更高效,语言与视觉对齐更好。

为了进一步提高面向RS的视觉语言对齐,作者提出了一个大规模的RS图像-字幕数据集,该数据集通过特征引导图像重述生成。

此外,作者还引入了一个专门设计以提高空间识别能力的指令数据集。大量实验表明,LHRS-Bot-Nova 在各种RS图像理解任务上具有优越性能。

作者还使用一个复杂的Multi-choice问题评估基准,评估了不同MLLM在复杂RS感知和指令遵循中的性能,为未来的模型选择和改进提供了可靠的指导。

数据、代码和模型将在https://github.com/NJU-LHRS/LHRS-Bot。

unset

unset1 Introductionunset

unset

解析遥感(RS)图像并理解多级特征、目标关系及其动态趋势,在各种应用中具有重要意义,如城市可持续发展、预警系统和地球表面过程。人工智能(AI)已经改变了RS数据分析,而视觉基础模型的最新进展进一步提高了使用RS数据解释地球表面效率和质量。然而,视觉基础模型的主要缺点是需要针对特定下游任务进行定制设计,导致固定功能和有限泛化能力。此外,它们缺乏与人类的交互能力,使得无法充分满足多样化的人类需求。

语言作为人类交流的主要媒介,在促进人与机器互动中起着根本性作用。大型语言模型(LLMs),如Chat-GPT,展示了惊人的对话能力、逐步推理能力和作为通用任务解决器的潜力。向人类 Level AI迈出更大一步,多模态大型语言模型(MLLMs)通过视觉感知增强LLMs,使它们能够看到并理解世界(Fei等人,2024;Yin等人,2023;Achiam等人,2023)。这些模型已经证明具有可伸缩性和普遍性,作为通用助手已经在实际应用中展示了对RS数据的强大理解能力。

开发用于解释RS图像的专门MLLMs具有多个优势:

1) 统一建模 :MLLMs为处理不同粒度的广泛视觉任务提供了一个多功能的框架;

2) 人与计算机交互 :MLLMs可以通过对话互动来解释人类意图并集成辅助信息;

3) 推理 :先进的推理能力,如思路链法,使MLLMs能够理解复杂关系并处理复杂场景;

4) 增强的多模态任务潜力 :在大量和多样化的数据集上预训练,MLLMs为解决复杂多模态问题建立了坚实的基础。

专业MLLM的潜力得到了研究界的广泛认可。这促使了几个早期的尝试来开发大规模的视觉语言数据集和针对RS的特定MLLM。

然而,作者在当前研究中发现了三个主要的问题。

1) 缺乏高质量、大规模的图像-描述数据集: 高质量的视觉语言预训练数据集对于开发健壮的多模态模型至关重要。已经开发了几个广泛使用的RS图像-描述数据集来增强视觉语言训练。然而,这些数据集通常存在噪声和无信息性的描述,语义丰富度有限,句子多样性较差,过分关注突出物体,这些因素都削弱了RS MLLM的有效模态对齐。

2) 在空间识别和虚像倾向上的弱点: 作者发现,当前的RS MLLM在空间定位上的准确率较低,在面临超出其能力范围的问题时,经常产生虚像响应。

3) 在整体评估MLLM上的挑战: MLLM解决各种视觉任务,使其成为多任务处理器。尽管它们在常见任务(如分类、视觉问答、视觉定位)上的指标通常表现出色,但这些指标无法完全反映MLLM的全方面能力——尤其是在识别复杂场景、目标、属性、空间关系以及,最重要的是,遵循人类指令方面。

在本研究中,作者解决了上述问题,并提出了一种名为LHRS-Bot-Nova的改进型RS专用MLLM,用于使用人类指令对RS图像进行全面解释。LHRS-Bot-Nova可以响应用户指令,并实现各种RS解释任务,具有最先进的性能。

为了增强RS导向的视觉语言对齐,作者构建了一个大规模的RS图像-标题数据集LHRS-Align-Recap,通过 Prompt 一个现成的多模态标题生成器,将RS图像与其OpenStreetMap(OSM)特征配对。与仅使用文本信息生成的标题(Muhtar等人,2024)相比,使用视觉能力的标题生成器导致了更丰富的标题,显著增强了图像与标题之间的语言丰富性和对齐(见表2)。此外,它还提供了更详细的描述,包括对地理目标的额外识别以及更广泛的属性,如位置和颜色(图1)。

picture.image

picture.image

为了提高模型的空间 Aware ,作者扩展了LHRS-Instruct数据集(Muhtar等,2024),该数据集主要关注定位和感知。此外,作者还集成了一个现成的视觉指令数据集,该数据集包括丰富的负样本,有助于平衡数据集并减少幻觉(Liu等,2023)的发生。考虑到需要一个以视觉为中心(Tong等,2024)的设计以实现全面的视觉理解,作者将视觉编码器扩展以适应具有较大分辨率的输入。

此外,作者提出了一种使用MoE架构(Jiang等,2024)的新颖桥接层,以进一步扩展模型的能力,实现视觉信息的无损压缩和动态映射到语言域。通过增强教学数据和优化的模型架构,LHRS-Bot-Nova在提高空间识别能力的同时显著降低了幻觉的风险。

最后,作者对各种通用和RS特定MLLM进行了全面的评估,不仅包括诸如分类、视觉问答和视觉定位等标准RS任务,还包括一个多选题(MCQ)评估基准,LHRS-Bench(Muhtar等人,2024年),该基准旨在全面评估RS领域中的MLLM。这有助于对在不同维度上(如感知和空间 Aware )的指令遵循能力和其他RS特定能力进行全面评估。

本研究的的主要贡献如下:

  1. 作者提出了一个大规模的遥感图像描述子数据集LHRS-Align-Recap,其中通过特征引导的图像描述子生成高质量描述子。此外,作者还通过生成更多强调空间识别和鲁棒性的对话来扩充作者的指令数据集。
  2. 作者将视觉编码器扩展到更高分辨率的输入,并设计了一个基于MoE的桥层来增强模型容量。这使得在有限的视觉 Token 下实现更高效的视觉信息压缩,从而提高语言-视觉对齐性能和视觉理解。
  3. 作者介绍了一种专用于RS的MLLM,LHRS-Bot-Nova,并对其在各种任务上的性能进行全面评估,以评估其作为任务解决能力的基础。此外,通过MCQ数据集进行全面的评估,可以更深入地了解MLLMs作为任务解决者的可靠性,并为未来的改进提供有价值的见解。

unset

unset2 Related worksunset

unset

MLLM development in the RS community

MLLMs,如GPT-4V 和 Gemini ,作为具有高级视觉理解、推理和人类交互能力的 versatile 助手,其成功也推动了针对增强 RS 图像解释的特定 MLLM 的开发 。RSGPT 是首个将 LLMs 应用于 RS 视觉语言任务的研究,随后出现了各种专门针对从 RS 图像生成的指令调优数据集进行训练的 MLLM。此外,穆尔塔等(2024)提出了 LHRS-Bot,该机器人利用新提出的具有大规模 RS 视觉语言数据集的视觉感知。潘等提出了 H2RSVLM,具有增强的内在自我 Aware 能力。

罗等(2024)开发了 SkySenseGPT,该助手支持一个具有复杂场景的大规模指令调优数据集。总的来说,这些研究在 RS 领域中 MLLM 的应用有了显著的进展。然而,当前的 RS MLLM 仍面临一些挑战,包括缺乏具有高质量图像描述的大规模视觉语言数据集、空间识别的局限性、倾向于幻觉以及缺乏全面的性能评估等问题,这些问题本研究旨在解决并改进。

Large-scale RS vision-language dataset

构建一个多样且广泛的数据集是有效训练视觉语言模型的关键要素。此外,描述性字幕的质量在MLLM(多模态语言模型)中起着重要作用,它有助于将视觉和语言模态对齐。已经引入了一些大规模的RS图像-字幕数据集,以提高RS场景中的多模态对齐。RS5M 是第一个广泛的RS图像-字幕数据集,但它是由网页爬取数据组成的,通常很嘈杂且缺乏信息量 。

SkyScript 包括准确配对的图像和字幕,但字幕是通过简单规则生成的,导致语义丰富度不足,这对于有效训练MLLM 至关重要。为了解决这些问题,LHRS-Align 通过使用LLM根据OSM特征生成字幕。然而,这些字幕缺乏句子多样性,可能会关注显眼目标,这对模态对齐是不利的。在本研究中,作者探索了特征引导图像重述以提高视觉语言预训练数据集的质量。

unset

unset3 Datasetunset

unset

LHRS-Align-Recap: feature-guided image recaptioning for multimodal alignment

高质量的视觉语言对齐数据集对于训练强大的多模态模型至关重要。为了增强针对RS(遥感)特定多模态模型的视觉语言对齐,LHRS-Align被提出,将RS图像与OSM特征配对,然后用于生成具有LLM的标题。尽管对于提高视觉语言对齐有效,但LHRS-Align中的标题通常简洁且语法单调,并聚焦于受OSM特征限制的关键目标,如图1所示,导致跨模态对齐不理想。为了进一步提高标题质量以实现更强大的多模态对齐,作者利用视觉语言模型进行重捕,并提出一个新的大规模RS视觉语言数据集 LHRS-Align-Recap。具体而言,作者使用 Prompt 设计1 Prompt Share-Captioner 基于LHRS-Align数据集 中的RS图像及其相应的OSM特征生成标题,与LHRS-Align不同,标题是由可以实际看到图像的MLLM生成的,从而产生具有更多细节和多样化句结构的详尽标题,如图1所示。

为了更深入地理解改进,作者对原始和新的标题进行了统计分析,重点关注两个关键方面:标题的固有分布和标题与图像的对齐质量。从第一个角度来看,作者计算了两种版本标题中的独特单词和独特三字母词的数量。这些指标分别衡量了词汇丰富性和结构和重复模式。如表2所示,LHRS-Align-Recap中独特单词和三字母词的数量几乎是LHRS-Align的两倍,表明词汇多样性增加,句子结构和短语构建更加多样化。此外,新标题的平均句子长度为150个单词,几乎是原始标题的五倍,分布更加均匀,如图2所示。在标题与图像对齐质量方面,作者使用LongCLIP(Zhang等人,2024a)计算的CLIP分数来评估标题与图像之间的语义对齐。如图2和表2所示,LHRS-Align-Recap数据集计算的CLIP分数更高,表明其对于视觉语言对齐的更大有效性。在第五部分将详细讨论改进数据集的定量验证。

picture.image

Instruction tuning datasets for training LHRS-Bot-Nova

视觉指令微调在MLLM训练中发挥了重要作用,因为它使LLM更好地理解视觉特征并遵循人类指令。这个过程增强了模型的能力和可控性,使其能够泛化到多样任务,并提供与人类偏好相符的反馈。作者在此介绍用于指令调优LHRS-Bot-Nova的四个数据集,包括多任务数据集LHRS-Instruct,LRV-Instruct,以及提出的LHRS-Instruct-Plus(表3)。

picture.image

表1:基于RS图像和OSM特征使用Share-Captioner生成标题的 Prompt 。

作者利用了Muhtar等人(2024)提出的多任务指令数据集和LHRS-Instruct数据集,以增强任务解决和复杂理解能力。前者是通过结合各种公共RS数据集和手动创建的指令模板构建的,后者是通过 Prompt LLM使用RS描述符数据集中选定的样本创建复杂对话而得到的。

为了进一步提高LHRS-Bot-Nova在理解空间关系方面的能力,作者构建了一个新的指令数据集,名为LHRS-Instruct-Plus。具体来说,所提出的数据集是通过 Prompt GPT-4V从两个RS目标检测数据集DOTAv2 (Ding等人,2021年)和FAIR1M (Sun等人,2022年)中生成各种对话生成的。

表4中展示了作者使用的 Prompt 。生成的对话主要涉及物体识别,还包括其他任务,如物体计数、图像描述和视觉推理。

picture.image

此外,最近的研究表明,现有的MLLM倾向于对任何给定的指令给出“是”的回答,即使正确答案应该是“否”,这种现象被称为幻觉。造成这一问题的一个原因是指令数据集的不平衡,其中正面指令占主导地位,而负面样本的重要性被忽视。为了缓解这个问题,作者将LRV-Instruct数据集(Liu等人,2023年a)集成到作者的指令数据集中,以进行更可靠的视觉指令调优。这使得训练好的模型更加可靠,并增强了它准确区分正面和负面响应的能力,从而减少了幻觉的发生。

总体而言,训练作者的LHRS-Bot-Nova的指令调优数据集均在表3中列出,部分示例展示在图3中。

picture.image

unset

unset4 Methodologyunset

unset

LHRS-Bot-Nova 集成了一个增强的视觉编码器和一个具有 MoE 结构的新的视觉感知器,以实现更好的视觉语言对齐。在本节中,作者将深入探讨 LHRS-Bot-Nova 的每个组件,详细说明如何通过增强架构实现更好的视觉语言对齐。随后,作者将解释用于训练 LHRS-Bot-Nova 的课程训练策略。

Model architecture

LHRS-Bot-Nova主要由三个部分组成:一个视觉编码器、一个视觉感知器和一个基础的LLM。LHRS-Bot-Nova的整体架构如图4所示。

picture.image

近年来,越来越多的研究表明,提高输入图像分辨率可以增强MLLMs( Tong et al., 2024; Liu et al.,2024a; Li et al., 2024b)的视觉理解能力。因此,作者选择SigLIP-L/14(Zhai et al., 2023)作为视觉编码器,输入分辨率为336336,以提取更详细的视觉信号。此外,作者遵循Muhtar等人(2024)的策略,提取多级视觉信息,为更高效的视觉语言对齐提供额外的视觉监督。

考虑到多层视觉信号带来的额外的计算和内存开销,作者遵循Muhtar等人(2024年)的方法,使用可学习的 Query 基于交叉注意力来概括不同视觉信号层。此外,作者采用递减的 Query 分配策略来管理视觉编码器中更深层次的视觉隐藏状态的更高冗余(Bolya等人,2022年)。然而,尽管这种设计通过减少视觉 Token 的数量有效地压缩了视觉 Token ,但可能导致视觉细节的损失(Tong等人,2024年)。因此,受到观察到 FFN (FFN)层充当网络存储(Geva等人,2021年)的启发,作者将MoE架构(Jiang等人,2024年)引入到Vision Perceiver中的每个FFN层,以扩大模型的内存容量,即使使用较少的视觉 Token 也可以提取更多的详细视觉信息。

具体而言,给定可学习的 Query 和视觉 Token ,其中上标表示第层(通常对应低、中、高三个层次的),表示 Token 数,是隐藏维度,作者首先通过交叉注意力使用来概括:

picture.image

然后,作者将所有 Level 的摘要结果连接起来,。对于连接结果中的每个 Token ,作者按照以下方式计算MoE-FFN层的输出:

picture.image

在FFN层中采用MoE(多专家)架构和每个时间步的稀疏动态路由策略,作者可以在不引入额外推理激活的情况下扩展模型的内存容量,从而实现对更详细视觉信息的提取和保留。

具体而言,表示专家数量,表示第j个专家,表示每个 Token 激活的路由专家数量,表示第j个专家在第t个 Token 上的门值,表示 Token 到专家的亲和力,表示专家路由器的可学习参数,表示对所有路由专家计算的第t个 Token 的亲和力得分中的前K个。

作者将使用改进的LLaMA3-8B(Dubey等人,2024年)架构作为LHRS-Bot-Nova的“大脑”,使其能够从视觉和语言中解释各种信号,以应对给出的指令。

Training strategy

作者遵循Muhtar等人(2024年)提出的三个阶段课程学习策略,包括预训练、多任务指令微调阶段和监督微调阶段。

在预训练阶段,作者使用LHRS-Bot-Recap数据集来训练视觉编码器和解读者,将多级视觉信号映射到语言域。

在多任务指令微调阶段,作者使用低秩 Adapter (LoRA)(胡等人,2021年)解冻LHRS-Bot-Nova,并使用多任务指令数据集同时微调视觉感知器和LoRA,以提高LHRS-Bot-Nova的多模态任务解决能力。

最后,在有监督微调阶段,作者使用来自LHRS-Instruct、LHRS-Instruct-Plus和LRV-Instruct(刘等,2023a)数据集的所有指令数据来进一步训练视觉感知器和LoRA Adapter ,从而增强LHRS-Bot-Nova的对话和推理能力。

unset

unset5 Experimentsunset

unset

Experimental setup

作者在各种RS图像理解基准测试中评估作者的模型。

  1. 场景分类。作者使用了七个数据集的测试集:AID(Xia等人,2017年),WHU-RS19(Dai和Yang,2011年),SIRI-WHU(Zhu等人,2016年),EuroSAT(Helber等人,2019年),NWPU(Cheng等人,2017年),METER-ML(Zhu等人,2022a),以及fMoW(Christie等人,2018年)。前四个数据集在零样本设置下进行评估。

2 视觉问答(VQA)。作者使用了两个数据集:RSVQA-HR和RSVQA-LR(Lobry等人,2020)。

  1. 视觉定位。作者使用了两个数据集:RSVG(Sun等人,2022b)的测试集和DIOR-RSVG(Zhan等人,2023)的测试集。
  2. RS MLLM的基准测试。LHRS-Bench(Muhtar等人,2024年)及多项选择题用于对RS图像理解中的MLLM进行系统评估。

Baseline . 作者将LHRS-Bot-Nova与几种强大的开源通用域预训练语言模型(MLLMs)的7B变体进行评估,包括LLaVA-1.5 ,MiniGPTv2,InstructBLIP ,mPLUG-Owl2 ,QWen-VL-Chat(白等人,2023年)和 InternLM-Xcomposer(张等人,2023年),在各种任务上进行比较。对于与RS MLLMs的比较,作者尽可能使用论文中报告的准确性,包括GeoChat ,SkyEyeGPT,H2RSVLM(庞等人,2024年)和SkySenseGPT(罗等人,2024年)。

实现细节:作者通过MoE视觉和LHRS-Bot(Muhtar等人,2024)感知器从第、和层提取潜在状态来进行总结,其中表示视觉编码器中的层数。每个层的 Query 分配为{112, 96, 64}。视觉感知器实现包含六个交叉注意力层和FFN层,每个层包含四个FFN专家,且公式3中的激活专家数量K设置为2。作者将LoRA模块应用于LLM的每个线性层,将LoRA的秩和比例因子分别设置为128和256。

此外,作者引入了任务标识符[CLS]、[CONCISE]和[DET]分别用于分类、简洁的视觉语言问答和视觉定位任务。所有三个训练阶段都在8×H100 GPU上使用AdamW优化器进行1个周期,每个阶段的超参数见表5。

picture.image

Quantitative results on RS image understanding

场景分类。作者评估了LHRS-Bot-Nova与其他开源MLLM的场景分类准确性,突出其在识别地理特征方面的广泛知识。如表6所示,由于采用了RS域特定训练,LHRS-Bot-Nova的分类准确性明显优于其他通用MLLM。

值得注意的是,与LHRS-Bot相比,LHRS-Bot-Nova在几乎所有数据集上的分类性能都有所提高,总体准确率提高了4.77%,这展示了LHRS-Bot-Nova强大的场景理解能力。自AID、WHU-RS19、SIRI-WHU和EuroSAT数据集从多任务训练数据中完全消失以来,这些数据集上的准确率反映了零样本设置,展示了LHRS-Bot-Nova的强大泛化能力。

picture.image

视觉问答。作者在表7中报告了LHRS-Bot-Nova在两个RSVQA数据集上的VQA结果,与其他通用领域的MLLM和RS领域的MLLM进行了比较。可以看出,LHRS-Bot-Nova的VQA结果明显优于其他通用领域的MLLM。与其他特定的RS-MLLM相比,作者的模型在RSVQA-LR数据上的表现相当,在RSVQA-HR数据上取得了显著优势。总体而言,LHRS-Bot-Nova实现了最高的VQA精度,略优于LHRS-Bot。

picture.image

视觉定位。使用准确率@0.5作为评估指标,RSVG和DIOR-RSVG数据集上的视觉定位准确率,见表8。与其他MLLM相比,LHRS-Bot-Nova在两个数据集上均取得了最高的准确率。与LHRS-Bot相比,作者改进的模型在目标理解和定位方面有了显著的提高,这体现在平均准确率提高了6.58%,这证明了作者的数据改进是有效的。

picture.image

Evaluation on LHRS-Bench

评估方法:LLMs和MLLMs的评估可以广泛分为基于生成和基于多选题的方法。基于生成的方法涉及评分开放式答案,通常需要人类或LLM进行评估(Zheng等,2024),这可能引入主观性。因此,许多基准测试都采用了MCQ来评估LLM和MLLM的能力,这可以定量评估模型并使用客观的准确度指标。在遥感领域,也引入了MCQ基准测试来评估遥感MLLM的评估(Muhtar等人,2024; 罗等人,2024)。在本研究中,作者深入探讨了如何有效地使用MCQ基准测试来评估遥感MLMs,以LHRS-Bench(Muhtar等人,2024)数据集为例。

选择分配。 当直接 Prompt MLLM回答正确选项时,模型有时可能会忽略指令,输出候选选项的完整上下文(刘等人,2023b)。为解决此问题,刘等人(2023b)采用了一种精确匹配方法,即模型输出与正确选项之间进行精确匹配。然而,这种方法通常需要对基于ChatGPT的匹配进行额外验证,因为精确匹配往往失败。穆哈特等人(2024)采用子字符串匹配,认为如果正确上下文是模型输出的子字符串,则答案正确。然而,这种策略可能导致不匹配:例如,如果正确上下文是“工业”,类似“居住但不工业”的答案可能会错误地判断为正确。为解决此问题,作者采用了一种简单的方法: Prompt 模型“仅回答与给出的选择对应的字母,如A., B., etc.”,并且只有严格匹配预期字母的答案才被认为是正确的。这种度量标准也可以评估模型遵循指令的能力,因为一个强大的模型应该理解用户只对正确字母感兴趣。

为了提高MCQ(多选题)评估的鲁棒性,近年来的一些研究揭示了一种选择偏差和随机猜测的现象(Myrzakhan等人,2024;Wang等人,2024a;Robinson等人,2021)。在无法解决问题时,模型倾向于偏爱某些选项或随机猜测,这导致评估准确性不可靠。为了解决这个问题,提出了诸如选项重排、增加或减少选项以及更改它们等技术(Wang等人,2024a)。在作者的实验中,作者采用了CircularEval(Liu等人,2023b,2024c),该方法将相同的问题多次输入到MLLM,同时将正确答案在选项之间旋转,并检查模型在所有尝试中是否始终选择正确答案。作者发现,使用这种策略对于增强MCQ评估的鲁棒性对于RS MLLM至关重要:如果没有它,各种MLLM在LHRS-Bench上的准确性可能增加约20%,误导用户对模型能力的准确评估。

结果 。作者在LHRS-Bench数据集上的评估结果如图9所示,清晰地表明LHRS-Bot-Nova是所有方法中的最佳表现。LHRS-Bot-Nova在总体准确率上达到34.93%,远高于其他所有方法。它在身份和推理等领域表现优异,同时在多个维度上保持了强分数的平衡分布。值得注意的是,它甚至超过了封闭源模型GPT-4o-mini和Claude-3,突显了针对RS图像进行RS特定训练的重要性。除了GPT-4o-mini之外,几乎所有的MLLM在识别RS图像的分辨率方面都存在困难,这可以理解,因为缺乏相关数据集进行训练。作为RS聊天机器人,LHRS-Bot-Nova在RS图像理解方面表现强大,但这些结果也突显了提高RS MLLM的通用识别能力的 promising directions,尤其是在方向、物体计数等复杂任务方面。

Multimodal dialogue in RS understanding

作者通过以下对话实例,定性地展示了LHRS-Bot-Nova在RS图像解释中的性能。如图5所示,LHRS-Bot-Nova能够清晰、全面地描述RS图像场景,展示了其对RS特征的优秀识别能力。它可以与用户进行对话,执行诸如目标定位和推理等任务。更重要的是,它不仅仅对用户的 Query 盲目作出回应。得益于使用更加平衡的指令数据和负样本,它可以评估用户指令的有效性,并能够提供负回应或拒绝回答,表现出高可靠性。

picture.image

Ablation analysis

改进的描述质量的有效性。为了评估改进数据重绘的效果,作者将分别使用原始数据集和重绘数据集训练的模型结果进行比较,如表10所示。每个数据集仅用于预训练,而其他实验条件保持一致。对于不同的任务,作者计算了5.1节中概述的所有数据集的平均准确性。

picture.image

如图6所示的训练曲线明显显示,在LHRS-Align-Recap上训练的模型在训练的第一阶段损失较低,说明视觉语言对齐效果更好。表格10中的消融结果证实,当使用提出的LHRS-Align-Recap数据集预训练模型时,模型在所有任务上的性能一致提高,强调了生成更好描述的重要性及其有效性。最显著的改进出现在分类准确性上,提高了20.39%,显示出RS场景识别能力的显著增强。值得注意的是,使用LHRS-Align-Recap训练的模型在视觉定位任务中的准确性提高了9.1%。这一改进表明,与使用LLM生成描述相比,利用能够实际看到图像的MLLM可以更准确地捕获地理目标的 spatial 信息。

picture.image

为了验证提出的MoE视觉感知器的有效性,作者使用相同的数据和超参数设置,分别使用基础视觉感知器和MoE视觉感知器训练模型,并在每个下游任务上对其进行评估。表11中的结果表明,MoE视觉感知器在所有任务上均优于基础视觉感知器,视觉定位的差距达到6.24%,LHRS-Bench上的差距达到4.47%。这表明MoE架构确实扩展了模型的记忆容量,使LHRS-Bot-Nova能够更加关注视觉细节。

picture.image

unset

unset6 Conclusionunset

unset

作者提出了LHRS-Bot-Nova,它将视觉信号与语言表达相结合,以在人类指令下实现统一的RS图像解释和理解。

通过在合成图像-句子对齐数据中提高信息密度和质量,针对空间推理的改进指令数据,以及以视觉为中心的架构设计,LHRS-Bot-Nova在场景分类、视觉定位和问答任务上表现出强大的性能,同时超越了其他MLLM在一般RS解释方面的表现。

此外,作者在不同模型和任务上的系统评估结果为未来模型选择和优化提供了可靠的参考。

尽管LHRS-Bot-Nova的表现令人印象深刻,但它与LLMs(大型语言模型)共有的局限性之一就是易受错觉影响。作者认为,通过设计更严格的对齐数据策展流程,以及改进如偏好对齐等训练策略,可以进一步提高MLLMs在解释RS图像方面的性能。

参考文献

[0]. LHRS-Bot-Nova: Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论