点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
视觉问答(VQA)合成孔径雷达(SAR)是一种关键的遥感技术,能够实现全天候、昼夜不间断的观测,具有强大的地表穿透能力,适用于精确和连续的环境监测与分析。
然而,由于SAR成像的复杂物理机制以及其视觉效果与人类感知的显著差异,SAR图像解释仍然具有挑战性。近年来,视觉语言模型(VLMs)在RGB图像理解方面取得了显著成功,提供了强大的开放词汇解释和灵活的语言交互能力。
然而,由于训练数据中缺乏SAR特定知识,将其应用于SAR图像的应用受到严重限制,导致性能欠佳。为解决这一局限性,作者引入了SARLANG-1M,这是一个大规模的基准数据集,专为多模态SAR图像理解设计,重点在于将SAR与文本模态相结合。SARLANG-1M包含超过100万对高质量的SAR图像-文本对,收集自全局59个城市以上。
该数据集具有分层分辨率(范围从0.1米到25米)、细粒度的语义描述(包括简短和详细的文本描述)、多样化的遥感类别(1696种物体类型和16种地表覆盖类别),以及涵盖七个应用领域和1012种问题类型的多任务问答对。
在主流VLMs上的大量实验表明,使用SARLANG-1M进行微调显著提升了其在SAR图像解释方面的性能,达到了与人类专家相当的水平。
该数据集和代码将在https://github.com/Jimmyxichen/SARLANG-1M上公开发布。
unsetunset1. 引言unsetunset
合成孔径雷达(SAR)是一种重要的遥感技术,以其在各种天气条件下捕捉高分辨率图像的能力而闻名,包括云层、降雨和黑暗环境。与光学图像不同,SAR利用微波信号,这些信号能够穿透植被、干燥土壤和人工结构,具体取决于波长。较长的波长,如L波段或P波段,使SAR能够穿透森林冠层并揭示地表以下特征,使其在林业监测、考古探索和土壤湿度分析中具有重要价值(Gao等人,2017;Lucas等人,2012)。结合其全天候和昼夜成像能力,SAR的穿透能力使其成为灾害管理、环境监测和军事侦察等应用领域的关键工具(Reamer等人,1993;Sharma等人,2008)。这些独特的优势推动了越来越多的研究兴趣,以提升鲁棒的SAR图像解释技术。
近期,视觉语言模型(VLMs)通过大规模预训练和指令微调,在增强光学RGB图像理解方面展现出显著潜力。与传统模型不同,后者通常受限于固定词汇表和预定义标签,VLMs凭借若干关键优势表现出更优越的图像解释能力。首先,它们支持灵活的语言交互,从而实现更直观和上下文感知的图像理解。
其次,通过在大型数据集上进行多模态预训练,VLMs获得了广泛的开放词汇语言能力,使其能够描述预定义类别之外的广泛场景和概念。VLMs的快速发展为SAR图像解释创造了新的机遇。然而,直接将现有VLMs应用于SAR图像分析是不切实际的。这些模型主要在RGB图像数据集上进行训练,这意味着SAR图像不属于其训练数据的分布范围。因此,当VLMs应用于SAR图像时表现不佳,因为SAR图像与RGB图像在数据特性上存在根本差异。图1展示了这一性能差距的示例。
为了使视觉语言模型(VLMs)能够有效解读合成孔径雷达(SAR)图像,开发大规模SAR-文本数据集既必要又紧迫。然而,由于数据稀缺和标注复杂,构建此类数据集面临重大挑战。主要障碍之一是缺乏具有高质量文本标注的大规模SAR图像数据集。标注SAR图像需要专家级监督,因为SAR图像的独特特征需要专业领域知识才能进行准确解读。SAR标注的高成本和复杂性严重限制了现有数据集的规模和多样性,从而制约了特定于SAR的VLMs的发展。
为克服这些挑战并推进SAR图像理解,本文介绍了SARLANG-1M,一个专为多模态SAR图像解释设计的新型大规模基准,如图2所示。SARLANG-1M数据集包含约100万对高质量的SAR图像-文本数据,收集自全局59个城市以上。它涵盖了从0.1米到25米的多尺度分辨率,包含细粒度的语义描述(包括简洁和详细的文本描述),多样化的遥感类别(1,696个目标类别和16种土地覆盖类别),以及涵盖七个应用和1,012种问题类型的多任务问答对。
为生成高质量且特定领域的文本描述,作者采用两种不同的文本生成方法构建了SARLANG-1M数据集。第一种方法是跨模态文本迁移。具体而言,作者收集了大量成对的光学RGB图像和SAR图像,并使用最先进的视觉语言模型(如GPT-4o(Achiam等人,2023))为光学RGB图像生成高质量的文本标注。这些标注随后与其对应的SAR图像自然对齐。为确保准确性,作者人工审查并过滤掉了错误或不相关的描述,例如适用于RGB图像但不适用于SAR图像的颜色信息参考。这种方法实现了从RGB领域到SAR模态的知识迁移,生成了全面且精确的文本标注。然而,现有的视觉语言模型在空间推理能力方面存在局限,尤其是在识别物体的位置和定量属性方面——这是遥感解释的关键方面。为解决这一局限性,作者的第二种策略是从现有的SAR目标检测数据集中的边界框标注生成细粒度文本标注(Li等人,2024b)。通过结合这种方法与SAR专家的严格人工验证,SARLANG-1M数据集包含118,331张SAR图像和1,126,277个人工验证的文本标注。该数据集有助于在多种SAR图像理解任务中训练和评估视觉语言模型,包括问答和图像描述生成。
此外,作者使用SARLANG-1M数据集进行了全面的实验,评估了传统模型和十种最先进的视觉语言模型(VLM)( 例如DeepSeek-VL(Lu等人,2024)和QWEN2.5-VL(Bai等人,2025)),展示了该数据集在提升VLM解释SAR图像能力方面的有效性。具体而言,SARLANG-1M实现了显著的性能提升,在SAR图像描述和SAR视觉问答任务中,CIDEr 指标分别提高了67.20%,基于GPT-4的准确率分别提高了40.22%(Li等人,2024a)。
VLM在七个SAR图像应用中的预测可视化结果进一步验证了作者的SARLANG-1M数据集的有效性。此外,还提供了按词Grad-CAM(Selvaraju等人,2017)可视化结果,以证明SARLANG-1M能够
使用视觉语言模型(VLMs)以更好地将文本关键词与SAR图像中的视觉内容进行对齐。
作者的工作主要贡献总结如下:
- 全面大规模数据集:SARLANG1M包含118,331张多分辨率SAR图像,提供1,080,627组高质量图像-文本对和45,650组来自全局59多个城市的详细描述。该数据集涵盖从0.1米到25米的多尺度分辨率,包括细粒度语义描述(简短和详细的描述)、多样化的遥感类别(1,696个物体类别和16种土地覆盖类型),以及涵盖1,012种问题类型的多任务问答对。
- 视觉语言任务基准:SARLANG-1M基准包含两个关键组件:SARLANG-1M-Cap用于图像描述任务,SARLANG1M-vQA用于问答任务。作为迄今为止最大的SAR图像-文本数据集,它支持七种关键遥感应用,包括图像描述、目标识别、目标分类、实例计数、区域指代和目标定位。
- 广泛的模型评估与改进:作者使用SARLANG-1M进行全面的性能评估,评估了两种最先进的传统模型和十个视觉语言模型(VLM)。实验结果表明,在SARLANG-1M上微调主流VLM能够显著提升其在SAR特定视觉语言任务上的性能,其结果与人类专家相当。
unsetunset2. 相关工作unsetunset
2.1. 基于SAR的感知
早期的SAR图像处理模型通常依赖于人工设计的特征和简单的统计学习模型,将这些特征分类到预定义的类别或模式中(Du等人,2015;Zabalza等人,2014)。然而,这些方法在特征创建方面高度依赖领域专业知识,使其在处理复杂任务时效果不佳。因此,这些模型的可扩展性和泛化能力受到显著限制。
深度学习的出现,以其端到端可训练的神经网络为特征,通过消除复杂的特征提取过程,转变了SAR图像分析。这一进步带来了更高的准确性和增强的模型鲁棒性。以卷积神经网络(CNNs)、长短期记忆网络(LSTMs)(Graves和Graves,2012)、Transformer(Vaswani,2017)、扩散模型(Ho等人,2020)以及You Only Look Once(YOLO)(Redmon,2016)框架等杰出的深度学习架构,极大地推动了SAR图像理解领域的发展。
这些模型在分类、语义分割、目标检测和图像到图像转换等多种任务上提升了性能。
2.2. 遥感文本生成 2.2.1. 图像描述
遥感图像描述 (RsIC) 旨在使用自然语言描述遥感图像中的关键目标。RsIC 面临若干挑战,包括尺度变化和跨模态差异。同一类别的目标在遥感图像中可能以不同尺度出现,并且输入图像与输出文本之间存在显著的模态差异。这要求在文本生成过程中对图像和文本特征进行精确对齐和有效融合。
当前的RSIC模型可以分为三种主要方法:基于检索的方法、基于句法模板的方法和基于编码器-解码器的方法。基于检索的方法通过检索相似图像并使用其标注句子来生成描述。基于句法模板的方法涉及检测图像中的目标、识别候选词,并将它们填充到预定义的句法模板中(Shi和Zou,2017)。然而,这两种方法生成的句子往往缺乏灵活性和自然性。
近期,基于编码器-解码器的方法被开发出来,用于自动学习遥感图像的表示和语法,从而创建更具适应性的句子。这些模型通常在两个阶段中运行:视觉特征提取和文本生成。在视觉特征提取阶段,通常采用CNN(Szegedy等人,2015年)或视觉Transformer(Liu等人,2021年)从图像中提取语义特征,并将其编码为高维向量。对于文本生成,则使用循环神经网络(RNN)(Rumelhart等人,1986年)或Transformer(Vaswani,2017年)将这些特征向量转换为文本。
为增强特征提取所做的努力包括Zheng等人(Zheng等人,2023年)的工作,他们引入了基于注意力的特征融合模块,并附加了一个辅助目标检测任务,以丰富视觉特征表示。类似地,Ye等人(Ye等人,2022年)提出了一个多标签分类任务来捕获先验知识,并通过一个语义门模块来指导隐藏状态的生成。
在增强解码器方面,Hoxha和Melgani 开发了一种基于支持向量机(SVM)的解码器,能够将视觉向量转换为高质量的文本描述,尤其适用于小数据集。此外,还探索了基于Transformer的技术:Chen等人(Chen et al., 2022)构建了一个Swin Transformer网络来探索图像特征,使用Transformer网络作为解码器生成标题。
Liu等人(Liu et al., 2022)提出了一种多层聚合Transformer作为解码器,使用LSTM网络连接Transformer编码器和解码器以改进特征表示。Yang等人(Yang et al., 2024)采用双LSTM架构作为解码器,用于生成连贯且与上下文相关的标题。除了将生成的视觉特征、词特征和LSTM隐藏状态简单拼接后输入LSTM网络外,还引入了跨模态特征对齐模块(CFMI)来在融合前对齐视觉特征与其他输入特征。此外,还引入了跨模态特征对齐损失,以最小化编码的视觉特征与LSTM编码的句子特征之间的距离。
2.2.2. VQA
遥感视觉问答(RSVQA)专注于通过全面分析遥感图像的视觉内容,生成对自然语言询问的准确答案。解决RSVQA问题的标准框架涉及将航拍图像与相应的自然语言问题相结合,以输出源自图像内容的上下文相关答案。RSVQA中通常遇到的问题类型包括但不限于,关于航拍场景中关键目标的类别、数量、特征、空间位置和用途的询问,以及不同目标之间的相对关系。RSVQA的研究由Sylvain等人(Lobry等人,2020)发起,他们引入了一个基于Sentinel-2图像的新型RGBtext数据集,并提出了一个深度学习框架来评估数据集的有效性。该框架系统地分为三个不同阶段:特征提取、特征融合和基于融合特征的预测。在特征提取阶段,利用基于CNN的模型从输入的遥感图像中提取视觉特征,同时采用基于RNN的模型将一个词句嵌入到潜在空间中,从而生成语言嵌入。
具体而言,在ImageNet(Deng等人,2016)上预训练的ResNet-152(He等人,2016)作为视觉编码器,而在BookCorpus数据集(Zhu等人,2015)上训练的skip-thoughts模型(Kiros等人,2015)作为语言编码器。提取的视觉特征和文本嵌入在特征融合阶段通过逐点乘法进行融合,然后使用多层感知器(MLP)层将其投影到一个固定维度的向量上。后续工作着重于通过用更先进的架构替换卷积和循环编码器来增强该框架。例如,Silva等人(Silva等人,2022)将Multimodal Medical BERT(MMBERT)(Khare等人,2021)与EfficientNetV2(Tan和Le,2021)图像编码器和RealFormer(He等人,2020)多模态编码器相结合。类似地,Tosato等人(Tosato等人,2024)将一个由分割引导的关注机制(Vaswani,2017)嵌入到RSVQA流程中,提出分割通过提供对视觉信息的上下文理解来关键地引导关注,从而强调特定目标或感兴趣区域。
在他们的工作中,ResNet-50(He等人,2016)和DistilBERT(Sanh,2019)模型分别被用作视觉和文本编码器。
2.3. 视觉语言模型 (VLMs) 2.3.1. 一般 VLM
基础模型最近已成为AI研究中的核心议题,因为它们在经过大规模预训练后能够处理多种下游任务。视觉基础模型(VFMs)专门针对视觉任务,而视觉语言模型(VLMs)通过整合视觉和文本模态增强了VFMs,促进了更复杂的跨模态推理和更广泛的应用范围。大规模图像-文本数据集的兴起将VLMs推向了焦点,因为它们在图像描述、视觉问答和跨模态检索等多模态任务上展现了卓越的性能。通常,主流VLMs由一个预训练的视觉编码器处理视觉数据、一个语言编码器解释用户指令并生成响应,以及一个视觉-语言跨模态连接器融合视觉特征表示与文本嵌入。预训练VLMs的关键组件是通过图像-文本对有效连接视觉和语言。这通常通过采用两个主要目标来实现:对比学习和生成建模。
对比学习,以CLIP模型(Radford等人,2021年)为例,旨在通过最大化匹配对之间的相似度,同时最小化不匹配对之间的相似度来对齐图像-文本对。这种方法使CLIP能够为视觉和文本数据开发一个统一的表示空间,从而实现卓越的零样本分类能力。随后,OpenCLIP(Ilharco等人,2022年)提供了CLIP模型的完全开源版本。基于CLIP的架构,EVA-CLIP(Sun等人,2023年)引入了增强的训练策略,旨在提高性能、降低计算开销并增强训练稳定性。
生成式建模专注于训练模型生成连贯且相关的文本或图像,主要通过两种方法: Mask 重建和自回归下一个词预测。 Mask 重建被FLAVA(Singh等人,2022年)和MaskVLM(Kwon等人,2022年)等模型采用,涉及预测文本中的 Mask 词或图像中的遮挡块。这种技术增强了模型理解跨视觉和语言模态的上下文和关系的能力,从而提升跨模态理解。自回归下一个词预测是VLM训练中的主导范式,旨在利用先验上下文生成序列中的下一个词。
这种方法通常涉及三个核心组件:预训练的语言模块(如Llama3(Dubey等人,2024年)或Vicuna(Chiang等人,2023年))、预训练的视觉编码器(如EVA-CLIP(Sun等人,2023年)或CLIP(Radford等人,2021年))以及用于连接视觉和语言嵌入的可训练连接模块,如MLP层(Liu等人,2024d)或Q-Former(Li等人,2023年)。这种架构使模型能够利用预训练的视觉和语言能力,同时连接模块学习对齐这些模态之间的信息。LLaVA(Liu等人,2024c)通过整合并超越Vicuna(Chiang等人,2023年)和CLIP的优势,在该领域展示了开创性工作。它通过连接CLIP的开集视觉编码器与Vicuna的语言解码器来实现这一点,然后在生成的指令视觉语言数据上进行端到端微调。此外,其他方法通过采用多个训练目标来增强视觉语言表示学习。例如,BLIP(Li等人,2022年)采用类似于CLIP的预训练策略,但使用不同的训练目标。具体而言,BLIP结合对比学习来对齐视觉和文本信息,通过将对应的图像-文本对聚集在一起并将不对应的推远。然而,BLIP还采用图像-文本匹配和字幕目标等技术来增强其学习过程,从而改进从图像-文本对中得到的表示。这种多目标策略使BLIP能够在对比学习范围之外捕捉图像和文本之间丰富而细致的关系。
2.3.2. 遥感视觉模型
近期,视觉语言模型(VLMs)已被应用于遥感影像领域,在解决零样本分类、图像描述、视觉问答(VQA)和物体指代等下游任务中展现出显著潜力。基于CLIP(Radford等人,2021)架构,Liu等人(Liu等人,2024b)收集了一个包含17个子数据集的综合遥感数据集,用于预训练RemoteCLIP(Liu等人,2024b)模型,并随后在多种下游任务中评估其性能。与CLIP(Radford等人,2021)模型不同,RemoteCLIP(Liu等人,2024b)采用InfoNCE损失函数来计算视觉和文本特征之间的相似性。
类似地,Kuckreja等人(Kuckreja等人,2024b)开发了一个遥感多模态指令跟随数据集,其中包含由Vicuna-v1.5(Chiang等人,2023)生成的简短描述的图像。使用该数据集,Kuckreja等人通过LoRA(Hu等人,2021)技术微调了LLaVA-1.5(Liu等人,2024c)模型。认识到MiniGPT-4(Zhu等人,2023)在训练单个投影层以有效对齐视觉特征与大语言模型(LLMs)方面的能力,Hu等人(Hu等人,2023)通过在他们的RSICap数据集上微调InstructBLIP(Dai等人,2023)开发了RSGPT。通过仅微调QFormer(Li等人,2023)网络和线性层
InstructBLIP,该RSGPT模型能够以数据高效的方式学习将遥感图像的视觉特征与大语言模型对齐。由于存在大规模RGB图像-文本数据集,VLMs在遥感图像领域的进步得到了促进。然而,据作者所知,由于SAR标注的高成本和复杂性,SAR图像-文本数据集非常稀缺,这显著限制了VLMs在SAR图像领域的开发。
unsetunset3. SARLANG-1M数据集unsetunset
3.1. 数据集描述
在本节中,作者提供了对SARLANG-1M数据集的全面概述,详细介绍了其地理覆盖范围、传感器类型、分辨率等级和类别分布。此外,作者还对SARLANG-1M与现有SAR图像解释数据集进行了比较分析,突出了其独特优势和对该领域的贡献。
数据集概述。SARLANG-1M包含118,331张SAR图像,覆盖全局59个以上的城市,确保了多样化的地理分布,如图3所示。该数据集整合了来自四个不同来源的SAR图像,由超过12颗不同的卫星收集,如表1所示。这些图像捕捉了广泛的常见遥感环境,包括机场、港口、河流、学校、住宅区、森林和商业区,使其高度代表了现实世界的SAR成像场景。
为支持VLM时代SAR图像理解的发展,SARLANG-1M被设计用于两项关键任务:SAR图像描述(SARLANG-1M-Cap)和SAR图像问答(SARLANG-1M-VQA)。SAR图像描述基准提供了两个层次的文本描述:简洁描述,提供图像内容的简要但信息丰富的总结;详细描述,提供更丰富的语义描述和更多上下文信息。SARLANG-1M-VQA基准分为六种主要问题类型:目标识别、目标分类、实例计数、区域指代、目标定位和一般性问题。这些任务旨在挑战和评估VLM在SAR特定解释方面的能力,确保在多种遥感应用中进行全面评估。
与现有数据集的比较。表2展示了SARLANG-1M与现有SAR数据集的全面比较,突出了其独特优势。如表所示,与之前的数据集相比,SARLANG-1M提供了显著更广泛的分辨率范围和大幅增加的标注样本数量。SARLANG-1M的一个关键区分特征是包含了高质量的文本标注,这支持了先进的SAR图像描述和VQA任务。这种丰富的文本信息在SAR解释的视觉与语言之间架起了桥梁,为多模态模型的训练和评估提供了宝贵的资源。
为进行公平客观的比较,作者引入整体相似度作为指标,以评估SARLANG-1M相对于现有SAR数据集的冗余性和多样性。整体图像相似度指标通过测量图像的内部相似性来量化数据集质量,从而揭示数据集的分布式独特性。具体而言,作者计算数据集中所有图像对之间的图像特征成对余弦相似度,并将这些值聚合到一个相似度集合中。
整体相似度由两个统计指标表征:均值和方差。均值相似度表示数据集特征相似度的中心趋势,较高值表明由于图像间冗余度较大而导致多样性较低。同时,方差捕捉相似度值的分散程度,反映数据集的异质性。方差较低表明分布更均匀,而方差较高则表明独特样本和相似样本的混合度更高。在作者的实现中,使用预训练的VGG16模型(Simonyan and Zisserman, 2014)提取图像特征。类似的方法用于计算整体文本相似度,其中使用预训练的Sentence-BERT模型(Reimers, 2019)提取文本特征。这确保了在数据集中评估图像和文本冗余性时采用一致的方法。整体图像相似度的具体细节以及整体文本相似度的细节分别提供在附录A和B中。
与现有SAR数据集在样本数量、分辨率、支持任务和文本可用性方面的比较。
支持子任务。如图2所示,作者SARLANG-1M数据集中的文本标注,包括语义标题和VQA标签,支持七种应用:图像描述、物体识别、物体分类、实例计数、区域指代、物体定位以及其他。表4展示了数据集样本与每种应用之间的关系,随后是任务定义。
- 图像描述:该应用涉及通过详细说明关键目标及其主要特征来对卫星图像进行结构化解析。如表4所示,图像描述的文本标注主要源自SARLANG-1M-Cap基准数据集。
- 物体识别:该应用通过提供特定类别是否存在与否的布尔答案来评估模型的SAR图像识别能力。这些标注主要对应于SARLANG-1M-VQA基准测试中的“物体识别”问题。
- 物体分类:该应用专注于识别SAR图像中的可见物体类别。在SARLANG-1MVQA基准测试中,相应的文本标注包含超过1696个遥感物体类别。
- 实例计数:对于指定的目标类别,该应用程序需要模型对SAR图像中的实例进行量化。
- 区域指代:给定SAR图像中的一个特定位置,该应用挑战模型判断局部区域内的类别。SARLANG-1M-VQA基准测试中的“区域指代”样本支持此应用。
- 目标定位:该应用评估模型在SAR图像中预测特定目标类别潜在区域的能力。SARLANG-1M-VQA基准测试中的“目标定位”样本为这些类别提供了精确区域。
- 其他:这一类别涵盖了遥感领域中的多种常见任务,包括物体形状预测、物体方向预测、土地覆盖分类、模式预测和推理功能。作者SARLANG-1M-VQA基准中的“一般 Query ”样本促进了该应用。每个功能的详细示例显示在图2中。
作者的SARLANG-1M数据集包含总共1,126,277个样本。这些样本在七个应用中的分布情况显示在图4的左侧。其中,'其他'类别包含各种文本标注,但它们的比例较小。这些标注包括五种类型的提问:物体形状、方向、土地利用、模式和推理。每种提问类型的统计数据列在图4的右侧(a)。值得注意的是,'土地利用'问题支持遥感领域的一项关键任务,即土地利用分类。'土地利用'类别提供80个文本标注和16个土地利用类别,如图4的右侧(b)所示。此外,作者的SARLANG-1M基准测试包含超过1,696个物体类别。图4(c)显示了30个最频繁的遥感类别的分布情况。其中一些在文本表达中表现出细微的词汇差异。例如,'运动场/游乐场'类别包括'Soccer Field'、'Sports Field'、'Tennis Courts'、'Golf Course'和'Baseball Field'。这种多样性超出了目标检测数据集中的六个类别(Li et al., 2024b),从而为遥感应用提供了更广泛的支持。
3.2. 数据集构建
在本节中,作者首先简要概述构成SARLANG-1M数据集基础的数据来源。接着,作者描述数据集构建过程,包括SAR图像预处理和高质量文本标注的生成。随后,作者概述用于SAR图像描述和VQA任务的两种不同文本生成流程。最后,作者重点介绍SARLANG-1M的关键特性,包括其七个下游应用及其文本标注的统计特征。
unsetunset1) 数据源unsetunset
SARLANG-1M中的SAR图像来源于四个公开可用的SAR数据集:SpaceNet6(Shermeyer等人,2020年)、DFC2023(Persello等人,2023年)、OpenEarthMap-SAR(Xia等人,2025年)和SARDet-100k(Li等人,2024b)。表1提供了这些数据集的总结,详细说明了它们的关键特征和获取参数。SpaceNet6数据集。SpaceNet6数据集(Shermeyer等人,2020年)集成了半米四极化X波段SAR图像与相应的半米光学图像,重点关注荷兰鹿特丹港。SAR图像是通过由航空传感器操作的设备获取的。
卡佩拉航天公司于2019年8月4日、23日和24日连续三天获取了该区域的数据。数据集包含204条单独的SAR图像条带,每条条带包含X波段四极化数据(HH、HV、VH和VV)。图像数据是从偏离天底视角收集的,相对视角角范围为
至
,包括从朝北和朝南采集方向的观测数据。
DFC2023数据集。DFC2023数据集(Persello等人,2023年)提供了从多颗高分辨率卫星收集的成对RGB和SAR图像,包括SuperView-1(中文称为高景)、Gaofen-2和Gaofen-3,其空间分辨率分别为0.5米、0.8米和1米。此外,还提供了归一化数字表面模型(nDSM)作为参考数据,这些模型由Gaofen-7和WorldView卫星拍摄的双目影像生成,地面采样距离(GSD)为2米。该数据集覆盖了六大洲的十七个城市,包含多分辨率SAR图像,增强了其地理多样性。
OpenEarthMap-SAR数据集。OpenEarthMap-SAR数据集(Xia等人,2025年)包含150万个分割样本,这些样本来自5033张航空和卫星图像,每张图像的分辨率为
像素。这些图像覆盖了日本、法国和美国35个地区。该数据集包含部分手动标注和完全伪标签的八类土地覆盖分类,地面分辨率(GSD)范围在0.15至0.5米之间。OpenEarthMap-SAR中的SAR样本来自Umbra,以Spotlight模式获取,分辨率在0.15至0.5米之间。光学数据包含红、绿、蓝光谱波段,而SAR数据主要包含VV或HH极化波段的振幅信息。为确保光学和SAR数据集之间的精确对齐,多位专家手动对配对图像进行联合配准,并进行交叉验证以满足严格的质量标准。
SARDet-100k数据集。SARDet-100k数据集(Li等人,2024b)是一个大规模的SAR目标检测数据集,包含104,985张图像,涵盖六大主要目标类别:船舶、坦克、飞机、桥梁、汽车和港口。该数据集整合了来自十个公开数据集的SAR图像,由七颗不同卫星拍摄,包括高分三号、哨兵一号、TerraSAR-X和雷达卫星二号等。SARDet-100k中的每张SAR图像都标注了精确的边界框,格式为(类别,[x_min, y_min, 宽度, 高度]),其中x_min和y_min表示边界框左上角的坐标,类别指定边界框内包含的目标类别。宽度和高度分别指SAR图像中边界框的宽度和高度。该数据集为基于SAR的目标检测提供了丰富的资源,其广泛的标注增强了深度学习模型的训练和评估。
这四个公开数据集在构建SARLANG-1M数据集时扮演着不同的角色。SpaceNet6(Shermeyer等人,2020年)、DFC2023(Persello等人,2023年)和OpenEarthMap-SAR(Xia等人,2025年)均对SARLANG-1M-Cap和SARLANG-1M-VQA基准测试做出贡献,而SARDet-100k(Li等人,2024b)则专门用于SARLANG-1M-VQA基准测试。为确保数据完整性,原始数据集中信息不完整或缺失的SAR图像已被移除。经过这一精炼过程后,SARLANG-1M-Cap基准测试包含13,346张SAR图像,而SARLANG-1M-VQA基准测试则包含118,331张SAR图像。
unsetunset2) 合成孔径雷达图像预处理unsetunset
SAR成像质量常因乘性散斑噪声和伪影而退化。遵循既有的SAR实践(Li等人,2024b;Qin等人,2021),作者实施预处理以提升SAR图像的清晰度和质量。SARDet-100k数据集。SARDet100k(Li等人,2024b)数据集中的SAR图像已进行预处理和去噪。这些SAR图像已被裁剪为
的块。原始SAR图像直接采集于作者的SARLANG-1M数据集,未经任何预处理操作。
SpaceNet6、DFC2023和OpenEarthMap-SAR数据集。针对SpaceNet6(Shermeyer等,2020)、DFC2023(Persello等,2023)和OpenEarthMap-SAR(Xia等,2025)数据集中SAR图像普遍存在的低对比度和噪声问题,作者在VLM分析前应用单通道变换、去噪和对比度拉伸,如图5所示。为统一处理,特定极化SAR图像被选作单通道图像。请注意,对于DFC2023(Persello等,2023)和OpenEarthMap-SAR(Xia等,2025)数据集中的单极化SAR图像,原始波段被选作最终图像通道。而对于SpaceNet6(Shermeyer等,2020)中的四极化SAR图像,则从四个波段(即HH、VV、HV和VH)中选一个作为最终图像通道。这些单通道SAR图像通过进一步的去噪和对比度拉伸处理。采用精细Lee滤波器(Yommy等,2015)进行去噪,并在对数变换后应用线性拉伸(Ai等,2019)以增强对比度。这些预处理操作显著提升了图像清晰度,有效突出了SAR图像中的关键目标。
(3) 文本标注生成
作者采用两种不同的文本生成策略来为SARLANG-1M基准创建高质量的文本描述,涵盖SARLANG-1M-Cap和SARLANG-1M-VQA。对于SARLANG-1M-Cap,作者采用模态迁移方法,首先为RGB图像生成文本描述,然后将其与相应的SAR图像进行对齐。由于配对的RGB和SAR图像描绘了相同的内容,该方法能够将语义信息从成熟的RGB领域迁移到SAR图像。对于SARLANG-1M-VQA,它主要关注细粒度SAR图像理解的定位和指代任务,作者从现有SAR数据集中的标注边界框直接生成文本描述。这个过程构建了一个新的文本语料库,作为SAR问答任务的专用标注资源。
unsetunset1) SARLANG-1M-Capunsetunset
SAR图像描述任务涉及为给定的SAR图像生成全面的文本描述,其中包含复杂的物体细节和上下文关系。与传统的分类任务不同,这项挑战要求预测SAR图像的全局内容,确保生成的描述不仅能够捕捉场景中存在的物体类别,还能体现它们之间的空间和语义关系。
文本生成。SARLANG-1M-Cap旨在提供跨多个维度的SAR图像详细描述,包括全局场景上下文、目标级信息和目标间关系。为了生成丰富且高质量的标题,作者利用了三个应用于配对RGB-SAR图像的代表性视觉语言模型:
BLIP(Li等人,2022年):采用ViT-Large/16(Dosovitskiy等人,2021年)作为其 Backbone 网络,并在1400万张图像上进行预训练,包括两个人工标注数据集(COCO(Lin等人,2014年)和视觉基因组(Krishna等人,2017年))以及三个网络规模数据集(概念性字幕(Chang.pinyo等人,2021年)、概念性12M(Changpinyo等人,2021年)和SBU字幕(Ordonez等人,2011年))。
CLIP(Radford等人,2021年):最初在大型LAION-2B数据集(Schuhmann等人,2021年)上进行预训练,随后在MSCOCO(Lin等人,2014年)上进行微调,使其非常适合开放域的视觉语言理解。
GPT-4o(Achiam等人,2023年):一种先进的跨模态模型,能够生成具有上下文感知和详细描述的图像标题,利用其先进的语言建模能力。
如图6所示,BLIP(Li等人,2022年)和CLIP(Radford等人,2021年)主要生成简洁的描述,而GPT-4o(Achiam等人,2023年)则生成更复杂和详细的描述。这种多样的描述方法增强了句子的丰富性,并确保生成的文本不局限于僵化或重复的语言模式。
unsetunset2) SARLANG-1M-VQAunsetunset
给定一幅SAR图像,视觉问答任务(VQA)涉及基于图像内容的语义理解来回答问题,如图6所示。SARLANG-1MCap侧重于全局层面的理解,而SARLANG1M-VQA则设计为更加关注局部内容的理解——包括识别、定位和推理SAR图像中特定目标和区域。
文本生成。为了生成高质量的文本标注,这些标注能够为SAR图像中的可见物体提供精确的量化结果和坐标规格,作者引入了一个新的文本语料库,如表5所示。定义了五种主要的问题模板及其对应的答案:
目标识别:设计用于确定特定目标(如“船”、“坦克”、“飞机”、“桥梁”、“汽车”和“港口”)是否存在,答案为“是”或“否”。
目标分类:旨在识别SAR图像中的主要类别,答案集合为['船','坦克','飞机','桥梁','汽车','港口']
实例计数:研究SAR图像中特定类别的数量,计数结果为答案。
目标定位:确定类别的大致位置,答案为['左', '右', '上', '下', '中心']之一。
区域指代:专注于识别指定区域内的类别,答案来自六个潜在类别 ['船', '坦克', '飞机', '桥梁', '汽车', '港口']。
为进一步多样化问答模式,并将遥感类别扩展至SAR目标检测数据集(Li et al., 2024b)之外,作者采用类似的模态迁移方法生成VQA标注。如表6所示,将多种 Prompt 输入GPT4o(Achiam et al., 2023)模型,生成了广泛的问答对,并增强了可解释性深度。除了丰富作者语料库中定义的五种问答类型的文本标注外,其余VQA标签构成一个“一般 Query ”问答类型。此类问题探索了新型遥感应用,如土地覆盖分类、推理和目标形状预测,如表2所示。
- 质量控制
虽然自动化文本生成流程为SAR图像标注提供了一种可扩展的方法,但它并非没有局限性。首先,SAR图像本身缺乏颜色信息,当描述包含基于配对RGB图像的颜色属性时,会导致错位。其次,生成的文本标注并不总是准确的,因为当前的视觉语言模型(VLMs)在完全理解遥感RGB图像方面能力有限,这可能导致在将描述迁移到SAR图像时出现错误。为确保SARLANG1M中的高质量文本标注,作者实施了一个严格的人工审核和过滤流程,由领域专家执行。这确保了不正确、不一致或不相关的描述被识别并修改。图7展示了经过专家验证后的失败案例及其对应修正示例。
unsetunset4. 实验分析unsetunset
在本节中,作者采用一些主流的视觉语言模型(VLMs)和非视觉语言模型(non-VLMs)来全面评估作者构建的SARLANG-1M数据集,并展示该数据集的有效性。首先,介绍实验设置,包括实现细节和评估指标。
随后,作者在SARLANG-1M数据集上进行了关于SAR图像描述和视觉问答任务的广泛实验,并进行了详细分析。作者还提供了一些可视化结果,以更直观地展示作者数据集的文本质量。最后,作者对本文提出的SAR图像预处理策略进行了消融分析,并论证了它们在SAR图像描述和视觉问答任务中的贡献。
4.1. 实验设置 4.1.1. 实现细节
为便于基准评估,SARLANG-1M数据集被划分为两个独立的、不重叠的子集,每个子集专门用于模型训练和评估。作者数据集中的SAR-text对分布统计如表6所示。对于SARLANG-1M-Cap基准,遵循遥感图像数据集中常见的标准方法(Li等人,2024a;Xia等人,2023),所有SAR-text样本按7:3的比例划分为训练集和测试集。这种划分产生了包含9,341张图像和31,968个标题的训练集,以及包含4,005张图像和13,682个标题的测试集,为VLMs的训练和评估提供了坚实的基础。
在SARLANG-1M-VQA基准测试中,对于与SARLANG-1M-Cap基准测试中相同的SAR样本,采用了相同的7:3比例划分方法用于训练集和测试集。对于源自该数据集的SAR图像(Li et al., 2024b),作者保留了SARDet-100k数据集中(Li et al., 2024b)建立的原始训练/测试图像划分。因此,训练部分包含103,834幅SAR图像及其对应的955,372条文本标注,而评估子集包含14,497幅SAR图像及其相关的125,255条文本标注。
针对上述基准测试,作者评估了十种主流视觉语言模型(VLMs),以展示其在理解合成孔径雷达(SAR)图像方面的潜力,并突出SARLANG-1M数据集的贡献。为确保公平和全面的评估,作者对这些VLMs采用了两种不同的评估方法。首先,作者使用来自大规模图像-文本对齐数据集的预训练参数初始化模型,并直接在SARLANG-1M基准测试的测试集上评估其性能。这种方法允许直观地比较VLMs在SAR下游任务中的能力,而无需额外的微调。其次,作者使用SARLANG-1M数据集的训练集对每个VLM进行微调,并随后在SARLANG-1M基准测试的测试集上评估其性能。通过比较微调前后的结果,作者定量评估了SARLANG-1M数据集对提高模型在SAR下游任务中性能的贡献。在评估的VLMs中,五个模型BLIP(Li et al., 2022)、LLaVA1.5-7B(Liu et al., 2024c)、LLaVA1.5-13B(Liu et al., 2024c)、QWEN2-VL-7B(Wang et al., 2024a)和QWEN2.5-VL-7B(Bai et al., 2025)采用低秩适配(LoRA)(Hu et al., 2022)训练方法进行微调,对所有线性层应用秩为8的适配。这种微调策略确保了高效的适配,同时最小化了计算开销。在微调阶段,每个VLM使用批大小为1进行3个epoch的训练。学习率初始化为1e-4,并采用比率0.1的预热策略。在评估这些VLMs时,SAR图像描述任务 Prompt 为:"用一句话描述这张图像的内容",而SAR图像问答任务 Prompt 为:"问题:{问题}。简洁回答问题"。对于SAR图像描述任务,两种传统模型MLAT(Liu et al., 2022)和HCNet(Yang et al., 2024)被用作 Baseline 网络,以与VLMs进行比较。这些传统模型从头开始训练,遵循其原始规范和超参数。此外,它们与VLMs遵循相同的训练/测试分割。所有实验均在单个NVIDIA A100 GPU上执行。作者的源代码公开发布,以促进社区复现和支持https: //github. com/Jimmyxichen/SARLANG-1M中的持续研究。
4.1.2. 评估指标
在SAR图像描述模型评估中,作者遵循现有视觉语言模型(VLMs)(Li等人,2024a)建立的标准实践,采用一套全面的既定指标,包括BLEU(Papineni等人,2002)、ROUGE_L(Lin,2004)和CIDEr(Vedantam等人,2015)。对于BLEU指标,作者考虑n-gram精度,其中n的值为1、2、3和4。更高的BLEU分数表示更好的性能和更高质量的文本输出。
在SAR图像视觉问答(VQA)任务的评估中,作者采用基于GPT-4的综合准确率(Li等人,2024a)来评估现有视觉语言模型(VLMs)在SARLANG-1M-VQA基准测试上的性能。在基于GPT-4的评估中,作者利用GPT-4来判断预测答案是否与每个问题的真实答案匹配。所使用的 Prompt 为:"问题:{问题},真实答案:{真实答案},预测答案:{预测答案}。预测答案是否与真实答案匹配?匹配则回答1,不匹配则回答0。使用语义意义而非精确匹配。同义词也被视为匹配,例如,椭圆形和圆形,池塘和游泳池。"综合准确率计算为匹配数量(1)与问题总数之比。
4.2. SARLANG-1M 4.2.1. SAR图像描述在SARLANG-1M-Cap基准测试上的性能评估
如表7所示,InternVL2.5-8B(Chen等人,2024c)模型在未经微调的情况下,与其他视觉语言模型(VLMs)相比表现出显著优越的性能,在针对复杂和简洁的文本标注真值进行评估时,均取得了当前最佳结果。这种卓越的性能可归因于InternVL2.5-8B(Chen等人,2024c)在更大、更多样化的数据集上进行的大量预训练,这使其具备了全面理解合成孔径雷达(SAR)图像场景的能力和强大的语言生成能力。这些优势使得InternVL2.5-8B(Chen等人,2024c)模型能够生成更具描述性和准确性的文本标注。
在SARLANG-1M-Cap基准数据集上进行微调后,QWEN2-VL-7B(Wang等人,2024a)模型在针对复杂文本描述的评估中表现最佳,BLEU_1得分为35.78,ROUGE_L得分为32.84,CIDEr得分为48.36。然而,在针对简洁文本描述的评估中,QWEN2-VL-7B(Wang等人,2024a)的表现相对传统模型较差,这表明传统模型的输出更符合简单、固定模式的描述。具体而言,HCNet(Yang等人,2024)模型在传统模型中表现最佳,BLEU_1得分为61.06,ROUGE_L得分为60.78,CIDEr得分为239.00。MLAT(Liu等人,2022)模型紧随其后,以BLEU_1得分为60.55,ROUGE_L得分为60.03,CIDEr得分为224.00的成绩位列第二。值得注意的是,BLIP(Li等人,2022)模型在所有视觉语言模型(VLMs)中针对简洁文本描述的评估中表现最佳。这主要是因为SARLANG-1MCap基准数据集中大多数简洁文本描述是由BLIP(Li等人,2022)模型生成的,因此其输出与基准数据集的简洁文本描述模式更为吻合。
此外,在SARLANG-1M-Cap基准数据集上进行微调后观察到的性能提升验证了作者数据集的有效性。具体而言,四个VLMs-LLaVA1.5-7B(Liu等人,2024c)、LLaVA1.5-13B(Liu等人,2024c)、QWEN2-VL-7B(Wang等人,2024a)和QWEN2.5-VL-7B(Bai等人,2025)在性能指标上表现出显著提升。其中,QWEN2-VL-7B(Wang等人,2024a)在复杂描述上实现了最大幅度的改进,BLEU_1得分提升至29.30,ROUGE_L得分提升至21.51,CIDEr得分提升至48.35。对于简洁描述,QWEN2.5-VL-7B(Bai等人,2025)取得了最高的性能提升,BLEU_1得分提升至19.33,ROUGE_L得分提升至20.82,CIDEr得分提升至67.20。这些结果突显了SARLANG1M-Cap基准数据集在提升VLM在SAR图像描述任务中的能力方面的价值。
为了提供一个直观的比较,作者展示了从...中选取的部分图像描述结果的可视化。
SARLANG-1M-Cap基准测试如图8所示。值得注意的是,在SARLANG-1M-Cap基准测试上评估预训练的LLaVA1.5-7B(Liu等人,2024c)模型时,该模型将场景误分类为“夜景”,并将关键物体“储罐”错误地识别为“明亮的光”。这种误分类是因为预训练的LLaVA1.5-7B(Liu等人,2024c)模型缺乏对SAR图像的充分知识。然而,在SARLANG-1M-Cap基准测试上进行微调后,LLaVA1.5-7B(Liu等人,2024c)模型表现出显著改进,准确识别场景并生成包含正确关键词“基础设施”的描述。此外,QWEN2-VL-7B(Wang等人,2024a)模型也表现出类似的改进,准确识别SAR图像中的关键元素,如“工业设施”和“集装箱”。这些结果突出了SARLANG-1M-Cap基准测试在提升视觉语言模型(VLM)解释SAR图像能力方面的有效性。此外,作者比较了HCNet(Yang等人,2024)、BLIP(Li等人,2022)、DeepSeek-VL-7B(Lu等人,2024)和InternVL2.5-8B(Chen等人,2024c)生成的文本描述。HCNet(Yang等人,2024)模型能够生成包含“工业区”和“树木”等关键术语的描述。类似地,BLIP(Li等人,2022)模型生成的描述中包含正确的短语“油气田”。相比之下,DeepSeek-VL-7B(Lu等人,2024)和InternVL2.5-8B(Chen等人,2024c)模型表现出误分类,分别将储罐描述为“网格状区域”和“网格状街道”。这些结果表明,在SARLANG-1M数据集上进行微调的模型始终能生成更准确和详细的描述。相比之下,未在SARLANG-1M上进行微调的模型往往生成包含不正确或模糊术语的描述。
此外,为了研究生成文本与SAR图像之间的相关性,作者构建了逐词
使用Grad-CAM(Selvaraju等人,2017)可视化方法,展示BLIP(Li等人,2022)模型生成的文本描述中关键词汇与SAR图像中关键目标之间的响应水平。与图9第二行的结果相比,第一行的结果表明SARLANG-1M-Cap数据集显著增强了BLIP(Li等人,2022)模型在SAR图像中准确识别和定位关键目标的能力。
4.2.2. SAR VQA on SARLANG-1M-VQA基准
为了进一步比较VLMs与人类在SAR图像解释方面的能力,作者从SARLANG-1M-VQA数据集中精心选择了30组多样化的问答对作为验证集。邀请了三位SAR专家和三位普通人回答这些问题。人类得分,包括普通人和专家的得分,计算为每组正确回答问题的平均比率。表9展示了各种VLMs的VQA性能和人类得分。结果表明,在SARLANG-1M-VQA数据集上进行微调后,QWEN2.5-VL-7B(Bai等人,2025)模型的表现优于普通人和SAR专家。这进一步证明,主流VLMs能够克服非专家的障碍,在SAR图像解释方面达到与人类专家相当的理解水平。
作者在图8中展示了从SARLANG-1M-VQA基准测试中选取的部分SAR视觉问答结果。实验结果表明,经过微调后,LLaVA1.5-7B(Liu et al., 2024c)模型和QWEN2.5-VL-7B(Bai et al., 2025)模型在应用2-7中的性能显著提升。一个显著的例子是应用4,其中预训练的LLaVA1.5-7B(Liu et al., 2024c)模型无法准确量化SAR图像中的目标。然而,在作者在数据集的训练集上进行微调后,LLaVA1.5-7B(Liu et al., 2024c)模型实现了对'终端'目标类别的精确量化。此外,应用7处理了一个基本的遥感任务:土地覆盖分类。在处理以树木和草地Sparse分布的农Crop为主的农业区域SAR图像时,预训练的LLaVA1.5-7B(Liu et al., 2024c)模型和QWEN2.5-VL-7B(Bai et al., 2025)模型最初将整个区域分别分类为'开阔地'和'一个小白点'。经过在SARLANG-1M-VQA数据集上进行微调后,LLaVA1.5-7B(Liu et al., 2024c)模型和QWEN2.5-VL-7B(Bai et al., 2025)模型展现出增强的能力,准确识别了主要土地利用模式。这些实验结果表明,作者的SARLANG-1M-VQA数据集显著提升了现有视觉语言模型在SAR图像理解任务上的性能。
4.3. 预处理必要性
在本节中,作者分析了SAR预处理操作对SAR图像描述和VQA任务中VLM性能的影响,具体包括去噪和对比度拉伸。作者选择了未经在SARLANG
数据集上进行微调的QWEN2.5-VL-3B(Bai等人,2025)模型进行评估。
4.3.1. SAR图像描述在SARLANG-1M-Cap基准测试上的应用
为验证预处理操作在SAR图像描述任务中的有效性,作者进行了两项对比实验,以量化SAR图像预处理策略的贡献。作者从SARLANG-1M-Cap基准测试集的测试集中选取了1,170个复杂描述和2,571个简洁描述,作为OpenEarthMap-SAR(Xia et al., 2025)数据集中SAR图像的真实标签。如表10所示,对SAR图像进行预处理显著提升了QWEN2.5-VL-3B(Bai et al., 2025)模型的性能,尤其对于简洁描述。具体而言,该模型在BLEU_1、ROUGE_L和CIDEr指标上分别取得了5.39、5.63和0.46的改进分数。这些结果证实了作者的SAR图像预处理操作在VLM(视觉语言模型)的SAR图像描述任务中的有效性。
4.3.2. SAR VQA on SARLANG-1M-VQA基准
为进一步验证预处理操作在SAR VQA任务中的有效性,从SARLANG-1M-VQA基准测试集的测试集中选取了9,220个VQA标签,作为OpenEarthMap-SAR(Xia et al., 2025)数据集中SAR图像的真实标签。如表11所示,作者的SAR图像预处理操作使QwEN2.5-VL-3B(Bai et al., 2025)模型的整体准确率提升了2.81。性能提升是通过去噪操作实现的,该操作去除了如斑点噪声等阻碍视觉语言模型(VLMs)理解SAR图像的元素。此外,线性拉伸增强了SAR图像的对比度,使VLMs能够更有效地关注显著物体和区域。这些结果进一步验证了在评估VLMs在SAR图像上的性能之前进行预处理操作的必要性。
unsetunset5. 结论unsetunset
在本文中,作者介绍了SARLANG-1M,一个旨在推动SAR图像多模态理解的大规模数据集。SARLANG-1M包含约100万对高质量的SAR图像-文本对,这些数据从全局59个城市以上收集,提供从0.1米到25米的多尺度分辨率,细粒度的语义描述(包括简洁和复杂的文本描述),以及多样化的遥感类别(1696个物体类别和16种土地覆盖类别)。
该数据集包含两个基准测试,SARLANG-1M-Cap和SARLANG-1MVQA,支持七种关键遥感应用,包括图像描述、物体识别、物体分类、实例计数、区域指代、物体定位等。
大量实验表明,在SARLANG-1M上微调现有视觉语言模型(VLMs)能显著提升其在SAR图像理解任务中的性能,实现与人类专家相当的解释能力。此外,作者的SAR图像预处理策略有效增强了VLMs在SAR图像解释方面的能力。
unsetunset参考unsetunset
[1]. SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding
点击上方卡片,关注「AI视界引擎」公众号