点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
在遥感领域,学习物体的比例不变形状是一个常见的需求,如建筑。以前的工作依赖于调整多个损失函数,将分割图转换为最终的向量表示,这需要费力和优化的设计。
为此,作者引入了GeoFormer,一种新颖的架构,可以端到端地学习生成多边形。通过将关键点建模为空间相关的 Token ,以自动回归方式进行建模,GeoFormer在从卫星图像中区分建筑物体方面超过了现有工作。
作者通过各种参数消融评估了GeoFormer相对于以前方法的鲁棒性,并强调了优化单一似然函数的优势。
作者的研究首次在遥感中成功应用自动回归变换模型进行多边形预测,为建筑向量化提供了有前景的方法论选择。
1 Introduction
近年来,作者见证了机器学习(ML)的融合,跨学科方法(如计算机视觉和自然语言处理(NLP))的交叉融合产生了令人印象深刻的结果。起源于NLP的Transformer模型在视觉研究中的应用越来越普遍,研究行人发现将多头自注意力模块应用于特定领域问题的好处。最近的研究表明,这些模型具有统一能力[7, 36, 43],即一个在不同的上下文中进行不同任务的条件模型。
这篇论文提出了一种新颖的架构,并展示了图像到序列自回归 Transformer 模型在从卫星图像中向量化建筑物这一具有挑战性的任务中的实用价值。据作者所知,这是首次成功演示该模型在远程 sensing 背景下仅依靠单一可能性函数生成多个建筑多边形序列的实例。同时,这也是首次从零开始训练的深度生成模型在 Aicrowd Mapping Challenge [25] 建筑轮廓划分基准数据集上超越了以前的方法。
本文旨在研究一个相互作用粒子系统在介质中的能量动量张量的行为。能量动量张量被定义为一个具有密度ρ和密度ρ_a的介质中粒子的能量密度。
GeoFormer 提出了在流行基准数据集上超过当前最先进性能的显著改进。
最后,作者研究了作者的模型相对于以前的方法的鲁棒性,并提出了一个消融研究,以激发作者的模型设计选择。
2 Previous works
在建筑边界划分和向量化多边形预测领域,研究通常分为三个类别:语义分割、回归,或基于自回归的方法。大多数先前的最先进方法,以及在作者基准数据集上表现最好的方法,都始于基于U-Net的结构[28],使用基于规则或学习的方法将栅格的输出转换为矢量形状。在基于回归的研究中,一般方法涉及同时生成边界框预测以及每个样本的坐标输出表示。输出序列在事先设定,并依赖于学习或基于规则的过滤以得到最终结果。另一方面,自回归方法将输出坐标视为一个动态的顺序预测任务,从图像表示中生成一个序列,根据准确预测前一个点来尝试生成一个序列的点。
语义分割方法Semantic segmentation广泛用于构建划分任务[14, 38],神经网络学习如何区分建筑物和背景。随后的向量化过程可能包括从Douglas-Peucker算法到更复杂的自学习方法[11, 34, 42]。虽然语义分割非常适合这个任务,但它有一些局限性,尤其是在将分割模型的输出转换为具有硬边界的向量化形式时[24]。问题的主要根源在于模型的像素优化,由于规模差异和模型倾向于在建筑边缘显示最高的不确定性,这对稀疏向量化表示并不理想。这需要进一步的后期处理,无论是启发式还是学习的,以产生对下游任务有用的结果。一些最新的最先进的方法遵循这种方法,以U-Net风格的架构作为起点[11, 17, 18, 34, 37, 42]。作者的研究提出了一种替代方法,根据使用案例可能提供更好的结果。
近年来,许多研究探讨了通过输出坐标进行回归以构建向量化方法[6, 14, 37]。这些研究使用了编码器-解码器Transformer架构,其中Hu等人[14]将Deformable-DETR[40]适应于连续预测坐标、边界框和点分类。Zhang等人[37]使用感兴趣区域网络来识别感兴趣区域,并使用Transformer编码器-解码器进行最终的多边形表示。HEAT[6]解决了一个相关问题,使用多个模型预测建筑物的多多边形:首先识别建筑角候选者,然后使用两个解码器对这些角进行过滤和连接。
基于自回归的方法受到NLP领域发展的启发,最近的研究将基于语言的模型应用于向量化任务,在图像目标向量化和相关任务中展现出巨大的潜力。例如,图像描述模型被表述为自动回归的类别分布预测任务[33, 35],从而导致Polygon-RNN、Polygon-RNN++和PolyMapper等模型的出现[1, 19, 31, 38]。这些模型共享一个序列到序列框架,预测顶点自动回归。模型依赖于一个定义为的概率分布,其中是当前条件在潜在图像表示上,以及初始值和两个先前的值。
类似的方法已经被应用于学习2D多边形[15]和3D网格[16, 26]。最近的研究,例如[7, 22],进一步证明了这些模型的灵活性,其中[7]展示了学习多个任务时使用共同的架构,而PolyFormer[22]在文本引导的多边形化任务中实现了最先进的性能。
《GeoFormer》在前期工作的基础上,提出了一种新颖的替代方案,到目前为止还没有成功结果。与早期仅预测场景中单个目标的研究[1, 15, 31]不同,GeoFormer 在遥感背景下实现多目标多边形检测,而无需依赖外源数据(如边界框)或预训练[22]。本研究的目的是展示GeoFormer与早期研究的性能、泛化和鲁棒性能力对比,特别强调了在纯白纸训练下进行多目标多边形检测的有效性,与基于栅格的对比方法进行直接比较。
3 Methods
作者的目标是预测场景中所有多边形的坐标。作者将所有坐标离散化,并把多边形的集合表示为一系列的坐标。令表示第个顶点的多边形的坐标,那么是由定义为的展开坐标序列。
在作者的模型中,
是三个特殊的 Token ,分别表示模型中的不同事件,即开始、分离和停止。虽然开始和停止 Token 在文献中很常见,但是引入分隔 Token
告诉模型要向下一个感兴趣的目标移动。
作者利用基于SWINv2 Backbone 网络的图像编码器[23],通过不同粒度的窗口函数辅助学习图像的分层特征图。如图1所示,图像编码器模型最初遵循经典的ViT Transformer [9]方法,其中输入图像被拆分成较小的patch ,其中是每个patch的大小。在patch嵌入之后,作者从SWINv2[23]的四个层中提取特征表示,从而生成维度为的特征图。
为了在不同尺度上融合这些特征图,作者将中间表示与3x3核、 BatchNorm 和上采样卷积,以生成金字塔特征图,从而得到最终特征表示为。在提取作者的最终图像特征表示之后,作者通过在网格上评估以正弦频率函数表示中的每个像素的参数矩阵,并使用类似于[6, 26]中的方法进行网格化,以增强空间嵌入,从而应用一个学习的绝对位置偏置。现在,最终图像特征表示充当了作者的解码器交叉注意力中的 Key和Value 。
Geometric decoder
对于自动回归解码器,作者首先采用Transformer的典型公式[32]。其中,每个transformer块包含一组多头自注意力层(MHA),在输入处是因果多头自注意力,而在中间是交叉多头自注意力(CMHA)。在初始层是输入数据序列在解码器-嵌入维度上的投影。作者可以将mha块写成:
其中,,且每个总共有个注意力头,其维度为,,,为softmax函数。
为了因果多头自注意力,作者添加了一个上三角带负无穷值的面板,它 Mask 了缩放点积内的所有值,这样只有或在其之前的值才能被关注。对于交叉多头自注意力, Query 由先前的MHA块形成,而 Key和Value 由编码器提供。
因此,作者可以将 Transformer 解码块组表示为:
在Transformer解码器中,表示中间 Transformer 层的潜在表示,FFN是前馈层,而是 Transformer 解码器中的最后层,其激活函数使用Sigmoid线性单元[12]。对于具有交叉关注的解码器,正在计算一组重复的-模块,但现在没有因果mask,且由编码器提供 Key和Value 。
Transformer 利用自注意力操作,其固有的是对置换不变的。因此,作者模型设计的一个重要组成部分是如何引入位置信息。对于解码器,作者利用了一种组合位置编码:正弦绝对位置编码、学习 Token 编码和关系旋转编码[30]。为了允许模型在关注远程 Token 的同时强调附近 Token (由于任务的多目标性质,某些特征空间部分应该针对每个建筑物体进行局部化),作者在解码器每个注意力块中的三分之一的注意力头上应用了附加线性偏差(ALiBi)[27]。此外,作者还把旋转位置编码(RoPE)[30]作为作者模型的组成部分,以促进 Token 之间相对空间依赖性的学习。RoPE和ALiBi都有在每一层重新加强 Token 位置的优势,而不是在开始时应用的规范位置编码[32]。
4 Experimental setup
作者使用了Aicrowd Mapping Challenge数据集[25],这是一个用于使用卫星图像进行界定的热门基准测试,其中包含341,058张图像(其中280,741张用于训练,60,317张用于验证),图像分辨率为,空间分辨率为每像素。该数据集在训练集中有2,395,553个建筑物实例,在验证集中有515,364个标注。作者从中训练集中采样了5%,用于验证,并将竞争验证集作为作者的测试集。在训练过程中,应用了数据增强技术,例如随机旋转、水平翻转和颜色抖动[10, 34]。
为了模型训练,作者将图像和标注缩放到 。标注按照与图像质心(centroid)的欧几里得距离(Euclidean distance)顺时针排序,以保留目标顺序。作者为编码器应用了4大小的patch和7个窗口大小,隐藏维度为512。同样,解码器由8层组成,每层有24个attention heads。有关超参数的更多详细信息,请参阅附录。
Evaluation measures
为了评估作者模型的效果,作者应用了一套基准数据集指标。主要的竞争指标是基于分割 Mask 的,遵循MSCOCO目标检测指标[20],包括平均平均精确率(AP)和平均平均召回率(AR),分别使用不同的IoU(交并比)阈值进行测量。
除了标准的MSCOCO指标外,作者还包括关注多边形准确性的度量,例如每个 Mask 的平均平均精确率[8],考虑复杂度的IoU[42],即相对于预测点数的IoU得分进行折扣,以及PoLiS度量[3],即预测顶点和 GT 之间的平均最小距离。这些度量(bAP,C-IoU和PoLiS)用于计算与 GT 重叠超过50%的多边形,以确定哪个预测属于哪个物体。最后,作者测量全局IoU和N-ratio,其中N-ratio比较作者的预测多边形的基数与 GT 。
5 Results
作者的研究结果的定量结果呈现在表1中,而定性比较则体现在图2中。乍一看,表1显示了GeoFormer在所有指标上表现出强大的性能,其AP值比先前的最先进工作高出近12个百分点。对图2中定性结果的详细检查揭示了模型性能的细微差异。例如,作者的模型GeoFormer在某些实例中略微高估(如图2右下角所示),而PolyWorld模型则倾向于低估,特别是在第二行中间图像中。此外,作者的模型的高召回率体现在其偶尔将非目标物体错误地识别为阳性,如图2的最后一行所示。这些结果是由在Aicrowd数据集的测试集上获得最佳训练的模型生成的,该模型进行了条件推理。作者使用Nucleus采样,p=0.95进行所有结果[13]。
表格1展示了GeoFormer的卓越之处,在大多数评估指标上相较于竞争方法表现出优越性能。尽管在PoLiS距离上略逊于HiSup等方法[34],但GeoFormer在多边形忠实度和分割 Mask 准确性方面取得了显著领先,实现了bAP的30%提升和特定多边形复杂性感知IoU的7个百分点增长。
GeoFormer的出色性能归功于其参数化设计,该设计有效地将建筑角落顶点的稀疏性质集成到预测任务中,而无需依赖多个损失项或复杂的后处理步骤。顶点顺序和离散性质的内置集成到模型结构和学习过程中,使得GeoFormer能够熟练地处理从卫星图像端到端生成准确的多目标矢量化建筑表示的挑战性任务。虽然GeoFormer可能不是在PoLiS距离指标上领先,但在大多数基准指标上表现出最先进性能,并生成高度准确的多边形表示,这是遥感和地理空间分析中的关键考虑因素。
6 Ablations and robustness studies
作者进行了消融研究,以了解不同嵌入和模型属性(包括金字塔特征图、多边形排序、RoPE [30]嵌入、随机 Token Mask 和ALiBi局部注意力头[27])的作用。这些实验以及鲁棒性研究,在Aicrowd数据集的较小子集上进行,该子集包括8,366个训练图像、71,871个建筑实例和1,820个测试图像、15,770个实例。
表2总结了消融研究。ALiBi和RoPE嵌入显著影响模型性能,突显了它们的关键作用。多边形排序和SWIN金字塔特征也显著影响了模型的学习能力。尽管随机 Mask 似乎具有较小(甚至可能有害)的影响,但作者在全训练集拟合时发现它对训练更加稳定,并提高了泛化能力。进一步的消融研究见附录。
稳健性实验作者通过将最佳训练模型暴露于遥感领域常见到的各种随机扰动来评估每个方法的稳健性,例如缺失值(使用3%,6%,9%,12%的像素设置为零的删除随机扰动[39]),降低分辨率(通过从原30厘米分辨率降低到60厘米,90厘米,1.2米和1.5米的双线性降采样因子2,3,4,5倍)和旋转(以30度为增量,即30度,60度,90度,120度)。表3显示了稳健性研究的结果,GeoFormer在所有场景中均优于前代方法,与PolyWorld在降采样场景中分享第二位。作者推测这一差异是由于使用36x36的特征图对输入图像分辨率进行粗略近似,导致比作者寻求学习的完整图像尺寸更耗损的空间压缩。这些稳健性实验的完整结果和评估将在附录中呈现。
Limitations of the auto-regressive tokenised approach
尽管与条件生成模型相关的挑战,如复杂性和较慢的推理速度(与像[11, 18, 34, 42]这样的模型相比),GeoFormer 在这种方法的表现上具有优势。然而,这种参数化并非没有局限性。首先,为了提取图像中的所有建筑,需要进行多次前向传播,这给计算带来限制,这在表4中明显体现出来。GeoFormer 包含近25%的更多可训练参数,其平均推理速度比最快的模型HiSup [34]慢64倍,与采用栅格方法的类似方法相比也是如此。此外,作者研究中编码的图像特征图 是 ,这需要解码器将来自低维表示的 Token 映射到更大图像表示,当输入图像分辨率与特征图之间的差异过大时,会导致更高的错误。最后,GeoFormer 处理每个图像维度的单维 Token 表示,尽管这不会对性能造成阻碍,但如果用 Token 对建模而不是作者方法中的单维 Token ,作者可能可以节省额外的计算。
7 Future works
地平线网络(GeoFormer)在构建使用单一编码器-解码器架构的划分方面取得了显著进展。尽管在性能方面有所提升(见表1),但由于多头自注意力机制的平方复杂度,在大场景中面临着可伸缩性挑战[32]。未来的研究可以探索概率函数的替代参数化方法。虽然分类概率方法有效,类似于像素卷积网络++(PixelCNN++)的离散混合物流(discretized mixture of logistics)可能更适合二维几何问题。这种转变可能潜在地提高了模型训练、压缩和推理/训练速度,因为当前方法需要在每个时间精确匹配目标 Token 以减小负对数似然度。此外,探索将嵌入图像中的位置编码为更高维度(如3D[16])的途径,甚至可能将其映射为图像分辨率的一一对应,将使模型更好地学习将适当值关联到每个解码 Token 。此外,作者很想探索一种类似于解决网格多边形问题的方法,其中需要重新访问同一组点。这种问题可能对作者的模型参数化具有挑战性,也许作者可以学习将每组点与网格线的特定帧关联起来。
8 Conclusion
在本文中,作者提出了GeoFormer,一种用于预测多个物体多边形的图像到序列自回归概率模型。通过结合特征金字塔[21]与SWINv2 Transformer Backbone ,GeoFormer为卫星影像中的物体边界绘制提供了一种新方法,使用单个长序列,其中特殊 Token 用于分隔每个感兴趣的目标。作者的研究结果支持假设:多边形顶点的稀疏性可以通过与任务核心目标紧密对齐的参数化很好地解决:生成一个紧凑且几何精确的点集,形成围绕建筑物的封闭多边形。
GeoFormer 挑战了传统的语义分割方法,并通过在Aicrowd [25]卫星图像基准上的最先进性能展示了生成模型的潜力。该模型直接针对多边形顶点的稀疏性和精度进行优化,可能导致该领域的重大进展。未来研究兴趣包括探索新的似然函数参数化以及研究多多边形场景,例如识别建筑屋顶的线性表面[16]。
总结而言,GeoFormer在卫星图像目标划分方面做出了重要贡献,与先前的研究相比,取得了显著的优势,并在使用自动回归序列到序列模型进行地理空间分析方面显示出巨大的潜力,有待进一步研究和应用。
[0]. GeoFormer:.
点击上方卡片,关注 「AI视界引擎」 公众号