无需额外标注，SG-MIM 实现高效结构知识引导的 Mask图像建模！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

Mask 图像建模（MIM）技术已经 Reshape 了计算机视觉领域，使得预训练模型能够在各种任务上实现出色的性能。

尽管它们取得了成功，但基于MIM的方法在密集预测任务中的全部潜力，尤其是在深度估计方面的潜力仍然尚未发掘。现有的MIM方法主要依赖于单张图像输入，这使得捕捉关键结构信息变得具有挑战性，从而导致在需要细微特征表示的任务上的性能不佳。

为了解决这些问题，作者提出了一种叫做SG-MIM的新颖的结构知识引导 Mask 图像建模框架，旨在通过利用结构知识来增强密集预测任务。

SG-MIM采用了一种轻量级的相互关系指导框架，允许它以特征级而不是在同一架构中的像素级Naively结合的方式单独指导结构知识。这种方法使得模型能够有效地捕获关键信息，同时最小化预训练和下游任务之间的差异。

此外，SG-MIM采用了一种选择性 Mask 策略来引入结构知识，从而最大化通用表示学习和结构知识特定学习的协同作用。作者的方法不需要额外的标注，使其成为广泛应用的通用和高效解决方案。

作者对KITTI，NYU-v2和ADE20k数据集的评估表明，SG-MIM在单目深度估计和语义分割方面的优越性。

Introduction

在计算机视觉领域，利用在ImageNet上的有监督分类进行预训练长期以来一直是金标准，在广泛的视觉任务上 consistently 展现了其无法匹敌的有效性，尤其是在与语义理解相关的图像分类和目标检测（16,2）等任务上。在这个基础上，自监督预训练方法成为主导，其中最具代表性的方法是"Masked Image Modeling"（15,19,20,21），即模型学习恢复图像的随机 Mask 部分。MIM的成功归因于局部归纳偏差[19]。与有监督预训练相比，MIM鼓励模型聚合相邻像素，从而提高它们捕捉局部特征的能力。

尽管MIM模型取得了惊人的成就，但它们在扩展到密集预测任务，如单目深度估计[1]时往往效果不佳。为了应对这个问题，先前的MIM模型研究了将多个模式或额外图像作为输入来源的方法。这些方法通常采用将图像与另一个模式或额外图像（如图1(a)所示）简单合并的架构。例如，CroCo（Weinzaepfel等人，2022年）利用了场景相同但视角不同的两个图像，而MultiMAE（Bachmann等人，2022年）则在同一架构中融合了伪深度和分割图。

picture.image

然而，这种将图像与补充数据简单合并的方法引入了许多挑战：

(1)首先，它创建了预训练阶段与微调阶段之间的差异。在预训练阶段，编码器处理多个输入，而在微调阶段，它只管理单一图像。这种差异限制了模型有效利用附加图像和模式中的多样化信息的能力。

(2)此外，模型易受到补充数据的噪声影响。预测的深度和分割图通常被用作补充数据，但以像素级直接将未经优化的输入馈送到编码器无疑会降低性能。(3)最后，将图像与补充数据简单合并增加了编码器的信息负载，需要更长的训练时间。例如，MultiMAE（Bachmann等人，2022年）需要预训练周期翻倍，达到1600个，而像MAE这样的模型只需800个预训练周期。

在上述挑战的基础上，作者提出了一种战略性设计的架构，能够有效地利用额外的结构化数据。作者的结构化知识指导 Mask 图像模型（SG-MIM）引入了一种创新架构，其中编码器通过轻量级的关系指导框架间接学习空间结构化信息。通过使用独立的特征提取分支，所提出的框架高效地编码结构化知识，有效地弥合预训练和下游任务之间的差距。

此外，与现有方法不同，所提出的架构在特征 Level 分别编码结构信息和引导主要图像编码器，使用特征融合模块。这种特征 Level 的指导可以增强噪声的鲁棒性，通过滤除无关信息，使模型专注于有意义模式，从而实现更全面的上下文理解。

除了利用精心设计的神器融合结构化知识与图像输入的框架，作者还提出了一种语义性选择性 Mask 方法，在不同的输入信号之间引入异质性 Mask 。作者的语义性选择性 Mask 方法通过考虑学习难度的平衡来战略性选择特定的 Mask 区域。这种平衡方法提高了关系指导框架的有效性，导致了更强大和高效的特征学习。

作者的方法作为一个通用解决方案，运作时不需要额外的标注，提供了适应性和效率，适用于各种任务。此外，它有助于生成细粒度、纹理丰富的特征，这些特征在密集预测任务中显著提高了性能，如图3中的分析所示。与其他模型在实验对比中，SG-MIM始终表现出优越的性能，特别是在较低的 epochs 例如 100 时。值得注意的是，作者的方法在 KITTI 验证数据集（Geiger等人，2013）上获得了 2.04 的 RMSE，在 NYU-v2 验证数据集（Silberman等人，2012）上获得了 0.91 的，其中表示预测像素与真实深度之间的比率在 1.25 以内的百分比。此外，在 ADE20K 数据集（Zhou等人，2017）上获得了 47.59 的 mIoU，与现有 MIM 模型相比，在各种 Backbone 模型和 epoch 上表现出了卓越的密集预测任务性能。

picture.image

作者的模型贡献可以总结如下：

作者提出一个高效独立的相对指导框架，以解决现有模型的框架问题，这些问题往往会导致预训练模型与下游任务之间的不一致，并且容易受到不同模态噪声的影响。
作者在预训练期间使用选择性指导 Mask 策略进行实验，结果表明：这种方法通过有策略地关注最能平衡学习难度的纹理块，有效地将结构知识转移到图像编码器。
作者的方法是一种即插即用的方式，具有广泛的适用性，可以集成到任何 Backbone 模型中，而无需额外的标注。此外，作者的性能已经通过在各种 Backbone 模型上的单目深度估计和语义分割任务上的多样化实验进行验证。

Related Work

Masked Image Modeling (MIM)

在计算机视觉领域，自监督学习认为MIM 起着关键作用。受到BERT（Devlin等人，2018）中的 Masked Language Modeling的启发，MIM在视觉表示学习方面表现出色。这种方法通过输入视觉图像中的缺失像素来学习视觉表示，这种方法利用了通过重建进行学习的概念。MIM的成功可以归因于其能够赋予训练模型位置归纳偏差（Xie等人，2023），使模型能够将注意力头中的近邻像素聚合在一起。

目前，MIM方法主要体现在两种方法中：MAE He等人（2022）和SimMIM Xie等人（2022）。MAE，使用 ViT Dosovitskiy等人（2020）作为其 Backbone ，只需将视觉图像的视觉图像 Token 输入到编码器中，并在进入解码器之前将 masked Token 集成，在那里进行重建。另一方面， SimMIM Xie等人（2022），其可以使用 ViT Dosovitskiy等人（2020）或Swin Liu等人（2021）作为其 Backbone ，将视觉图像 Token 和 masked Token 都输入到编码器中，从编码器的阶段本身就启动重建过程。

因此， SimMIM解码器被设计为轻量级的预测头，与MAE的架构不同。这种方法的多样性突显了MIM在视觉表示学习领域推动进步的适应性和潜力。

Variants of MIM

基于MIM的成功，其结构有许多变体被提出以进一步扩展其能力。Croco等人采用了一种跨视图补全策略，将相同场景的两个视图的图像作为输入。只有一个输入图像进行遮挡，然后使用Dosovitskiy等人（2020）的单目深度估计和语义分割模型来编码两个图像的可见部分。

在进入解码器之前，将遮挡的标记与编码的可见部分结合在一起，以重构遮挡的标记，这有助于学习这种集成方法。MultiMAE Bachmann等人（2022年）利用单目深度估计和语义分割任务的方法来生成伪深度和分割图，然后将其与图像作为输入进行整合。

为每种模态使用不同的解码器来重建信息，展示了一种全面的多元视觉表示学习方法。这些针对MIM的变体说明了该领域中的不断创新，旨在利用自监督学习在各种应用中提高视觉理解的全潜力。

Preliminary

遮挡图像建模（MIM）是计算机视觉自监督学习中的一种基石技术，其中模型学习到重建输入图像的随机遮挡部分。这个过程有助于模型获取有用的一般视觉表示，这些表示在各种下游任务（例如分类、分割和目标检测）中都是有效的。通常计算重建和原始像素之间的L1或L2损失来指导学习过程：

其中表示总的遮挡像素数量，代表重建像素值，而代表原始像素值。遮挡标记在-次像素被遮挡时等于1，否则等于0。通过 MIM 训练的编码器在下游任务中得到应用，确保所学到的特征可以适应除图像重建以外的各种应用。

Method

在这一部分，作者介绍了SG-MIM框架，详细阐述了其网络结构，并使用傅里叶分析来说明它如何提高细粒度特征生成并改进在密集预测任务上的性能。

Overview

虽然利用额外的信息在预训练阶段的使用已被广泛研究，但以前的网络架构（如图1（a）所示）通常依赖于纯像素级的整合。相比之下，SG-MIM利用结构化知识Ranftl等人（2021）采用像图1（b）这样的独立网络架构，通过将关系指导框架编码并融合结构化信息，实现了与传统MIM架构平行的结构化知识。该框架包括关键组件：选择性指导 Mask 和编码，选择性地针对块调整学习难度；关系指导框架，独立编码并融合结构化数据；预测头和损失函数，通过结合图像重构和结构知识预测共同优化模型，有效地平衡了一般特征学习和结构化信息捕获。

Selective Guidance Masking and Encoding

输入图像被分成个 Patch 。同样地，结构化知识图谱也被分成个 Patch 。这里，表示具有分辨率的分割 Patch 的数量。

和分别表示通道大小。这些 Patch 通过各自的线性变换被转换为 Patch 表示。图像 Patch 遵循传统的 MIM Mask 策略，即 masking 大部分 Patch （例如，60%）。

同时，结构化知识 Patch 使用语义选择性指导 Mask 策略，该策略确保输入图像被 Mask 区域没有重叠。通过选择性地利用结构化知识 Patch ，确保只有可见图像 Patch 对结构细节的估计作出贡献。此外，该策略防止模型尝试从不可见图像 Patch 中推理结构信息，这可能 unnecessarily 复杂化学习的进程。这种方法，以语义观点为基础，关注选择增强结构知识与普通表示学习之间协同作用的 Patch 。

这种 Mask 策略可以数学表示如下。令和分别表示图像和结构知识 Patch 表示的 Mask 矩阵。两个矩阵的维数均为，其中元素为，其中 1 表示不可见（ Mask ）的 Patch ，0 表示可见的 Patch 。作者的选择性 Mask 策略确保图像和结构知识图之间的 Mask 没有重叠，这可以表示为，每个都成立。

遵循这种 Mask 策略后，可见图像 Patch 和可学的 Mask 标记一起输入到 Transformer 编码器 [14, 15] 中，以创建图像潜在表示，而可见的结构知识 Patch 则由关系指导框架处理，以指导模型使用结构知识。表6 的孤立研究调查了不同 Mask 策略的效果。

picture.image

Relational Guidance Framework

关系引导框架是一个轻量级模块，它使用MLP层来编码结构化知识，特别是与层次图像编码器对齐。通过保持独立的编码结构，这个模块有效地避免了与下游任务之间的不一致，并减轻了编码器的学习负担。

作者的框架从结构化知识 patches嵌入和图像潜在表示中接收输入。它可以分为两个主要组件：包含浅层MLP层的特征提取模块，该模块生成结构化知识特征，以及将与图像潜在表示融合的特征融合模块。这种浅层特征提取在训练复杂性方面具有更高的效率（见表5）。

picture.image

考虑到结构化知识包含的信息比图像更简单，作者的方法试图使用浅层MLP层而不是计算密集型Transformer编码器来表示结构化知识。这种方法反映了PointNet [11]采用的方法，该方法使用MLP从3D点云中提取点特征。MLPs在处理3D几何数据方面的效率得到了突出。

此外，特征融合模块有助于学习两个模态之间的关系，从而生成图像可见部分的结构引导图像潜在表示。这通过对应于结构知识映射中可见区域的区域来实现（但在图像中不可见）。特征融合模块可以实现为具有图像潜在表示（ Query ）和结构特征（键和值）的多个头自注意力层（如图2所示）的残差连接结构。

picture.image

在每个头中， Query ，键和值投影被定义为：

其中 , 和是学习的权重。多头自注意力机制通过集成这些投影丰富图像特征：

在这里，表示通过多头自注意力增强的图像潜在表示，结合所有 Head 的输出。预测头和损失函数在作者的SG-MIM模型中，图像潜在表示，由Transformer编码器 [14, 15]处理，被馈送到一个类似于SimMIM [16]的轻量级、一层预测头。作者计算了基于L1损失的重构像素与目标图像像素之间的L1损失的图像重建损失，其中是总屏蔽像素数量，是基于传统MIM Mask 的传统MIM。

同时，结构和引导的潜在表示被送入一个专门处理结构信息的预测头，以计算 _结构知识预测_损失，该损失也使用L1损失来比较预测的结构知识与目标值。

总损失函数结合这两个损失，优化模型以有效地学习通用和结构化特征：

，

其中和分别平衡图像重构和结构知识预测损失的贡献。在作者的实验中，这两个权重都设置为1，并进行了Table6中的淘汰研究。

因此，该框架可以高效地学习通用和特定结构知识，为理解和生成图像提供有效的手段。

Fourier Analysis of Feature Maps

作者使用傅里叶分析进行了可视化分析，以比较SG-MIM和SimMIM产生的特征。具体来说，Log幅度被计算为归一化频率（中心）和（边界）的对数振幅之间的差异。为了更好地进行可视化，作者只提供了二维傅里叶变换特征图的一半对角分量。图3显示，SG-MIM有效地捕获了高频信号，这有利于生成具有丰富边缘和纹理的更详细特征。在需要细致纹理信息的密集预测任务中，这种细粒度的纹理信息对于改进性能至关重要。该分析在KITTI数据集上进行深度估计，在ADE20K数据集上进行语义分割，证明了SG-MIM在捕捉各种密集预测任务中必需的高频细节方面的优越性能。

Implementation Details

在作者的预训练阶段，作者进行了利用 Swin-Base [14]， Swinv2-Base [14] 和 ViT-Base [13] 的实验。Swin Transformer 和 ViT 的默认输入大小分别为和，所有测试中的统一图像 Mask 比率为 0.6。知识结构通过在 OmniData [1] 上训练 DPT-Hybrid [12] 生成。

训练在 NVIDIA RTX 6000 Ada 上，批处理大小为 1024，使用 8 个 NVIDIA RTX 6000 Ada GPU。额外的实验和实现细节可参见附录。

Experiments

在本节中，作者对模型在多种任务上的微调性能进行了与现有预训练模型的比较，包括单目深度估计和语义分割。

实验设置如下：首先进行单目深度估计实验，然后是语义分割，最后是模型效率和删减实验。

Downstream Task: Monocular Depth Estimation

对于单目深度估计实验，作者使用了 KITTI 和NYU-v2 的标准数据集分裂。对于KITTI数据集，作者参考了 GLPDepth ，在encoder 中添加了一个简单的深度估计头，包括解卷积层。作者采用了RMSE作为评估指标。

对于NYU-v2数据集，作者使用了DPT [12]配合encoder [13]，通过使用指标 [13]（例如（，），该指标表示相对深度错误的像素百分比，其中和分别表示预测深度和实际深度。

结果在下游模型的性能比较中，SG-MIM始终优于现有MIM模型 [1, 15, 16, 17]。如表1所示，SG-MIM在所有配置（包括ViT-Base和Swin-Base Backbone 网络，以及在100和800个周期内）上都优于 Baseline 模型SimMIM。此外，与其它MIM模型（如MultiMAE [1]，涉及更复杂的重建任务（RGB+D+S））相比，在使用相同的ViT-Base Backbone 网络的情况下，SG-MIM优于这些模型。此外，尽管Croco [1]使用了更大的数据集，特别是Habitat数据集[1]，其中包括1,821,391个合成图像交叉视图对，但SG-MIM仍然实现了更好的性能。

picture.image

如表2所示，作者不仅评估了与MIM-based其他模型的比较，还评估了专门为单目深度估计设计的模型。在此比较中，作者都使用了基于Swinv2-Base Backbone 网络的SimMIM和SG-MIM，并将训练好的编码器权重转移至GLPDepth模型进行性能评估。对于代表性的方法，作者包括了最先进的模型如BinsFormer [11]和iDisc [12]。与使用相同下游模型的SimMIM相比，SG-MIM在100个周期内显著提高了性能，在800个周期内略有提高。此外，与最先进的模型相比，SG-MIM展示了可比或优越的性能。

picture.image

在表3中，下游模型基于DPT using the Vit-Base backbone。与表1类似，SG-MIM在指标上显示出优越性能。有趣的是，与表1相反，Croco [12]在其他MIM预训练模型中表现最好，达到了与SG-MIM相同的分数，而MAE [11]则表现出最低性能。然而，值得注意的是，Croco是使用比其他模型更大的图像数量进行预训练的。

picture.image

Downstream Task: Semantic Segmentation

数据和设置作者在ADE20K [13]数据集上进行了语义分割实验。UperNet框架[14]充当了下游模型，并将预训练权重加载到编码器中进行微调。使用mIoU指标评估性能，有关实验设置和结果的更多信息请参阅补充材料。

结果如表4所示，作者在相同条件下，使用ADE20K验证数据集对SG-MIM模型在语义分割任务上的性能进行评估，该条件类似于使用SwinV2-Base背板的SimMIM。作者的结果表明，与SimMIM相比，SG-MIM在mIoU得分上提高了大约0.5。此外，它始终优于其他模型，例如MultiMAE。

picture.image

Model Efficiency

在表5中，作者研究了在关系指导框架中，基于不同的特征提取架构（MLP层、Transformer Liu等人（2021年）、Siamese Transformer Liu等人（2021年））的SG-MIM的有效性，以及在KITTI数据集Geiger等人（2013年）上的单目深度估计性能。

Transformer架构独立于图像编码器运行，而Siamese Transformer与图像编码器共享权重，表明统一的处理方法。基于MLP的编码的SG-MIM在训练效率和RMSE性能上都表现出色。

有趣的是，基于Transformer的模型性能较低，这可能是因为它们的容量较大，需要比作者实验中使用的800个周期更长的训练时间。这突显了MLP在捕捉结构特征方面的效率。

Ablation study

所有消融实验均在KITTI数据集Geiger等人（2013年）上进行，关注使用Swin-Base作为基础模型的单目深度估计，迭代100次。

蒙蔽策略和比例研究一开始使用传统的随机蒙蔽，在图像和结构信息上分别以0.6的比例应用。这可能会使无法看到图像区域的结构信息的估计变得更加复杂，导致 compared to 的性能较差，如表6所示。然而，作者选择性蒙蔽策略避免了图像中蒙蔽区域和结构信息的重叠，使模型能够专注于可见的区域并有效地估算结构细节，实现了2.29的RMSE 。作者还尝试调整蒙蔽比例从默认的0.6分别为0.5和0.7。作者的结果表明，0.6的比例实现最佳性能，实现了2.29的RMSE。

损失权重在表6中，实验表明在图像重构和结构知识预测损失之间保持平衡的1/1比例，实现了最佳RMSE为2.29。减少结构知识损失的权重会导致性能逐渐下降，突显了关系指导框架在优化单目深度估计中的重要性。

Conclusions

结论：SG-MIM通过轻量级关系指导框架有效地将结构知识集成到预训练过程中，从而提高了Masked Image Modeling的有效性。这种集成使空间结构信息高效编码，减少噪声，并使预训练更好地与下游任务对齐。此外，选择性 Mask 策略通过关注可见图像区域来管理学习难点，确保模型不因缺乏信息而从缺乏结构细节的区域预测结构细节。

这种高效、平衡的方法使模型能够生成细致的特征，从而在密集预测任务中提高性能，尤其是深度估计和语义分割，在这些任务中，SG-MIM超过了现有方法。

局限性虽然SG-MIM有效地将结构数据集成到预训练过程中，但它仍然受到传统MIM框架的2D性质的限制，这种框架关注2D平面内的重建和预测。未来的工作将通过对MIM框架的扩展，将其融入3D点云数据，以实现更丰富的3D感知和理解任务，来解决这个局限性。

局限性虽然SG-MIM有效地将结构数据集成到预训练过程中，但它仍然受到传统MIM框架的2D性质的限制，这种框架关注2D平面内的重建和预测。未来的工作将通过对MIM框架的扩展，将其融入3D点云数据，以实现更丰富的3D感知和理解任务，以解决这个局限性。

参考

[1].SG-MIM: Structured Knowledge Guided Efficient Pre-training.

点击上方卡片，关注「AI视界引擎」公众号

无需额外标注 ，SG-MIM 实现高效结构知识引导的 Mask图像建模 ！

Introduction

Related Work

Masked Image Modeling (MIM)

Variants of MIM

Preliminary

Method

Overview

Selective Guidance Masking and Encoding

Relational Guidance Framework

Fourier Analysis of Feature Maps

Implementation Details

Experiments

Downstream Task: Monocular Depth Estimation

Downstream Task: Semantic Segmentation

Model Efficiency

Ablation study

Conclusions

参考