基于改进Transformer模型的高效残差网络复杂图像风格迁移技术研究及其实现！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

摘要：近年来，基于深度学习的鲁棒匹配方法在计算机视觉任务中得到积极研究和改进。然而，对既鲁棒又快速的匹配技术的需求依然存在。

为此，作者提出了一种新型的基于Mamba的局部特征匹配方法，称为MambaGlue。Mamba是一种新兴的顶尖架构，因其训练和推理中的卓越速度以及相较于Transformer架构的优异性能而迅速获得认可。

具体来说，作者提出了两个模块：

a）Mamba注意力混合器，通过基于Mamba的自注意力结构同时且选择性地理解局部和全局上下文；

b）深度置信度评分回归器，这是一个基于多层感知器（MLP）的架构，评估一个分数，表示匹配预测与真实对应关系的置信度。因此，作者的MambaGlue在现实应用中实现了鲁棒性和效率的平衡。

在多个公开数据集上验证表明，作者的MambaGlue相较于 Baseline 方法取得了显著的性能提升，同时保持了快速的推理速度。

作者的代码将在https://github.com/url-kaist/MambaGlue上提供。

引言

特征匹配是多种几何计算机视觉任务的关键组成部分，这些任务涉及在3D地图的图像之间估计点之间的对应关系，包括视觉定位[1]、[2]、同时定位与建图（SLAM）[3]-[5]、运动结构从运动（SfM）[6]、[7]等。通常，这些视觉技术涉及使用描述符向量来编码其视觉外观，对图像对中检测到的局部特征进行匹配。为了实现成功的匹配，描述符必须既可重复又可靠[8]。然而，诸如无纹理环境、光照变化和视角变化等挑战使得生成独特且可区分的描述符变得困难[9]。

为了克服不完善的特征描述符的不足，研究行人研究了各种基于深度学习的方法。近年来，Transformer [12] 已成为视觉应用 [13]-[15] 的实际标准架构，包括特征匹配。其中之一是LoFTR [16]，它是一个无检测器的密集局部特征匹配模型。它通过以粗到细的方式使用Transformer，在准确性方面优于先前模型。

然而，对于需要低延迟的应用，如SLAM，它运行较慢。另外，像SuperGlue [19] 和LightGlue [10] 这样的基于稀疏特征匹配方法也被提出来。它们也利用基于Transformer的架构 [12] 来学习匹配图像对，并在室内和室外环境中的特征匹配表现出鲁棒性能，在速度和准确性之间取得平衡。然而，基于Transformer的模型性能仍然需要相当数量的计算资源和训练难度。

图1：在室外视觉定位方面，对LightGlue [10] 和作者提出的名为MambaGlue的方法的匹配性能进行定性比较。两种方法均使用了SuperPoint [11] 提供的完全相同的特征点和初始描述符，并在相同的阈值参数下进行。值得注意的是，即便在具有挑战性的条件下，如光照变化，作者的MambaGlue方法也表现出更稳健的匹配性能，从而提高了最终对应点中的内点比例。

picture.image

与此同时，近期推出了名为Mamba [22] 的架构，该架构因其处理序列数据的效率而受到认可。由于Mamba能够选择性地关注序列输入 Token ，因此它已被应用于语言[23]以及视觉[24]-[26]任务，在训练和推理过程中均表现出卓越的性能和快速的速度。

本文提出了一种基于Mamba的局部特征匹配模型，名为MambaGlue，这是一种将Mamba架构与Transformer架构相结合的混合方法。MambaGlue通过利用Mamba在输入上的选择性关注能力，提升了构成整体模型的每一层的性能。

此外，作者还提出了一种网络，该网络预测当前层估计对应关系的可靠性。通过这种方式，该模块使MambaGlue能够更好地判断是否停止迭代，从而降低不必要的计算成本。作者的新颖方法通过精确适应特定图像对的特征匹配难度，实现了显著提高准确性的同时降低延迟。

本论文的主要贡献包括：

为了提升每一层的性能，作者提出了一种名为MambaAttention混搭的新模块，通过利用Mamba架构，该架构能够利用注意力架构选择性地关注输入 Token 。
此外，作者还提出了一种名为深度置信度评分回归器的网络，用于预测置信度评分，这表示特征点有多可靠地匹配。因此，作者的方法在低延迟的情况下，性能优于现有技术。
特别是，MambaGlue作为一种简单的Mamba和Transformer混合方案，在稀疏特征匹配方法中表现优于现有技术。

第二章：相关工作

局部特征匹配

尽管众多研究行人提出了新颖的图像匹配流程[27]-[30]，但作者强调基于局部特征的图像匹配，因为它具有简单直观的功能。匹配过程包括：

(i) 检测兴趣点并用描述符表示这些点[8]、[11]、[31]-[35]；

(ii) 将其进行匹配以建立对应关系；(iii) 使用随机样本一致性（RANSAC）等技术过滤掉错误的对应关系；

(iv) 在具有最终对应关系的图像对之间估计几何变换矩阵。

在上述过程中，特别重要的是在最小化错误匹配数量的同时建立正确的对应关系[36]、[37]。经典的匹配器是描述符空间中的最近邻搜索[38]。匹配完成后，由于描述符的不完善或固有的噪声，一些对应关系仍然是不正确的。

它们通常使用启发式方法，如Lowe比率测试[31]或内点分类器[39]、[40]，以及通过稳健地拟合几何模型[41]、[42]来过滤掉。然而，这些启发式过程需要领域知识进行参数调整，并且在挑战性条件下很容易失败。如今，深度学习在很大程度上解决了这些匹配的局限性。

B. 视觉Transformer（ViT）

视觉Transformer（ViT）[14]的引入彻底改变了视觉任务，引领了诸如SuperGlue [19]等方法的发展，该方法将ViT与最优传输[43]相结合，以提升特征匹配。它是首个基于学习的匹配器，旨在同时匹配局部特征并从图像对中过滤掉异常值。通过学习关于场景几何和相机运动的强大先验知识，它表现出对极端变化的鲁棒性，并在多个数据域中表现出色。然而，与早期的Transformer [44]、[45]一样，SuperGlue也面临着挑战，包括难以训练和计算复杂度随关键点数量呈二次方增长的难题。

为了解决这些问题，Lindenberger等人提出了LightGlue [10]，这是SuperGlue的后续作品，其设计更加高效。与通过减少网络的整体容量[][47]不同，LightGlue根据匹配难度动态调整其大小。它通过采用如早停、特征剪枝和更简单的匹配过程等技巧，在不牺牲鲁棒性的前提下提高了性能。

然而，为了提升LightGlue[1o]的性能而增加更多基于Transformer的结构可能会引入额外的计算复杂度。为了克服Transformer可能存在的局限性，Mamba [22]应运而生，它旨在以线性时间复杂度和选择性状态空间更新为特点，有选择性地关注序列数据。

C. Mamba架构与混合模型

自Mamba [22] 的引入以来，众多新颖的方法 [26]、[48] 被提出，以利用其捕捉长距离和时空依赖性的能力应用于视觉领域。具体来说，Zhu等人提出了视觉Mamba [25]，该方法采用具有相同Mamba公式的双向状态空间模型（SSM），以捕捉更广泛的上下文并提高空间理解能力。

然而，双向编码增加了计算负担，这与Mamba的优势相矛盾，可能会导致训练和推理时间变慢。此外，从多个方向有效结合信息是一项挑战，因为在过程中可能会丢失一些全局上下文。到目前为止，仅使用SSM架构和因果卷积的模型，其效率和效果都不如仅使用Transformer的模型。

为了解决仅使用Mamba架构可能存在的局限性，同时利用Mamba架构和基于Transformer架构的混合模型[23]应运而生。Hatamizadeh和Kautz提出了MambaVision[24]，这是其中一种混合方法。MambaVision采用单次前向传递，使用重新设计的Mamba块，能够捕捉到短距离和长距离信息，并在ImageNet top-1吞吐量方面展现出优异的性能。它通过在其重新设计的Mamba块和自注意力块之间加入多层感知器（MLP）进行堆叠。尽管在块之间添加MLP可以让网络提取更丰富的高维特征，并将它们传播到下一层，但这在计算上是非常昂贵的。因此，找到一种方法以更少的资源利用Mamba块与自注意力块是很有用的。

本文提出了一种新颖的Mamba与自注意力架构的并行组合，用于局部特征匹配。与MambaVision将Mamba和自注意力层叠，并在它们之间加入MLP层不同，作者的方法将它们并行连接，无需MLP层，从而在低延迟的情况下实现了更精确的性能。

图2：（a）MambaGlue特征匹配 Pipeline 的概述。将局部特征点和它们的描述符

，其中

，按顺序通过从

到

的各层，在每个层的末尾（除了最后一层）进行退出测试。（b） Pipeline 中

-层的描述，主要由一系列的MambaAttention混叠器、交叉注意力和深度置信度评分回归器组成。每一层都会增强状态

和

，它们分别由局部视觉描述符

和

初始化，即

和

，在通过MambaAttention混叠器和交叉注意力时具有全局上下文。在

层结束时，其中

，深度置信度评分回归器输出置信度评分集

，以预测当前

-次匹配预测是否足够可靠。（c）退出测试的示意图。在每个层结束时，它根据置信度分数决定是否停止过程。如果足够数量的特征对匹配具有信心，MambaGlue将停止迭代并执行特征匹配；否则，迭代将在修剪可能不可靠的特征后继续。

picture.image

第三部分：ThemeBag架构

所提出的特征匹配方法的整体框架如图2所示。作者的MambaGlue主要由一个具有

个相同层的堆叠层 Pipeline 组成。系统的输入包括来自图像

和

的两组局部特征。作者分别用

和

表示

和

的特征集，其定义如下：

在此，

表示集合

的索引，它是

的索引集；

表示集合

的索引，它是

的索引集。

和

分别表示图像

和

上的特征数量，即

和

。为了简化，

或

中的任意第

个特征点和

维描述符分别记为

和

，其中

。随后，局部特征依次通过以下层：一个MambaAttention混合器、一个交叉注意力和一个深度置信度评分回归器，如图2(b)所示，以增强描述符的表达能力。在第

层结束时，深度置信度评分回归器预测一组置信度评分

，其中

是第

次迭代中所有特征的索引集，即

。

然后，退出测试确定是否结束迭代以减少不必要的计算成本。否则，特征将进入特征剪枝步骤，以拒绝明显不可靠的特征来提高效率。如果系统决定一旦找到足够的对应关系就停止推理，迭代停止，并进行匹配以建立对应关系。因此，整个框架输出一组匹配集

。剪枝和匹配步骤，即退出测试，与LightGlue [10]中的步骤相同。

图3：(a) MambaVision块（[24]）的架构，它只能以图像为输入，因此不能直接用于特征匹配任务，以及（b）作者提出的MambaAttention混合块，它以描述符的特征点和状态为输入。作者的MambaAttention混合块主要由三个分支组成：(i)一个带有位置编码的自注意力块，用于点输入

，(ii)直接连接输入以保留原始特征，以及(iii)一个基于Mamba的块，其灵感来源于(a)。然后，在块的末尾将特征连接起来，以便选择性地、全面地提供下一阶段的细化上下文。

picture.image

受到MambaVision[24]的启发（见图3(a)），作者首先提出了一种基于Mamba的自注意力块，称为MambaAttention混合器。如图3(b)所示，MambaAttention混合器由一个自注意力块、输入的直接连接以及一个基于Mamba的块组成。自注意力和Mamba的结合使得能够对输入 Token 进行全局和选择性的扫描。

接下来，如图2(b)所示，MambaAttention混音块与交叉注意力块的结合构成了作者系统中每一层的核心部分。作者将状态

分配给目标图像

中的每个第

个局部特征。每个状态通过相应的视觉描述符

初始化，随后由MambaAttention混音块和每个n层的交叉注意力块进行更新。

在两个模块中，一个多层感知器（MLP）通过消息

更新每个状态：这是从源图像

中所有状态聚合到目标图像

中一个状态的结果。

其中，

表示两个向量的拼接。这一操作同时应用于两张图像中的所有点。在MambaAttention混合器块中，每一张图像

会从同一图像内的点中提取信息。在交叉注意力块中，每一张图像会从对应的补充图像中提取信息。

为了简洁起见，作者省略上标

。如图3(b)所示，MambaAttention混音器产生的消息

是通过连接基于Mamba路径的输出

和

，以及自注意力路径的输出

来计算的，具体如下：

的计算方法如下：

在这里，

是一个投影矩阵，

是

的指标集，

是一个注意力分数，定义为

，其中

和

分别是由不同线性变换生成的键和 Query 向量，这些向量是从任意状态

中得到的，而

是点之间相对位置的旋转编码 [49]。接下来，为了简化，将编码部分

记为

，其中

表示输入和输出嵌入维度分别为

和

的线性层；

是卷积层，

是Sigmoid线性单元（SiLU）[50]，用于激活，

和

的定义如下：

在本文中，

表示一种选择性扫描操作，旨在高效地聚焦于输入序列中最相关的部分 [22]。

基于一种roseton机制，

被表示为图像

所有状态的加权平均值。

是

的索引集，注意力得分定义为

，其中

是任意状态

的关键向量。

中的每个点都会关注其他图像

中的所有点。因此，作者只需要计算来自两个方向的消息的相似度一次[51]。

深度置信评分回归器

新设计的回归器被称为深度置信度得分回归器，它预测一个置信度分数，该分数表示匹配预测与每个特征点的真实匹配的相似程度。请注意，该回归器在每个第

层的末尾应用，其中

（参见图2(a)和图2(b)）。

在LightGlue [10]中，通过结合Sigmoid函数和仅一个线性层来预测置信度分数。然而，仅一个线性计算层不足以分析经过神经网络多个步骤的每个状态的复杂表示。作者通过实验观察到，即使具有更深的层，作者的回归网络在训练和推理方面都比仅使用单个线性层要快。此外，它还能更好地理解上下文中的层次和抽象意义。

正式地，每个

-th置信度分数

的定义如下：

这里

表示多个MLP层，其中最终输出的维度是

。因此，（7）表明第

个特征的状态是否可以可靠地匹配。

C. 早期停止的退出测试

作者采用Lindenberger等人提出的退出测试，用于高效的中止训练并节省推理时间。当用户选择使用时，该测试得以应用。假设图像A或B中的第

个点在

的情况下被认为是有信心的，其中

是一个用户定义的分数，退出测试

在每个层结束时执行，其定义如下：

其中

，而

表示伊夫森算子。也就是说，(8) 表明作者在图像对上的所有点中有足够比例

的点确信时，停止迭代。

深度学习损失函数

作者在两个阶段训练MambaGlue，类似于LightGlue [10]的训练过程。最初，作者训练网络预测对应关系而不进行退出测试，随后专门训练深度置信分数回归器。第二步不会影响每一层的性能。

匹配预测矩阵

通过来自两个视角变换的真实标签进行监督，其中

中的点映射到

，反之亦然，基于相对姿态和深度。真实对应关系

是具有低投影误差且深度一致的点对，而在

和

中的点如果投影或深度误差相对较大，则 Token 为不可靠。损失函数

设计用于最小化每个层预测匹配的对数似然：

图4：MambaGlue预训练过程的损失和召回率图。在训练了500万图像对（仅使用2个GPU天）后，作者的MambaGlue在最终层实现了（a）26.7%的更低损失，以及（b）比LightGlue高出0.3%的匹配召回率。

picture.image

表1：HPatches数据集上单应性估计的比较[53]。误差阈值为3像素时的精确度表示为PR。粗体和灰色高亮分别表示所有情况下的最佳结果和针对特定特征的最好结果。

picture.image

在这里，

，其中匹配度得分定义为

，它编码了第

个点具有对应点的可能性，而成对得分矩阵定义为

，它编码了每对点形成对应关系的亲和力。这种损失函数平衡了正负标签的贡献，确保了早期预测的准确性。

接下来，作者训练深度置信分数回归器。正如（7）中所述，作者通过最小化二元交叉熵[52]来使匹配预测与真实匹配相同。设

表示第

层中与

的第

个点匹配的

中点的索引。每个点的真实标签为

。对于

同样应用二元交叉熵。

E. 与LightGlue的比较

总结来说，作者的MambaGlue建立在LightGlue的基础上，但提供了更高的准确性和效率。MambaGlue在每个层次上都具有更高的准确性，因此总体上更为精确。通过利用Mamba与自注意力机制，MambaGlue能够选择性地全局处理输入，其鲁棒性超越了仅使用基于transformer架构所能达到的程度。此外，在每个层次结束时，所提出的深度置信度评分回归器提供了对状态的层级理解，从而比仅使用单一线性层的结果产生更具情境丰富性的输出。尽管有这些改进，损失和召回率图显示MambaGlue仍然易于训练，甚至比LightGlue收敛得更快，如图4所示。

第四部分：实验评估

A. 实验设置

作者评估了MambaGlue在三个视觉任务上的性能：单应性估计、相对姿态估计和室外视觉定位。通过使用它们官方预训练的权重，作者将MambaGlue与基于Transformer的稀疏特征匹配方法（如SuperGlue [19]、SGMNet [46]和LightGlue [10]）进行了比较。学习型密集匹配器[16]、[54]、[55]的结果来自LightGlue [10]。

在执行单应性估计时，作者使用了HPatches数据集[53]，其中包含了诸如光照变化、遮挡或视点变化等具有挑战性的条件。在相对位姿估计中，作者使用了来自MegaDepth-1500数据集[56]的1500对图像，这些图像包含了具有结构和视觉变化的户外场景，难度 Level 通过视觉重叠比进行调整。对于户外视觉定位，作者采用了亚琛昼夜基准[21]，遵循Sarlin等人[1]提出的基准。

同构图估计

作者评估了单应性估计的准确性，使用了鲁棒（基于LO-RANSAC的非线性优化[57]）和非鲁棒（加权DLT[58]）估计器。LO-RANSAC利用随机采样和局部优化有效地处理异常值，而DLT直接计算单应性，但在存在噪声数据的情况下更容易出错。评估指标包括1像素和5像素累积平均重投影误差的曲线下面积（AUC），以及3像素误差阈值下的精确度。

表1显示，MambaGlue在对应关系上的精度最高。特别是，MambaGlue比其他稀疏匹配器（即表1中SuperPoint[11]类别的其他方法）提供了更准确的估计，甚至在与密集特征匹配器竞争中也不落下风。在粗略阈值5像素的情况下，尽管使用稀疏关键点作为输入，MambaGlue的精度甚至超过了LoFTR。

相对位姿估计

为了进行相对位姿估计，作者分别使用RANSAC [42]和LO-RANSAC结合LMrefinement [57]计算了基础矩阵。作者基于旋转的最大角度误差计算了配对数据的位姿误差，并报告了其在

、

和

时的AUC值。如表2所示，与SuperGlue、SGMNet和LightGlue等最先进的间接方法相比，MambaGlue在具有可忽略额外处理时间的相同SuperPoint特征下表现出了有希望的成果。与使用退出测试的LightGlue相比，作者的方法在退出测试中表现出的性能下降差距更小，同时显著提升了推理速度。在精度与速度的权衡中，作者得出结论：MambaGlue在鲁棒性和效率之间实现了平衡。

picture.image

D.户外视觉定位

最后，对于室外视觉定位，作者使用RANSAC算法和透视-点（PnP）求解器来估计相机姿态。作者报告了在不同阈值下的姿态召回率以及地图构建和定位过程中匹配步骤的平均吞吐量。

在表三中呈现，作者的MambaGlue相较于其他局部特征匹配方法实现了显著的性能提升，尽管与 Baseline 流程相比，在速度上略有妥协[10]。

E.Ablation Study 翻译为：E. 消融研究

作者通过比较MambaGlue和LightGlue [10] 在同质图数据集 [53] 上的退出测试行为来验证了作者的模型。如图5所示，在（8）中的阈值α变化的不同场景下，MambaGlue均优于LightGlue。

picture.image

在模型层数有限且无退出测试的情况下，如图6(a)所示，MambaGlue在每层的准确性方面优于LightGlue，从第一层开始，随着层数的增加，也显示出更稳定的性能。接下来，如图6(b)所示，作者的深度置信度得分回归器采用更严格的准则来检查特征，在比LightGlue的置信度分类器更精确的时刻停止，因此展示了在更少迭代次数下的改进性能。请注意，作者还观察到MambaGlue在第5次迭代前停止迭代，此时图6(a)中AUC曲线的斜率开始下降。

picture.image

五、结论

在本文中，作者提出了一种名为MambaGlue的快速且鲁棒的匹配方法，该方法通过整合Mamba和Transformer架构，实现了低延迟下的精确局部特征匹配。

特别是，作者提出了MambaAttention混合块以增强自注意力能力，以及深度置信度得分回归器用于预测可靠的特征匹配。作者的结果表明，MambaGlue在准确性和速度之间取得了最佳平衡。

尽管作者提出的方法在特征匹配方面取得了成功的改进，但与Mamba架构相比，作者的模型对Transformer架构的依赖仍然需要相当数量的计算资源。在未来的工作中，作者计划创建一个仅使用Mamba架构的模型，以实现更轻量化和更快速的特征匹配。

unsetunset参考unsetunset

[1]. MambaGlue: Fast and Robust Local Feature Matching With Mamba .

点击上方卡片，关注「AI视界引擎」公众号

基于改进Transformer模型的高效残差网络复杂图像风格迁移技术研究及其实现 ！

unsetunset参考unsetunset