基于Vision MLP的轻量化Backbone | SpiraMLP完美缝合局部和全局特征，兼容不同分辨率，性能SOTA! - 文章 - 开发者社区

picture.image

我们提出了SpiralMLP ，一种新颖的架构，它引入了Spiral FC 层以替代传统的Token Mixing方法。与目前强调轴向的几种基于MLP的模型不同，我们的Spiral FC层被设计为带有螺旋状偏移的可变形卷积层。我们进一步将Spiral FC适配为两种变体：Self-Spiral FC 和Cross-Spiral FC ，它们能够无缝地实现局部和全局特征融合，无需额外的处理步骤。为了彻底研究螺旋状偏移的有效性并验证我们的设计，我们进行了消融研究并探索了最优配置。

在实证测试中，SpiralMLP达到了与Transformers、CNNs和其他MLPs相当的最先进性能，在ImageNet-1k、COCO和ADE20K上的基准测试中表现优异。SpiralMLP仍然保持了线性计算复杂度，并且兼容不同的输入图像分辨率。我们的研究揭示，实现高性能并不一定需要针对完整的感受野，相反，采用更精细的方法可以提供更好的结果。

1 引言

研究无序介质中的电荷传输对于理解各种物理、化学和生物现象具有根本的重要性。例如，导电聚合物的独特性质、蛋白质中电子转移的动力学以及介观系统中的电荷传输都是受无序影响的过程。无序的存在可以导致丰富的新现象，如局域化、多分形和临界性，这些现象在有序体系中并未观察到。这促使人们越来越关注发展理论方法和数值模拟来描述这些复杂的系统。近年来，新的实验技术的发展使得模型无序系统的制备和表征成为可能，从而使得对理论预测的实验测试更加详细。本综述的目的是提供关于无序系统中电荷传输研究当前状态的概览，重点关注无序与基本传输性质之间的相互影响。

之前的图像分类系统主要采用基于CNN的架构。这些系统在受控数据集上表现出色，但在基于未受控偏见的情境中可能会出现问题。近年来，基于Transformer的架构已经成为基于CNN架构的有力替代品。这主要归功于它们采用的自注意力机制，这种机制已经被证明能够很好地泛化到大数据集，并且还可以被用于下游任务。然而，优化Transformers可能需要更大的内存容量和更加规范化的数据集。

最近，基于基本MLP的架构[39, 59]在各项计算机视觉任务上展示了与Transformers相当的有希望的结果。这种数据集高效且轻量级的架构包含两个关键组件：通道混合 和标记混合 。通道混合通过沿通道维度投影特征图来为每个标记执行特征提取，而标记混合通过沿空间维度投影特征图来捕捉空间信息。两者结合，这两个混合层使得局部和全局上下文聚合成为可能，增强了鲁棒性并减少了训练资源的消耗。

MLP-Based Architectures.

近年来，基于MLP的架构在计算机视觉领域已经成为替代CNN和Transformers的有前景的选择。这些架构背后的核心思想是利用MLP作为一个基本的构建块，从而产生高效且有效的模型。先驱性的MLP-Mixer 处理了一个简单但强大的架构，包含标记混合 （Token Mixing）和通道混合 （Channel Mixing）。对于一个特征图，其中、分别是高度和宽度，是输入通道维度，令表示标记混合权重矩阵，对预处理后的输入施加的操作如下：

其中，表明维度被展平，而指维度被分开，且是标记混合的输出。等式 (1) 用于模拟关注操作以整合空间信息，其后是沿着通道维度操作的通道混合。我们定义通道混合权重矩阵为，通道混合输出表达如下：

图1：(a) 当通道全连接（Channel FC）仅集中在目标点上，用标记时，螺旋全连接（Spiral FC）捕捉更丰富的空间信息。螺旋全连接符合等式 (4) 和 (5)，输入通道维度，最大振幅且。坐标数字按排列。这个示例图仅包含了一半的。(b) 在参数为：，且时，提供了一个完整的可视化。

picture.image

尽管MLP-Mixer提供了令人印象深刻的性能，但它仍然受到方程(1)中二次计算复杂度的困扰。此外，使用全连接层进行token混合使得它只能接受固定输入大小的图像，因此在后续任务中阻碍了其性能。随后，gMLP [39] 提出了空间门控单元以增强信息整合，FNet [32] 指出token混合可以被傅里叶变换所取代，HireMLP [18] 将输入分割成区域并在其中交换元素以模仿自注意力机制，ResMLP [60] 使用三个可训练的矩阵来代替LayerNorm [1]，sMLP [76] 应用移位操作，WaveMLP [58] 用复数表示像素并认为token图也是可训练的，ViP [23] 应用一个排列器来沿水平和垂直轴捕捉空间信息，而MorphMLP [79] 修改了沿着相同轴逐渐扩大感受野的方法等。

然而，上述MLPs并未显著降低计算复杂度，从而为SparseMLP [57]、ASMLP [36]、CycleMLP [6] 和ATM [69] 留下了空间。SparseMLP和ASMLP沿着通道维度密集地执行token混合。相比之下，CycleMLP提出了带有修改但固定的偏移量和的Cycle FC，以执行通道方式的稀疏token混合。值得注意的是，ATM [69] 设计了类似但可训练的偏移量，以实现具有动态感受野的token混合。然而，这四种方法将token混合限制在一对交叉线内，仅沿着水平和垂直轴进行有限的特征信息整合。

为了解决这些问题，我们引入了SpiralMLP ，其特点是名为Spiral FC 的改进全连接层，它建立在图1（a）所示的Channel FC之上。Spiral FC不仅确保了感受野内的全面感知，还保持了线性的计算复杂度。本文的结构安排如下：

我们提供了对SpiralMLP架构的全面描述。
我们进行了实验来突出SpiralMLP与其他现有技术水平（SOTAs）相比的优势，并进行了消融研究来探索Spiral FC的功能，并讨论最优配置。
我们提供了我们方法的总结，并附上了对未来研究的见解，以解决现有的局限性。

2 Methodology

Spiral FC

我们旨在设计一个具有尽可能小的尺寸但仍能在其感受野内捕捉全面空间信息的标记混合层。在比较了上述利用交叉全连接层的架构之后，我们认为这些设计未能充分利用偏移函数。因此，尽管参数数量较多，它们仍未能在其感受野内封装足够的空间信息。

为了降低计算复杂度并提高对多样化输入尺寸的适应性，我们从自然螺旋形状和Attention-Viz [75]中获得灵感，在Transformer注意力层可视化中观察到了独特的螺旋模式。因此，我们提出了螺旋全连接层 （简称Spiral FC ）1。这项创新旨在替代MLP-Mixer架构中的普通标记混合（方程(1)）。如图1(b)所示，Spiral FC不是像Channel FC那样直接进行卷积，而是在特征图内采用螺旋轨迹 ，将各种特征纳入计算，其公式如下：

其中，，是可训练的矩阵和偏置，Spiral FC是在位置的输出。和分别沿着轴在内作为偏移函数。此外，随着螺旋轨迹的中心轴沿通道维度对齐，偏移函数和以螺旋方式定义：

其中，是恒定的周期，是控制螺旋轨迹宽度的振幅。为了简洁起见，我们用基本模式2表述振幅函数：

其中，是最大振幅。当时，Spiral FC与Channel FC相同，称为Self-Spiral FC 。相反，当时，它被称为Cross-Spiral FC 。此外，我们采用了一个步长为1的滑动窗口。它不仅使Spiral FC对输入尺寸无关，而且通过仔细修改偏移函数（方程(4)和(5)），还实现了灵活的特征提取，从而确保Spiral FC以线性计算复杂度运行。

Spiral Mixing

在特定的位置，自旋式全连接（Self-Spiral FC）捕获自身的局部信息，产生一个输出表示为。相反，交叉旋式全连接（Cross-Spiral FC）选择性地融合由确定的可接受域内的空间信息，其输出表示为。在整个特征图上，自旋式全连接和交叉旋式全连接并行操作，它们的输出，和，在后续的Merge Head3 中合并在一起：

其中，Reshape函数将输入的前两个维度展平，沿着维度创建一个新的投影。然后，这个新生成的投影被平均到。随后，将这个平均值从映射到。最后，SoftMax函数确定权重。在位置，Merge Head生成输出：

其中，表示元素乘法。权重用于调节输入的贡献。此外，在整个上，权重被广播以影响和中的所有元素。

总的来说，自旋式全连接、交叉旋式全连接和Merge Head共同构成了Spiral Mixing ，如图2（c）所示。Spiral Mixing将输入特征图转换为，其功能类似于普通Token Mixing。

Spiral Block

螺旋混合的输出随后进入通道混合 ，后者被构建为一个带有GeLU 激活函数的多层感知机（MLP）：

其中，和是线性层的权重矩阵。是通道混合的输出。

螺旋混合和通道混合共同构成了螺旋块 ，如图2（b）所示。概括来说，螺旋块接受特征图作为输入，并在螺旋混合之前通过一个层归一化（LayerNorm）[1]对其进行初步处理。然后，它通过残差连接生成。接下来，通过另一个层归一化处理，然后是通道混合，并伴随另一个残差连接，最终产生输出：

螺旋混合通道混合

Overall Architecture and Model Zoo

我们首先基于PVT [68]框架构建了我们的SpiralMLP ，通过调整超参数，模型规模从SpiralMLP-B1 扩展到SpiralMLP-B5 。在每个模型中，集成了4个阶段，空间分辨率在过程中逐渐降低，同时通道维度增加。这使得空间分辨率的有效下采样成为可能，并优化了计算效率。PVT风格的SpiralMLP架构图可以在图2（a）中找到。

picture.image

此外，我们还开发了基于Swin架构的变体。这些模型分为三种类型：SpiralMLP-T（微型） 、SpiralMLP-S（小型） 和SpiralMLP-B（基础） 。PVT风格和Swin风格的结构细节将在附录中进一步提供。

3 Experiments

我们最初在CIFAR-10 [29] 和 CIFAR-100 [29] 上对 SpiralMLP-B1 进行实验，将其与规模相似的建筑结构进行比较，包括MLPs、CNNs和Transformers。结果展示在表1中，所有模型都是从头开始训练的。

picture.image

我们将实验范围扩展到包括在 ImageNet-1k [50] 上的图像分类，以及在 COCO [38] 上的物体检测和实例分割。此外，我们还评估了它在 ADE20K [82] 上的语义分割能力。

Image Classification on ImageNet-1K

3.1.1 Settings

我们的实现主要借鉴了DeiT [61]。训练在一个由4个NVIDIA A100 GPU组成的集群上进行，总共训练300个周期。整体批处理大小为512，并且我们使用Top-1准确率进行图像分类。

3.1.2 Comparison with MLPs

如表2所示，SpiralMLP-B在输入分辨率为的ImageNet-1k数据集上达到了84.0%的Top-1准确率。这一性能显著超过了ATMNet-L [69]，HireMLP-Large [18]，WaveMLP-B [58]，MorphMLP-L [79]和CycleMLP-B [6]中表现最佳的模型，分别高出+0.2%，+0.2%，+0.4%，+0.6%和+0.6%。此外，与拥有类似模型大小（7100万参数）的SMLP-wide [76]相比，仅有6800万参数的SpiralMLP的准确率高出+4.0%。除了在模型大小上的优势外，SpiralMLP还在计算效率和准确度之间展示了潜在的平衡。

picture.image

很明显，在准确率超过83%的一系列模型（包括ATMNet-L [69]，HireMLP-Large [18]，WaveMLP-B [58]，MorphMLP-B [79]，MorphMLP-L [79]，CycleMLP-B [6]，CycleMLP-B5 [6]，sMLP-B [57]和ASMLP-B [36]）中，SpiralMLP-B5因其更低的11.0G FLOPs和最高的准确率而脱颖而出。

3.1.3 Comparison with other SOTAs

螺旋MLP在与Transformer、卷积神经网络（CNN）和状态空间模型进行比较时仍具有竞争力，尤其是在显著减少参数数量和浮点运算（FLOPs）方面，如表2中所引用。例如，将螺旋MLP-B5与CNN进行比较时，它的性能比VanillaNet-13-1.5 [4]高出1.5%，与DeepMAD-89M [51]相当。在状态空间模型与螺旋MLP-B4以及螺旋MLP-S之间的比较中，螺旋MLP显示出大约4.0%的性能提升。此外，与Transformer进行比较时，螺旋MLP-B5的参数数量比Swin-B [42]少近2000万个，同时准确度高出0.5%。特别是视觉Transformer仍然面临二次复杂度的问题。为了更好地展示，我们在图3中可视化了与ASMLP [36]和Swin [42]性能比较的热力图。

picture.image

Object Detection and Instance Segmentation on COCO

设置我们在COCO [38]上进行了目标检测和实例分割实验，其中我们展示了带有PVT和Swin架构的SpiralMLP，采用了两种不同的配置。我们利用在ImageNet-1k [50]上预训练的SpiralMLP-B5和Spiral-B作为主干网络，并在新增加的层上应用Xavier初始化[16]。

3.2.2 结果

picture.image

比较结果详见表3，我们分别使用RetinaNet [37]或Mask R-CNN [19]作为检测框架。在RetinaNet 条件下进行比较时，SpiralMLP-B5在AP方面表现最为突出。特别是，它比PVTv2-B5高出+0.3%，同时减少了11.9M个参数。在Mask R-CNN 的背景下，SpiralMLP-B在AP上比ATMNet-L高出+0.4%，同时模型参数减少了6.9M。目标检测和实例分割的可视化表示在图4中呈现。

picture.image

Semantic Segmentation on ADE20K

3.3.1 Settings

我们在ADE20K数据集上使用UperNet [70] 和Semantic FPN [26] 作为框架进行语义分割。对于主干网络，我们采用在ImageNet-1k上预训练的SpiralMLP-B5和SpiralMLP-B。此外，新添加的层使用Xavier [16] 初始化。

3.3.2 结果

picture.image

如表4所示，当SpiralMLP与Semantic FPN和UperNet集成用于语义分割任务时，仍展现出相当的性能。在Semantic FPN评估中，SpiralMLP-B5超过了其最近的竞争对手PVTv2-B5，高出0.2%，并且比排名第二的模型ATMNet-L高出0.6%。当与UperNet集成时，SpiralMLP-B仍然是最优秀的模型，比FocalNet-B(LRF) [72] 高出0.2%，比ATMNet-L [69] 高出0.6%。图5展示了语义分割的可视化表示。

picture.image

4 Ablation

Update the Offset Functions

偏移函数和（方程（4）和（5））最初设计为两部分模式，我们将它们进一步扩展到更通用的多部分模式。为了整合这个更新，我们引入作为沿通道维度的分区数。分区可以定义如下：

通过引入并考虑单个分区，我们可以创建多个螺旋结构，捕捉沿通道维度每个分区的特征。此外，我们将分区的长度定义为，这是两个相邻端点之间的距离，然后振幅函数方程（6）更新为：

其中，表示在分区（方程（12））中的第分区，而方程（6）中的被替换为第分区内的。相应地，方程（4）和（5）更新为：

我们还提供了方程（14）和（15）的可视化，如图6（a）所示，展示了不同分区数的变化。

picture.image

Ablation Study on

在更新了偏置函数和（方程式（14）和（15））后，我们评估了当分区数量取不同值时，变体在ImageNet-1k上的Top-1准确率。这些结果在图6（b）中展示，其中最大振幅固定为3。趋势表明，与相关的准确率曲线最初是上升的，在时达到峰值，之后逐渐下降。

这一现象的可能解释是，的变化影响了对感受野边缘区域的重视，意味着调节了边缘特征点的集中度。如图6（a）所示，当设置为2时，感受野边缘的特征点比时更加密集。过小的值会导致特征点密集而狭窄地排列，而过大的值会使特征点更广泛地分散，可能会损害模型的性能。

Ablation Study on

我们研究了最大振幅取不同值时的几种情况。从图6（c）中显示的结果来看，当的值在初始阶段变化时，ImageNet-1k上的Top-1准确度有所提高。然而，当超过3时，准确度明显下降。其背后的原因是，随着的增加，感受野的范围扩大。但是，由于螺旋完全连接（Spiral FC）的特性，选择的特征点数量在上保持恒定。因此，较大的导致特征点的分布更加稀疏。如果过小，螺旋完全连接可能无法包含足够数量的邻近特征。另一方面，如果过大，螺旋完全连接可能无法有效地捕捉感受野内的详细信息。

尽管离散的实验设计并不能保证发现最优的超参数，但它确实有助于理解潜在的规律和趋势。

Ablation Study on Fully-Connected Layers

为了说明Spiral FC的有效性，我们使用SpiralMLP-B14作为基础架构，在CIFAR-10 [29]数据集上进行了实验。在这些实验中，我们将Spiral FC替换为各种替代方案，包括来自WaveMLP [58]的PATH、来自ATM [69]的ATMLayer、来自CycleMLP [6]的CycleFC以及一个RandomFC。Random FC在架构上与Spiral FC相同，不同之处在于偏移函数是随机生成的。

延迟分析

picture.image

为了强调Spiral FC的速度效率，我们评估了它与其他提出架构在不同输入分辨率下的性能。我们采用了EfficientFormer [35]的格式，并在表6中详细说明了延迟分析。我们展示了SpiralMLP-B4和SpiralMLP-B5与其他与我们的研究密切相关的架构，特别是在分辨率下。为了在不同场景中进行全面的延迟比较，请参考附录。

5 Conclusion and Future Work

在本研究中，我们提出了多功能的螺旋全连接（Spiral FC），这是螺旋混合（Spiral Mixing）的一个关键组成部分，旨在替代传统的令牌混合（vanilla Token Mixing）。基于这一创新，我们开发了SpiralMLP，这是一个适用于计算机视觉任务的新主干网络，兼容PVT风格和Swin风格架构。在一系列涵盖图像分类、目标检测、实例分割和语义分割的实验中，SpiralMLP与现有最先进的模型保持竞争力，在参数数量更少、计算复杂度（以FLOPs衡量）降低和延迟速度提升方面取得了成就。

据我们所知，我们是第一个精心设计偏移函数以可能捕获感受野内最全面特征信息的团队。这种方法与之前的工作如CycleMLP [6]、ASMLP [36]和ATM [69]有显著区别，后者主要专注于优化静态或动态的十字形全连接层。

SpiralMLP的出色表现促使我们进一步研究其超参数优化，并探索其动态版本，这有望简化结构并在其感受野内更高效地捕获信息。

CNN-Based

长期以来，基于卷积神经网络（CNN）的架构在计算机视觉领域占据主导地位。CNN的原型在[31]中提出，在AlexNet[30]取得激动人心的成功之后，大量方法采用了CNN架构以获得更高的性能[52, 55, 20]。特别是ResNet[20]，利用层间的残差连接来减轻梯度消失的问题。由于CNN采用了分层结构，可以有效从局部感受野中提取丰富的信息。然而，尽管具有优势，CNN在某些方面仍表现出局限性，尤其是在捕捉全局上下文信息和归纳偏置方面，这些都有可能阻碍CNN在下游任务中的应用。

Transformer-Based

基础工作[66]针对基于Transformer的架构提出了用于提取空间位置特征之间关系的注意力机制。在自然语言处理领域取得开创性成就的BERT[12]之后，众多方法借鉴了基于Transformer的架构以实现更高级的性能[2, 3, 14, 40, 42, 45, 48, 49, 54, 63, 64, 74]，这些方法既应用于自然语言处理，也应用于计算机视觉。特别值得一提的是，借助自注意力机制，Vision Transformer[14]促进了长距离依赖关系的处理，表明基于Transformer的架构具有提取全局上下文理解的能力。

尽管在各个领域都取得了显著的成就，但Transformer确实存在一些需要考虑的缺点。SoftMax是造成其计算负担沉重的主要原因。此外，其可扩展性不仅受到二次计算复杂度的阻碍，还受到对大量数据集和显著内存消耗的需求的限制。

Appendix 0.B Compare SpiralMLP to CNNs and MHSA

为了建立多头自注意力 （简称MHSA ）与SpiralMLP 之间的比较，有必要展示MHSA与卷积神经网络 （简称CNNs ）之间的关系。这是因为，与MHSA不同，SpiralMLP没有融入自注意力层，而更接近于CNNs。

通过考察MHSA与CNNs之间的联系，我们可以全面理解MHSA与SpiralMLP在架构上的差异与相似性。这将使我们能够突出每种方法的独特特征和优势。

因此，我们按照以下小节进行概述：

我们首先阐述SpiralMLP与CNNs之间的关系。
然后我们利用Coronnier [9]的证明来绘制MHSA与CNNs之间的关系。
最后，我们提供了MHSA与SpiralMLP之间的比较。

How is SpiralMLP related to CNNs?

为了展示卷积神经网络（CNNs）的功能，我们定义了标准的卷积权重矩阵为，其中、、、分别代表核的高度、宽度、输入通道维度和输出通道维度。给定特征图中的位置，其中、分别表示高度和宽度，而定义为一个矩形中的坐标集合，对应于核。

因此，卷积操作可以表述为：

其中，是CNN的偏置，整体输出在每个位置是一个向量。

接下来，我们用通道维度上的求和替换方程式 (16) 中和之间的点积，得到：

之后，我们改变求和的顺序，得到：

螺旋MLP与卷积神经网络（CNN）的关联？ 第二部分

为了将方程（18）与螺旋全连接（FC）（方程（3）至（5））联系起来，我们首先定义一个函数：

然后我们将方程（19）应用于CNN的卷积核权重，得到：

接下来，我们用方程（20）中的权重替换方程（18）中的权重定义：

其中，和已在方程（3）中介绍。

因此，我们已经展示了如何从卷积中推导出螺旋全连接（Spiral FC）。

值得注意的是，方程式（19）到（21）揭示了螺旋全连接在卷积操作中假设了稀疏性，这表明了它相对于传统密集卷积层的潜在优势和独特特性。

How is MHSA related to CNNs?

为了表述清楚，每个头的多头自注意力权重矩阵表示为，偏置表示为。此外，指的是每个单独的头，而表示头的总数。将MHSA应用于位置的输入的过程可以排列为：

其中，描述了与第个头对应的输入通道的划分，并且它被包含在每个头的计算中。

而在文献 [9] 中，证明了MHSA 可以以类似于卷积神经网络（CNNs）的方式表示：

其中，所有相对位置偏移都包含在大小为的核在位置的中。

How is SpiralMLP related to MHSA?

通过类似于等式（20）的方法，我们通过卷积神经网络（CNNs）建立了MHSA与SpiralMLP之间的联系。首先，我们将通过乘以等式（19）进行增强，得到：

其中，依赖于核的高度、宽度和输入通道沿线的位置。将其代入等式（23）：

其中，和在等式（3）中已有介绍。

等式（25）展示了Spiral FC与MHSA之间的关系。与CNNs与Spiral FC之间的关系相类比，我们可以得出Spiral FC相比于MHSA具有显著更稀疏的感受野。这突显了Spiral FC在其稀疏注意力机制方面与MHSA的密集注意力机制相比的独特特性。

Appendix 0.C Model Zoo and Training Details

Model Zoo Configurations and Performances

我们根据PVT风格实现了五个模型，分别命名为SpiralMLP B1 至B5 ，以及基于Swin风格的三个模型，分别命名为SpiralMLP-T 、SpiralMLP-S 、SpiralMLP-B 。

PVT风格的SpiralMLP变体在表7中详细列出。每个阶段包含多个配置统一的Spiral Blocks，其中参数、、和分别表示每个阶段的移位大小、扩展比率、通道维度和层数。

picture.image

Swin风格的SpiralMLP变体在表8和图7中展示。输入图像尺寸为。过程'concat '指的是将来自相邻特征图的特征进行拼接。这一操作有效地将特征图下采样了倍。表示'96-d'的符号代表一个输出维度为96的线性层。在项[(3,2), 96]中，指示，，。

picture.image

Experimental Setup for Image Classification

我们将在ImageNet-1k [50] 上训练我们的模型，该数据集包含大约1.2百万张图片。我们的准确度报告是在包含大约5万张图片的验证集上的标准Top-1准确度，这些图片均匀分布在1000个类别中。我们实现的代码受到CycleMLP以及DeiT的启发，并使用Pytorch编写。我们的增强策略包括RandAugment [10]，Mixup [80]，Cutmix [78]，随机擦除 [81] 和随机深度 [24]。使用的优化器是AdamW [44]，学习率为，动量为0.9，权重衰减为。

Experimental Setup for Object detection and Instance Segmentation

对于目标检测和实例分割实验，我们在包含118k训练图像以及5k验证图像的COCO [38] 数据集上训练我们的模型。我们使用了mmdetection工具箱[5]，并采用RetinaNet [37] 和 Mask R-CNN [19] 作为框架，以SpiralMLP变体作为骨干网络。权重初始化使用来自ImageNet-1k的预训练权重，新增加的层使用Xavier [16] 初始化。优化器为AdamW [44]，学习率为e-4。图像的短边被调整到800像素，同时限制图像的高度和宽度最大为1333像素。模型在4个A100 GPU上以32的批处理大小训练12个周期。

Experimental Setup for Semantic Segmentation

语义分割在ADE20K数据集[82]上进行，该数据集包含2万张训练图像和2千张验证图像。为此使用的框架是Semantic FPN [26]和UperNet [70]，以SpiralMLP结合ImageNet-1k预训练权重作为主干网络。在优化方面，选择了AdamW [44]优化器。在Mask R-CNN的情况下，优化器的初始学习率设置为0.0001，权重衰减为0.05。对于Semantic FPN，使用相同的初始学习率0.0001，但权重衰减较低，为0.0001。训练过程在4个A100 GPU上进行。整个过程中保持批量大小为32，模型训练12个周期。

How does the Merge Head Work?

在方程（7）中，合并头（Merge Head）使用可训练权重来确定来自通道全连接（Channel FC）的和螺旋全连接（Spiral FC）的的贡献。为了更清晰地理解，我们在表9中展示了合并头中每一步的张量形状。合并头并非仅采用简单的相加，而是创新性地考虑了输入本身来制定可训练权重。这种方法允许更动态和响应输入的权重调整，从而增强合并过程的有效性。

picture.image

Complexity of Merge Head.

两个输入的形状均为。加法操作的复杂度为。而Reshape操作通过 torch.flatten() 实现，其复杂度为。平均计算通过 torch.mean() 实现，复杂度为。乘法操作涉及到，其贡献的复杂度为。因此，这一过程的总体复杂度是线性的，为。

Appendix 0.E Why Spiral FC works?

方程（21）表明，SpiralMLP以及其他交叉MLP可以有效地通过一个专门的卷积层来实现。目前，可变形卷积[11]已成为这一目的的最优方法。

picture.image

在如图8所示的给定场景中，点被识别为，，，和，所有这些点都位于特征图上。具体来说，当考虑作为参考点时，点和被归类到集合中。这个集合包括那些与参考点水平或垂直对齐的点对。点属于集合，该集合包括那些可以位于特征图内任何位置的点对。然后集合和集合定义如下：

我们进一步表示为卷积层的输出，而仍然是特征图，这与方程（21）类似：

其中，表示通用偏移函数。

我们以具有交叉偏移函数的两个架构为例。当使用CyelcMLP[6]为例时，偏移函数更新为：

其中，是预定义的步长。

当使用ASMLP[36]时，偏移函数更新为：

其中，是移位大小，是膨胀率。

在图8（a）中，集合中的点和可以通过偏移函数和到达，因为它们沿着水平或垂直轴放置。然而，如图8（b）所示，那些不在这些轴上的点对交叉方法构成了挑战，这种方法本质上缺乏有效捕捉这种空间信息的能力。

为了解决这一限制，图8（c）建议采用预定义的多螺旋偏移方法。这种方法虽然有效，但在模型的大小和计算速度方面仍需优化以达到模型效率。一个可行的解决方案是将多螺旋偏移细化为螺旋状偏移函数。这种调整不仅使模型能够识别集合中的点——那些与水平或垂直轴不对齐的点，而且保持了紧凑的模型架构，并确保了快速处理速度。

Appendix 0.F Latency Analysis

我们在一台A100上针对不同的架构评估了输入分辨率为、和时的延迟速度。这些结果在表10中详细列出。很明显，在考虑模型规模时，螺旋MLP（SpiralMLP）的速度快于其他基于MLP的模型。此外，PVT [67]展示了更快的处理速度，这主要得益于其对点积操作的利用，从而内在地受益于加速计算。用于评估的模型是直接从它们官方实现中提取的。

picture.image

Appendix 0.G Spiral in AttentionViz

在论文AttentionViz中，作者引入了一种可视化工具，用于分析Transformer模型，特别是关注不同头和层之间键（keys）与查询（queries）分布之间的交互作用。他们研究中的一个显著发现是识别出一种螺旋状的模式。这种模式表明，Transformer模型中的键和查询在空间上以一种类似螺旋的方式对齐。这一现象源于使用三角函数生成的位置向量，在高位空间中映射成螺旋曲线。在语言模型中，这指的是单词或单词部分的排列方式；而在视觉Transformer中，它涉及到像素块的组织方式。