Perceiver | 超越ViT与ResNet，利用潜在单元构建个注意力瓶颈成就性能更好的感知器 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

感知器在其内存和计算时间上具有二次可扩展性，几乎没有对其输入之间的关系做出架构上的假设。实际上，感知器模型在某种程度上在准确性上超过了或与ResNet-50和ViT具有竞争力。然而，感知器没有考虑到预测不确定性和校准。感知器还在三个数据集、三种模型、一个评估指标和一个超参数设置上泛化了其性能。最糟糕的是，感知器与其他模型相比，相对性能提升微乎其微。此外，它减少的架构先验并不实质性；并不等同于其质量。

因此，作者发明了五种感知器的变体，即不确定性感知感知器，它们获得不确定性估计，并在三个指标上测量了它们的性能。在CIFAR-10和CIFAR-100上进行实验，不确定性感知感知器与感知器相比，在性能上有显著的提升。

1 Introduction

Perceiver采用了一种基于Transformer的单一架构来操纵不同模态的不一致排列。例如，与2D卷积操作相比，Transformers对输入网格结构所做的模态特定假设要少得多。凭借其Transformer层，Perceiver不仅为任意输入设置保持了表达性和灵活性，还能处理高维输入。

具体来说，Perceiver通过利用一组很小的潜在单元构建了一个注意力瓶颈。这个瓶颈消除了传统Transformer的自注意力模块的二次方缩放问题，并在建立非常深层的模型时，移除了网络深度与输入大小之间的紧密联系。Perceiver通过反复关注输入，将其有限的容量传递给最相关的输入。

然而，在多模态环境中，空间或时间信息对于许多模块来说至关重要，它们需要这些信息来区分来自不同模态的输入。因此，Perceiver通过将位置和模态特定特征与每个输入元素关联起来，来补偿其架构中显式结构的缺失。这种关联类似于用位置和模态的高保真表示来标记输入单元。

不可否认，当在ImageNet上进行多变量分类训练时，Perceiver的性能与ResNet-50和ViT相当。它还在AudioSet的音频和视频声音事件分类任务以及ModelNet-40点云分类上展现出竞争性的性能。然而，未来的发展肯定需要更多的证据和思考。

首先，当模型进行没有根据的猜测时，Perceiver不考虑概率。因此，Perceiver不能很好地估计校准良好的不确定性，并且倾向于产生过于自信的预测。过于自信且错误的预测可能是破坏性的或侮辱性的；因此，适当的不确定性量化对Perceiver具有决定性的影响。

其次，Perceiver轻率地忽视了这样一个事实：其在三个数据集上的性能并不能推广到所有数据集、超参数、模型和评价指标上。确实，在ImageNet、AudioSet和ModelNet-40上，Perceiver的准确度要高于ViT和ResNet-50。然而，它在不同的数据集上的表现如何呢？这三个模型的超参数是最优的吗？它的表现是否优于Coca、CoAtNet-7、ViT-G/14等其他最先进的模型？在贝叶斯或频率派性能评价指标上，比如负对数似然、Brier分数等方面，它的表现是否更好？

第三，Perceiver的性能尚不足以证明其有效性。例如，Perceiver的验证准确率仅比ViT-B-16高0.1%。仅仅通过超参数调整或隐藏层大小的改变，就可以实现0.1%的验证准确率提升。此外，在AudioSet上，CNN-14的mAP高于Perceiver；在ModelNet40上，PointNet++的表现优于Perceiver。因此，Perceiver并没有表现出卓越的性能。

最后，在Perceiver中减少架构先验既不是实质性的，也不能等同于其质量。具体来说，在ImageNet上表现最佳的Perceiver模型使用了傅里叶特征位置嵌入，这是一种归纳偏置。此外，移除这种位置假设会降低Perceiver在经过排列的ImageNet上的验证准确度。而且，模型中的一些归纳偏置与其性能、延迟和吞吐量相比显得微不足道。

简而言之，由于上述提到的证据不足，感知器（Perceiver）的优势让人难以信服。为了细致地改进，感知器需要考虑其他可能带来更好性能和架构的因素。通过全面审视与感知器相关的各种角度和因素，可以得出感知器还有改进空间的结论。

因此，作者添加了负对数似然和期望校准误差作为评估标准，并进行了密集的超参数调整。作者还从各处寻找新思路，并对不确定性感知接收器（Uncertainty-Aware Perceivers）进行了创新，以缓解接收器（Perceiver）的不足。不确定性感知接收器在训练或测试阶段估计预测不确定性，以减少不确定性对优化的影响。不确定性感知接收器有五种变体：Deep-Perceiver、SWA-Perceiver、Snap-Perceiver、Fast-Perceiver 和 MC-Perceiver。

在CIFAR-10和CIFAR-100上训练的不确定性感知Perceivers比Perceivers取得了更好的性能，除了在CIFAR-10上的MC-perceiver之外；深度Perceiver甚至在两个数据集上超过了ViT和ResNet-50。

2 Related Work

Perceiver

2.1.1 Architecture

Perceiver架构的组成部分分为两个方面：交叉注意力模块和Transformer塔。这两个元素的输入是字节阵列和潜在阵列。字节阵列由输入数据决定，而潜在阵列是一个超参数。交叉注意力模块使用字节阵列和潜在阵列来构建潜在阵列。另一方面，Transformer塔以潜在阵列作为输入输出潜在阵列。Perceiver交替使用交叉注意力和Transformer。Perceiver还可以选择在每个Transformer塔出现时共享权重（图1）。

picture.image

2.1.2 Cross-Attention

交叉注意力运用了 Query -键-值（QKV）注意力机制。然而，输入序列的长度（M）通常非常大。因此，交叉注意力通过给注意力机制添加不对称性，直接应用于输入。简而言之，K和V是输入字节数组的投影；但是，Q预测了一个学习的潜在数组，其索引维度为N M，其中N是一个超参数。因此，交叉注意力操作的复杂性为O(MN)。

2.1.3 Latent Transformer

潜在的Transformer具有O()的复杂性。潜在Transformer的低成本使得Perceiver能够拥有比传统Transformer更深层次的网络，后者的复杂度为O(LM)，在此其中N M。此外，潜在Transformer采用了GPT-2架构（Radford等人[6]），该架构利用了Transformer解码器。

2.1.4 Iterative Cross-Attention

Perceiver模型由多个交叉注意力层组成，其潜在数组通过这些层重复提取信息。这些冗余层平衡了成本较高但信息量丰富与成本较低但冗余的交叉注意力。尽管更多的交叉注意力会增加内存使用，但它们能带来更优的性能。

2.1.5 Weight Sharing

Perceiver通过在每一个潜在Transformer的对应块之间以及交叉注意力之间共享权重，提高了模型的参数效率。如果仅使用单个交叉注意力，潜在的自注意力块仍然可以共享。这种权重共享将传统Transformer的参数数量减少了90%。最令人惊奇的是，权重共享在减少过拟合的同时提升了验证性能。最终得到的架构具有RNN的功能形式。

2.1.6 Positional Encoding

Perceiver使用了傅里叶特征位置嵌入。傅里叶特征位置编码直接表示输入数据的时间和空间结构。傅里叶特征位置编码独立于截止频率来控制频带。傅里叶特征位置编码均匀地采样到目标分辨率内的所有频率。

3 Methods

Deep-Perceiver

Deep-Perceiver采用了基于随机化的集成方法，因为这种方法更适合于类似于Deep Ensemble的并行和分布式计算。Deep-Perceiver使用整个训练数据集进行训练，因为更多的数据点可以提高深度神经网络的性能。Deep-Perceiver采用数据点的随机Shuffle和参数的随机初始化。Deep-Perceiver将集成看作是统一加权混合模型，并将预测合并为。这个过程等同于对预测概率取平均。在平均之前，Deep-Perceiver的置信度通过温度缩放（Temperature Scaling）进行校准。

SWA-Perceiver

SWA-Perceiver采用循环学习率，并简单取AdamW轨迹上多个点的平均值，类似于随机权重平均。 - SWA-Perceiver模型 - 可以用传统的训练程序进行减少或完整的训练预算训练。SWA-Perceiver可以在不改变学习率计划的情况下提前停止训练。从开始，SWA-Perceiver使用循环学习率开始训练，以捕获学习率最小值的学习模型。因此，SWA-Perceiver相比于Perceiver能带来更好的泛化能力。它还指导寻找比AdamW找到的最优解更宽、更平坦的解。

Snap-Perceiver

Snap-Perceiver采用了快照集成的方法，以实现在不增加额外训练成本的情况下集成Perceiver的矛盾目标。Snap-Perceiver训练单一的神经网络，在优化路径上收敛到各种局部最小值。为了快速收敛，Snap-Perceiver利用循环学习率计划。在每次训练周期结束时，Snap-Perceiver关于训练损失达到一个局部最小值。因此，在提高学习率之前，Snap-Perceiver会对其权重进行“快照”。在测试时，Snap-Perceiver平均最后m个模型的Softmax输出（图2）。

picture.image

Fast-Perceiver

快速感知器（Fast-Perceiver）运用快速集成（Fast Ensemble）来寻找各模式间的高准确度路径。快速集成寻找简单的曲线以连接损失函数的极值点。受到这种几何洞见的启发，快速感知器在训练单个模型所需的时间内训练集成模型。例如，快速感知器初始化一个网络副本，其权重 w 设定为已训练网络的权重。然后，快速感知器调整循环学习率计划以迫使 w 从移开，同时不造成性能下降。

MC-Perceiver

MC-Perceiver利用蒙特卡洛丢弃训练来在Perceiver中近似贝叶斯推理。MC-Perceiver从Perceiver中提取被放弃的信息以建模不确定性。在训练和测试时，MC-Perceiver会以一定的概率（）将输入图像的像素随机设置为0。在其测试阶段，MC-Perceiver 生成丢弃的样本并将它们平均作为预测。这个过程缓解了在Perceiver中展示不确定性的困难（图4）。

picture.image

4 Experiments

为了衡量Perceiver的泛化性能，作者在RTX 3090 D6X 24GB上复现了Perceiver、ViT和ResNet-50作为在CIFAR-10（表1）和CIFAR-100（表2）上的 Baseline 。从经验上讲，对于Perceiver来说，批处理大小为4，学习率为5e-6时性能最佳。尽管在CIFAR-10上，带有傅里叶特征位置嵌入的Perceiver在三款模型中性能最佳，但在CIFAR-100上，ViT明显超越了Perceiver和ResNet-50。

picture.image

在上述相同的超参数设置下，作者在Deep-Perceiver、SWA-Perceiver、Snap-Perceiver、Fast-Perceiver和MC-Perceiver上进行了实验。在CIFAR-10（表3）上，除了MC-Perceiver之外的所有模型都超越了 Baseline 。

picture.image

尽管这五种变体在CIFAR-100（表4）上都超过了Perceiver和ResNet-50，但只有Deep-Perceiver在CIFAR-100（图3）上的表现超越了ViT。

picture.image

作者对4个独立训练的具有随机初始化参数的Perceivers的Softmax输出进行了平均，以得到Deep-Perceiver的结果。然而，在Softmax输出之前的Perceivers的logits通过温度进行了缩放。是通过实际标签和logits之间的负对数似然，使用Nelder-Mead优化器确定的。Deep-Perceiver分别以1、2、3和4的集成大小运行。更多的集成带来了更高的准确度、ECE（期望校准误差）和NLL（负对数似然）（图4）。

对于SWA-Perceiver，使用了10个优化步骤将学习率从常数值5e-6转换到2e-6。在每5个优化步骤结束时，将权重快照添加到SWA的运行平均值中。相比之下，Fast-Perceiver使用了4个周期来逐步降低学习率从5e-6到5e-7。

循环学习率是用以下方程为Snap-Perceiver安排的，

在这里，是初始学习率。相比之下，MC-Perceiver 使用了一个恒定学习率的调度，该调度在取平均进行预测之前生成30个样本。

5 Conclusion

总之，感知器（Perceiver）的有效性和逻辑连贯性尚未令人完全信服。为了加强这一点，感知器需要包含更多的评估指标和概率优化。另一方面，作者提出的新型不确定性感知器（Uncertainty-Aware Perceiver）在保持高可扩展性的同时，考虑了校准的不确定性，其性能大幅提升。特别是，深度感知器（Deep Perceiver）在CIFAR-10和CIFAR-100上的表现均优于感知器（Perceiver）、ViT和ResNet-50。

在未来的工作中，作者希望能以一种基于特征和微调的方法对感知不确定性进行预训练。简而言之，作者希望在预训练阶段加入一个去噪变分自编码器或生成对抗网络，以进一步捕捉与输入相关的不确定性。

此外，作者还想将Perceiver中的Transformer架构转换为贝叶斯架构，以最小化其不确定性。更进一步，作者希望通过添加一个Brier分数来进一步判断不确定性估计，该分数定义为，其中如果，否则为0。

参考

[1].Uncertainty-Aware Perceiver.

点击上方卡片，关注「AI视界引擎」公众号