带有Transformer结构难训练？嵌入空间等价替换同时满足收敛和部署问题，完美方案 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

预训练的大型基础模型在人工智能近期的发展中起到了核心作用，这导致了在基准数据集、标准考试和应用中进行评估时，微调模型表现出卓越的能力。由于这些模型固有的复杂性，它们并未被充分理解。虽然这些模型对小的对抗性输入的反应是众所周知的，但尽管表示空间的架构具有根本的重要性，它们仍未被很好地描述。

在本文中，由于视觉 Transformer 输入空间的连续性，作者以此为例，通过分析和系统的实验表明，表示空间由大型的分段线性子空间组成，在这些子空间中存在非常不同的输入共享相同的表示，与此同时，还存在局部正则空间，其中视觉上无法区分的输入具有非常不同的表示。

通过使用底层模型的Lipschitz常数的局部方向估计，进一步验证了实证结果。因此，产生的表示改变了下游模型的结果，且这样的模型容易过度泛化，并在语义上有意义的泛化能力有限。

Introduction

建立在大型预训练基础模型之上，应用展现了前所未有的能力，适用于广泛任务，刷新了基准数据集上的最新技术水平，顺利通过了标准考试和专业考试。广义地说，应用有一个相对（非常）小的特定应用组件，它是在共享的基础模型上进行微调的。因此，作者关注基础模型及这些模型的输出，即所谓的表示，也称作嵌入。

Transformer （Transformers）已成为许多应用模型中的标志性组件，并带来了性能的显著提升，但关于底层嵌入的基本特性尚缺乏系统研究。给定一个模型的表示，为了理解其泛化和过度泛化，必须知道那些具有相同表示的输入等价类，因为下游应用会同等对待它们。同样，了解语义等价输入产生的嵌入特征也是至关重要的：如果这些输入可以具有非常不同的表示，那么所有应用基础模型的一致性泛化能力将受到限制。

众所周知，作为分类器的神经网络具有一种有趣的特性，即它们容易受到对抗性攻击：对输入进行一些小的改动可能会极大地改变分类器的输出。从概念上讲，这些输入是那些接近决策边界但与给定输入接近的；找到它们涉及到与分类器相关的优化问题，快速梯度符号方法及其相关变体等启发式方法通常很有效。然而，这些方法不能应用于研究模型给出的底层表示之间的等价性。

在本文中，作者通过基于梯度下降的优化过程实证展示了以不易察觉的方式干扰部署模型输入可以改变产生的表示以匹配任何选择的表示。此外，作者还展示了这些产生的输入将导致分类结果发生巨大变化，而无需对分类器进行任何修改。

picture.image

为了强调作者框架的关键结果，作者以ImageBind模型为例。图1展示了多幅图像及其表示和分类结果。图1中的三对视觉上无法区分的图像对：(a)和(e)，(b)和(f)，以及(c)和(g)（见图2的像素差异），它们的低维投影显示出非常不同的表示。

另一方面，尽管(e)、(f)和(c)在语义上差异很大，但它们的表示却非常相似；(a)和(g)则形成另一组。当作者把这些图像传递给未经修改的多模态ImageBind模型时，具有相似嵌入的图像被分类到相同的类别，无论它们在语义上有多么相似，如图1中的(d)和(h)所示。这些以及实验结果部分展示的额外结果表明，确实存在视觉上无法区分的输入具有非常不同的嵌入，同时也有非常不同的图像具有几乎相同的嵌入。

picture.image

通过估计局部方向Lipschitz常数的下界和Jacobian矩阵的结构，作者展示这类模型固有地容易受到对抗性攻击。请注意，作者的方法产生对抗性输入是副产品。通过分析基础模型嵌入的等价类，作者解决的问题与寻找对抗性输入的优化问题大不相同，因此作者的结果更具有普遍性，并不依赖于特定应用分类器。

作者的主要贡献如下：

作者清楚地展示了视觉 Transformer 嵌入空间的代数和几何结构。更具体地说，作者展示了输入空间由大的分段线性子空间组成，在这些子空间中，不同的图像拥有相同的表示，以及局部正规空间，在这些空间中视觉上无法区分的图像可能有非常不同的表示。
作者提出了寻找嵌入空间等价结构的有效计算程序，并在部署的模型中验证了其有效性。作为一个额外成果，作者能够识别出对表示产生影响的对抗性示例，这将影响所有下游应用。
作者展示了如何通过理解和克服大型模型的数值问题，稳健地估计局部方向Lipschitz常数。

Preliminaries

理解大型基础模型需要了解所有组成部分。然而，由于使用的参数数量，这些模型非常复杂。

为了克服挑战，作者将模型大致分为两个阶段：

一个对所有不同应用都共同的基础阶段
然后是一个特定应用阶段，包括分类器和其他特定应用组件

为了简化分析，作者假设基础模型阶段是固定的。由于作者关注的是视觉 Transformer ，这里作者首先从数学角度描述 Transformer ，然后再描述视觉 Transformer 。

Transformer可以用数学语言简洁地描述，它由一系列的Transformer块堆叠而成。一个Transformer块是一个参数化的函数类。如果，那么，其中。关键的多头自注意力是一个softmax函数，它逐行应用在内积上。

softmax的输出被用作计算新特征的权重，强调那些由softmax给出的权重较高的特征。

新的特性随后通过一层归一化处理，接着是一个ReLU层，然后是另一层归一化。通常， Transformer 层被堆叠以形成深层模型。这类模型用于自然语言处理任务，包括各种语言模型和机器翻译。

最近，通过在基本单元上使用图像块，将 Transformer 架构适配到视觉任务上，并通过自注意力机制捕捉单元之间的空间关系。由于图像可以平滑且连续地变化，这使得对嵌入空间的分析能够适合数学分析。例如，视觉 Transformer 通过在 Transformer 的输出上应用多层感知机，将图像块转换为嵌入。

尽管提出的方法适用于所有基于Transformer且输入为连续数据的模型，但作者专注于CLIP模型，该模型使用与ImageBind模型中相同的共享嵌入空间，联合地对图像和文本进行建模。

Proposed Framework

在这里，作者描述了一个框架，它使作者能够探索嵌入空间，分析其特性，并在大型模型中验证它们。通常，作者将由（深度）神经网络（包括 Transformer ）给出的表示建模为一个函数。

根本问题是要找到一个计算上高效且有效的方法，通过找到其表示将与给出的表示相匹配的输入，来探索表示空间中输入的嵌入。非正式地说，以图1中的蜥蜴图像为例，所有共享模型给出的表示的图像将被视为蜥蜴。

此外，作者想要了解表示的局部代数和几何结构；因为已知在神经网络的分类器模型中存在对抗性例子，作者想要知道表示是否存在对抗性例子。更重要的是，作者想要了解局部空间是如何连接的。

A Simple and Effective Procedure

请注意，找到与目标输入表示相匹配的输入要困难得多。由于作者需要匹配两个向量，因此作者将寻找与给定表示相匹配的输入的损失定义为：

其中是一个初始输入，而指定了目标嵌入。梯度由以下给出。

等式4展示了均值平方损失函数的梯度与表示函数在处的雅可比矩阵的关系。虽然通过求解二次规划问题或线性规划问题可以获得最优解，这取决于在最小化时使用的范数，但由于 Transformer 的雅可比矩阵，梯度函数在作者测试的所有情况下都有效。

在使用基于梯度下降的方法时，一个实际的难题是如何确定学习率。在 Transformer （transformers）的情况下，当模型在一个激活区域内移动时，可以用线性模型来近似该模型；注意，由于softmax的非线性，这种近似是近似的，其梯度是已知的。这个特性使得梯度方法非常有效。作者称这个过程为嵌入匹配过程。

Local Algebraic and Geometric Structures

给定输入，局部结构决定了模型在局部邻域中的行为；对于基于 Transformer 的模型，请注意在输入空间中局部邻域可以具有较大的空间范围。既然作者知道 Transformer 的非线性是由于使用了ReLU函数和softmax函数，那么在局部邻域中函数的线性近似应该是有效的，表示为：

在方程4中，是函数在处的雅可比矩阵。因此，对于部署的模型，其中，存在一个零空间，在该空间中，当输入变化时嵌入不会改变；可以通过雅可比矩阵的简化奇异值分解获得这个零空间。在垂直于零空间的一个正常空间里，嵌入可能会快速变化。为了量化一个表示对输入空间局部扰动的敏感程度，作者计算扩展局部利普希茨常数的精确估计，由最小的给出，使得方程成立。

在这段文本中，和指定了的可接受邻域。由于ReLU函数在0点处的导数未定义，该定义避免了这个问题。可以通过使用雅可比矩阵的最大奇异值来准确估计，作者同样通过数值方法进行了验证。

由于模型本身具有高维特性，其行为也取决于方向。为了量化这一点，作者也定义并估计了沿给定方向的局部方向Lipschitz常数（）。这个估计有助于表征模型沿该方向变化的快慢。由于可能位于甚至在ReLU网络中不同激活区域之间的边界附近，被定义为满足以下条件的最小数值：

在公式中，，是一个单位长度向量，指明方向，而是一个参数，规定了和的范围。估计的值及其分布使作者能够量化正常空间和零空间中的变化。

Manifold Structures of the Embedding Space and Their Implications

将所有内容综合起来，可以清楚看出嵌入空间由一些子空间组成，在这些子空间中，表示局部不发生变化，因此对于空间中的所有变化都是不变的；对于细微变化的的不变性是可取的，它导致了泛化能力，但其他变化的不变性将导致有害的过泛化。这些子空间共同构成了空间中的一个流形。由于ReLU是分段的线性函数，并且在激活区域内简化为线性函数，所以这个流形在本质上也是分段线性的，对应于激活区域。流形在局部是一个子空间，因此可以利用与Grassmann流形的关系正式地对它们进行描述[1]。

在本文中，作者采用了数值方法，并将形式上的探索留作未来的工作。也存在一些法线方向，输入的微小变化可能导致表示的巨大变化，使得模型不能很好地泛化，并容易受到对抗性攻击。变化率受到雅可比矩阵最大奇异值的限制，可以通过形式和数值研究来探讨。

虽然这个描述是高层次的，但作者通过使用CLIP模型[1]来实例化它，这是一个常被部署的视觉 Transformer 。此外，由于代数和几何结构并不依赖于某个模型的规格，作者预计与其他视觉 Transformer 以及其他可以估计雅可比矩阵的模型的结果应该是相似的。作者已经验证了这一点，并在实验结果部分和附录中提供了详细的见解。

Experiments

在本节中，作者首先提供了实验设置和实现细节的具体信息。作者提出的框架系统地应用于不同的数据集和多种视觉转换模型；在随后的子节中，作者将展示实验结果和定量结果。

作者的发现展示了通过视觉 Transformer 模型中的难以察觉的对抗性攻击，将任何图像与另一图像对齐的能力。更重要的是，作者展示了作者的框架具有灵活性，无论模型架构和数据集特性如何，都能保持有效。

Datasets and Settings

数据集。作者在广泛认可的视觉数据集上进行了大量实验，以评估作者提出的框架，这些数据集包括ImageNet，MS-COCO 和 Google Open Images。

实现细节。为了证明所提出方法在大模型上的可行性，作者使用了由ImageBind2公开提供的预训练模型，而这个模型又使用了CLIP模型3。

更具体地说，ImageBind使用了OpenCLIP中的预训练视觉编码器（ViT-H 630M参数）和文本编码器（302M参数）。输入尺寸为，嵌入的维度为1024。因此，雅可比矩阵的大小为。

Experimental Results

作者使用了大量的图像对来测试嵌入匹配过程。图5展示了一个典型例子，其中左图显示了在匹配特定目标嵌入时的损失演变情况。作者使用较小的步长以确保其收敛。右图显示了余弦相似度逐渐增加。同时，作者还展示了每步新输入与原始图像之间的平均像素值差异；可以看到，尽管这些值也在增加，但它们仍然非常小。该算法对学习率不敏感，并且在广泛的学习率范围内都能有效工作，范围从0.001到0.09。

picture.image

例如，当学习率为0.001时，大约需要25,000次迭代才能收敛，而0.09则大约需要3,000次迭代。生成图像的视觉差异并不明显。方程式4和5提供了解释，因为作者的损失梯度对学习率不敏感。作者将在GitHub4上提供所有实验的源代码。

定量评估。作者使用降维奇异值分解将雅可比矩阵写成的形式，其中表示矩阵转置操作符。图3中的顶部图表展示了图1(a)中雅可比矩阵的奇异值。奇异值的分布表明雅可比矩阵有几个主导方向，这反映了所使用的训练集和训练算法。

picture.image

请注意，最大的奇异值为作者提供了输入图像上的估计。它表明该模型沿着这些方向对微小变化很敏感。作者还沿着这些方向经验性地估计了值；结果展示在图的底部图表中。可以看出，这些值匹配得很好，表明线性模型在局部提供了良好的近似。

picture.image

图4（右上）展示了在零空间中随机生成的10,000个方向上估计的值的分布，这些值一致较小。相比之下，图4（左上）展示了在随机方向上的相同情况。请注意，当使用随机方向时，得到的方向是零子空间和正常空间的混合。如预期的那样，它们的值比零空间中的值大得多。图4（底部）展示了沿作者梯度优化过程给出的方向上估计的值。这些值比随机方向上的值大两个数量级，比零空间中的值大四个数量级，显示了该过程的有效性。

作为副产品，理解嵌入空间的代数和几何结构使作者能够有效地探索该空间。例如，作者可以使用所提出的梯度过程找到对任何给定图像嵌入的对抗性攻击。图1展示了三个示例。为了证明该过程的普遍适用性以及几乎无处不在的对抗性示例，图8展示了来自ImageNet数据集中不同类别的更多示例。附加示例见附录。

picture.image

定性评估。作者的关键结果是，由 Transformer 模型给出的嵌入的语义含义在本质上是有局限的，因为不同的输入拥有相似的嵌入，而视觉上无法区分的输入却拥有非常不同的嵌入。由于这些技术是模型和数据集无关的，它们应该对不同种类的 Transformer 模型和数据集都有效，包括其他模态的模型。

作者已经使用各种视觉 Transformer 模型进行了实验，包括HuggingFace5中类似MAE的模型，比如BEiT、DEiT、Swin、ViTMAE、ViTMSN，并且在图9中给出了两个示例。

picture.image

通常情况下，正如例子所示，所提出的技术能够很好地适用于从不同目标类别中任意选择的图像。此外，图3展示了雅可比矩阵的奇异值，揭示了原始图像与操纵图像之间在奇异值分布上的显著差异。

到目前为止，作者通过具体的例子展示了特定点的嵌入空间结构。作者的框架允许作者更广泛地探索路径和空间。图6展示了当输入从一幅图像改变为与指定目标匹配但视觉上无法区分的另一幅图像时，嵌入是如何变化的。该图显示了变化大致呈线性。

picture.image

与现有的对抗攻击方法相比，作者提出的框架一个显著特点是作者能够利用不同子空间之间的连接方式。图7展示了一个这样的路径示例。通过应用匹配查找过程，作者能够构建并连接不同的子空间。

picture.image

结果表明，在系统分析时，嵌入（embeddings）在语义上本质上是有限的。在局部范围内，模型对法线空间内方向上的微小变化敏感。在零空间中，当输入发生重大变化时，嵌入保持不变。通过连接局部零空间，作者连接了嵌入相似但输入可能截然不同的空间。由于嵌入空间本质上具有高维特性，使用数据集进行测试固有限制。系统分析是必不可少的。

Discussion

通过使用带有数学分析的计算机程序，作者既在局部又在全局范围内表征了视觉 Transformer 的嵌入空间。请注意，所提出的框架可以直接应用于表征任何模型，只要输入是连续变化的，这样就可以适当地估计雅可比矩阵。对于多模态模型，该框架还可以通过其他联合嵌入间接研究具有离散输入的其他模型。

可能有人试图将作者的框架归类为一种对抗性攻击技术。作者主要关注的是分析嵌入空间；作者仅将ImageBind用作分类器以验证作者的发现，并不用于其他目的。尽管作者的嵌入匹配过程可以用来生成有效的对抗性样本，但它的本质是不同的。作者的技术对分类器是不可知的，并不利用特定于分类器的特征。因此，对于任何构建在嵌入之上的分类器或下游模型，匹配嵌入的样本看起来都是相同的。另一方面，传统的对抗性攻击是特定于分类器和应用的，专注于通过改变输入来改变其输出。

这种对抗性样本以及具有相同嵌入的语义不同图像的可能根本原因是 Transformer 不需要输入对齐以具有相似的嵌入。通过向嵌入中添加对齐敏感组件可以缓解这个问题，目前这一方法正在进一步研究中。此外，基于Jacobian矩阵的奇异值，似乎可以评估模型的鲁棒性，这一点也正在研究中。

本文展示的结果似乎与这类模型所展示的令人印象深刻的结果不一致。请注意，几乎所有现有结果都是在基准数据集上测量的。由于嵌入空间和输入空间的高维性，即使是最大的数据集也只能非常稀疏地覆盖这些空间。如果作者想要评估模型，以便能够预测它们在整个空间上的行为而不仅仅是样本上，作者相信像作者这样的系统评估是必要的。

请注意，如何在神经网路和 Transformer 中估计全局和局部Lipschitz常数的问题已经在数学上得到了研究。特别是，LipsFormer [23] 展示了退化情况可能导致Lipschitz常数无界。然而，这些技术尚未应用于正在部署的大型模型中，包括作者使用过的模型。作者的结果在性质上是互补的；作者展示了实际训练的大型模型的局部方向Lipschitz常数的分布，并能够使用Jacobian矩阵准确估计它们。对于应用来说，Lipschitz常数本身提供了变化速率的上限，可能不足以理解它们在典型输入下的行为。

Conclusion

在本文中，作者使用算法和数学分析展示了嵌入空间的结构。试图得出结论，最近的预训练模型可以根据它们在基准数据集上的表现用来构建任何有效的应用。尽管这些模型给出了令人印象深刻的性能，但它们固有的泛化能力受到底层嵌入空间性质的局限。在解决这一根本性限制之前，这些模型不应用于关键应用。

Appendix

参考

[1].Intriguing Equivalence Structures of the Embedding Space of Vision Transformers.

点击上方卡片，关注「AI视界引擎」公众号