武大 & 加州大学提出 FairViT | 自适应Mask策略,提高视觉Transformer的公平性与准确度 !

技术

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

在计算机视觉任务中,视觉Transformer(ViT)已经取得了优异的性能,并展示了其巨大的潜力。在现实世界任务中广泛部署ViT需要对模型的社会影响有深入的理解。然而,大多数基于ViT的工作并没有考虑公平性,且目前尚不清楚将面向卷积神经网络(CNN)的去偏见算法直接应用于ViT是否可行。

此外,先前的工作通常为了公平性而牺牲准确性。因此,作者旨在开发一种在不牺牲公平性的前提下提高准确性的算法。在本文中,作者提出了FairViT,一个新颖的既准确又公平的ViT框架。

为此,作者引入了一种新颖的距离损失,并在注意力层上部署了自适应的公平性感知 Mask ,这些 Mask 随着模型参数的更新而更新。实验结果表明,FairViT在保持竞争力的计算效率的同时,其准确性优于其他替代方案。

此外,FairViT在公平性方面也取得了令人满意的结果。

代码可在https://github.com/abdd68/Fair-Vision-Transformer获取。

1 Introduction

视觉 Transformer (ViT)已被广泛应用于各种计算机视觉(CV)任务中,并被认为是一种可行的卷积神经网络(CNN)[14]替代方案。与CNN不同,ViT具有专门的结构,可以通过自注意力机制提取全局关系,从而在包括图像分类、目标检测和实例分割在内的各种CV任务中提高性能。由于其出色的表现,这种结构已成为许多现实应用中CV算法的架构基础。然而,CV算法的广泛部署在很大程度上取决于它们的可信度。这促使作者研究ViT模型的公平性方面。

尽管已经存在许多针对卷积神经网络(CNNs)的去偏见算法,但关于视觉 Transformer 的去偏见算法的文献却相对匮乏。与通过卷积捕捉像素级局部特征的CNN不同,视觉 Transformer 通过图像块提取全局上下文信息。视觉 Transformer 通过具有更强形状识别能力的注意力机制插值这些图像块[33]。目前尚不清楚直接将面向CNN的去偏见算法应用于视觉 Transformer 是否可行[5]。此外,视觉 Transformer 被显示比CNN[7, 25]对输入扰动和潜在特征更具鲁棒性,这对于特定的公平ViT设计可能是一个挑战。

在最近的几项工作中已经对ViT的公平性进行了研究[22, 24, 27],但其中大部分要么为了公平性牺牲准确性,要么需要大量的计算成本。在[27]中提出的针对对齐技术(TADeT)旨在识别并消除ViT中 Query 矩阵中的偏见。他们的结果显示了有效的去偏见性能,并且易于在现实场景中实施。然而,他们直接操纵模型中的参数将在公平性和准确性之间做出取舍。在[24]中设计了一种双层优化方法,该方法找到了真实数据与生成数据之间的最佳数据采样比例,从而在公平性与准确性之间取得了改进的权衡,但该方法需要相对较高的计算能力。[22]中提出的去偏见自注意力(DSA)是一种以公平性为目标的方法,强制ViT消除与敏感标签相关联的虚假特征。DSA使用对抗性机器学习来增强公平性与准确性的平衡。然而,它需要进行成本高昂的两阶段训练,这在现实场景中难以部署。

为了解决上述挑战,作者提出了FairViT,包括自适应 Mask 和距离损失,这些创新且有效的框架旨在解决公平性和准确性的问题。与部署高计算机制不同,距离损失是一种方便部署的正则化器,自适应 Mask 也便于计算。在自适应 Mask 的帮助下,模型可以在公平性和准确性矩阵上达到更好的性能。同时,距离损失是一种可扩展、方便的方法,不仅限于ViT,也可用于其他应用。

作者的主要贡献可以总结如下:

  • 作者引入了一个自适应 Mask 框架,通过学习特定群体的 Mask 和权重来增强公平性。作者为自适应 Mask 配备了后向算法,以优化 Mask 和权重。
  • 作者结合了一个可扩展的距离损失函数,通过操作输出分数来增强准确性。
  • 作者在真实数据集上进行了大量实验,并证明FairViT在具有竞争力的计算效率下,甚至优于其他替代方案。此外,FairViT还获得了令人满意的公平性结果。

2 Related Work

在本节中,作者将回顾与本研究主题相关的前人研究工作,分析现有技术的优点与不足,并探讨这些发现如何指导作者的研究工作。通过对相关领域的文献进行综合评述,作者旨在为本研究的深入探讨提供一个坚实的理论基础和实践背景。

Vision Transformer

Transformer 架构最初是为自然语言处理(NLP)任务设计的[29]。与卷积神经网络不同, Transformer 网络依赖于注意力机制来并行处理输入 Token 序列。

近来, Transformer 架构已经被调整以适应计算机视觉任务[7],利用自注意力机制来建模图像不同部分之间的关系。ViT(视觉 Transformer )的优势包括在处理各种分辨率时的灵活性、捕捉全局信息、参数效率以及潜在的更好的泛化能力。在许多场景中,ViT超越了CNN,并取得了相当的鲁棒性[23]。

在ViT中,样本包含个输入图像块。ViT首先对每个图像块应用一个嵌入层,将其转换为嵌入向量。随后,ViT对这些嵌入向量应用一系列 Transformer 编码器层,每个编码器层由两部分组成:多头注意力机制(MHA)和位置感知的前馈网络(FFN)。MHA层通过自注意力来建模图像块嵌入之间的交互,而FFN层则对每个图像块嵌入单独实施非线性变换。自注意力机制[7]可以表述为:

其中、和分别是 Query 、键和值矩阵,是softmax函数,是键向量的维度。自注意力是 Transformer 的一个重要构建块,在计算机视觉领域引起了极大的兴趣,因为它表明,对CNN的依赖并非必要,直接应用于图像块序列的纯 Transformer 在图像分类任务上可以表现得非常好[7]。有许多研究旨在探索 Transformer 的注意力机制,如在解释性方面的梯度注意力展开[1]和在效率方面的Swin Transformer[16]。

Fairness in Neural Networks

大多数现有的针对图像分类任务的去偏方法专门针对CNN或深度神经网络(DNN)模型[21, 31],不能直接应用于视觉 Transformer (ViTs)。然而,一些研究表明,计算机视觉(CV)模型通过将敏感特征与输入特征混合来做出预测[21, 35],而这些敏感特征可能会捕捉到输入特征与目标标签之间的偏见关系。例如,敏感特征“性别”通常会影响到人脸识别任务的准确性。在这种情况下,它可能导致对代表性不足群体的歧视性结果,从而引发严重的社会和伦理问题。

有几项近期研究探讨了ViT的公平性[22, 24, 27]。在[27]中提出了一种针对性的对齐技术TADeT,该技术旨在识别并消除ViT中 Query 矩阵的偏见。然而,他们直接操纵以牺牲准确性来换取公平性。Dr-Fairness [24]提出了一种双层优化方法,该方法寻找真实数据与生成数据之间的最佳数据采样比例,并在公平性与准确性之间取得了改进的权衡,但他们需要相对较高的计算能力。去偏自注意力(DSA)[22]是一种以公平性为目标的方法,它强制ViT消除与敏感标签相关的虚假特征,并使用对抗性机器学习来增强公平性与准确性的平衡。

在本文中,作者提出了一种新颖的、针对视觉 Transformer 的公平且准确的训练框架。FairViT通过展示出色的准确性和值得注意的公平性,超越了现有工作。此外,作者的时间成本实验和多任务测试表明,FairViT适用于实际部署,并保持了合理的计算效率。

3 Problem formulation

作者将公平性与准确性问题形式化为一个有监督的分类问题,目标是使用训练样本 训练模型 ,并从数据中学习模式以进行预测。其中 是输入特征, 是目标标签, 是一个敏感标签。设 属于空间 , 属于空间 , 的一些例子包括性别、种族或其他可以确定敏感群体的属性。作者假设在训练阶段可以访问 ,但在验证或测试阶段无法访问。训练阶段的分类框架具有以下形式:

其中 是由参数 学习的模型, 是损失函数,表征估计标签与目标标签之间的差异。 的一个常见选择是交叉熵损失 [18]。然而,交叉熵损失没有考虑 [8]。因此,作者的目标是设计一个新颖的框架 来减轻偏见,并在反向传播过程中使用 进行自适应 Mask 。在验证和测试阶段,由于无法获得敏感属性 ,模型将 视为 并在自适应 Mask 内计算加权求和。

4 Fairness-aware Vision Transformer Design

作者的设计包括两个关键部分,即自适应 Mask 和距离损失。首先,作者引入自适应 Mask ,它是注意力机制的辅助手段,专注于操纵模型结构以增强准确性和保持公平性。作者通过迭代更新 Mask 和权重来优化自适应 Mask 。随后,引入距离损失以进一步提高准确性。图1展示了FairViT的整体流程。算法1概述了FairViT的整个公平性感知过程。

picture.image

picture.image

输入:, , ,以及用于训练的海量数据集,其注意力机制从每个处理过的图像块中提取信息,可能会在那些数据集中固有的偏见持续存在。因此,ViTs的准确性可能在不同群体间有所差异,导致性能上的不平等。因此,作者寻求一个解决此问题的方案。受到多通道卷积[28]的启发,其中卷积核通道与输入通道对齐,作者试图将类似概念整合到ViT结构中。这种整合旨在提高准确性的同时保持公平性。作者的方法,名为自适应 Mask ,首先将训练数据集分为个不同部分,每个敏感群体拥有个部分。对于每个敏感群体,每个部分包含相同数量的图像。由于每个敏感群体中的样本数量不同,不同敏感群体之间每个部分的图像数量也不必相等。图2展示了划分过程。随后,作者将每个部分与相应的 Mask 和权重关联起来。每个部分都有一组对应的 Mask 和权重作为参数。然后作者以单头注意力(HA)为例进行介绍:

picture.image

其中是逐元素乘法,表示在第层和第个头中的第个 Mask (),是的权重,而是的加权求和。作者遵循多头注意力(MHA)的方式[7],公式如下:

其中表示连接操作,,,是 Transformer 编码层中的头数。自适应 Mask 可以在前向传播过程中调节信息流:如果一个特定群体的准确性较低,模型训练师可能通过调整分配给该群体的权重来进行适应。这种调整框架建立了一个标准,即在获取有效群体分类的充足信息的同时,确保跨群体注意力的公平平衡。作者后续的目标是保证每个 Mask 和权重保持一个适用的分布,以达到全局最优。然而,作者观察到,在特定情况下,的静态值表现出次优性能,如表2所示。这一观察激励作者开发了一种基于梯度的方法,该方法可以自动优化 Mask 和权重。

picture.image

4.1.2 Updating the Adaptive Masking

与其手动设置静态 Mask 和权重,作者提出在训练过程中迭代更新它们。具体来说,对于属于部分的样本,通过梯度下降更新和。的梯度可以通过以下方式获得:

为了更新,作者首先获得了对的计算映射。根据方程4,的梯度可以如下获得:

这一过程的说明如图3所示。作者的方法保持了合理的计算效率,因为在反向传播过程中已经计算过,只需要有限的矩阵乘法来计算和的梯度。此外,表2的实验结果表明,与静态 Mask 相比,作者迭代更新 Mask 显著提高了准确性并保持了模型的公平性。这种改进可以归因于和的参数化,即它们可以被看作是模型的可训练参数,对敏感群体产生了泛化作用。

Distance Loss

交叉熵损失使用了符号函数,该函数激活来自目标标签的输出,同时关闭其他标签的输出。仅仅最小化交叉熵损失实际上忽略了来自其他标签的信息。因此,作者设计了距离损失,不仅考虑最大化目标标签的分数,同时也最小化其他标签的分数。遵循一些正则化技术[8, 34],作者制定了一个正则化器,以提高准确性。在验证阶段,作者使用逻辑回归这一二分类器来提取一个强调数据分布的超平面。随后,在训练阶段,作者利用这个超平面来指导每个样本的处理过程。这种创新策略使得作者能够将训练过程与数据的实际分布更紧密地对接,增强了适应性和性能。

具体来说,作者定义 为对应目标标签 的预测分数。此外,作者表示 为从top 集合中(不包括目标标签)的标签累积得来的分数。在验证阶段,作者使用逻辑回归训练一个线性分类器,即 ,其中 是sigmoid函数, 和 是可训练的参数。样本被标记为 ,表示样本是否被正确分类。这个线性分类器的决策边界可以表示为

由于 和 在验证阶段更新,它们在训练阶段保持不变。然后作者在训练阶段引入了距离项,如[2]所示

作者通过方程式(9)中的超平面来测量点与超平面之间的距离。在验证阶段,作者训练以获得和,这两个值在下一个训练阶段保持不变。这些固定值简化了作者距离损失的计算。具体来说,距离损失定义如下:

其中是一个非负的超参数。最小化使得点在的情况下保持不变,而的点则被移向决策边界。作者的目标是把所有点移至。整体损失函数由两部分组成,如下所示:

其中,在超平面缺乏有意义定义的初始训练阶段指导训练。在第一个时期,仅基于进行训练。在后续的每个时期,作者更新和完善超平面,并使用训练模型。

引入距离损失有助于提高准确度。回顾一下和的定义,由于模型选择分数最高的标签作为预测标签,因此较高的和较低的表明正确分类的可能性更大。由于作者是通过上的逻辑回归确定的,应取负值,从而使得方程(9)中的超平面具有正斜率。方程(10)是与超平面之间的距离。在方程(11)中,促使满足和不满足的两类点都向的方向移动。在这两种情况下,距离损失都鼓励增加并减少,最终提高准确度。此外,作者可以将距离损失直接扩展到其他模型,如深度神经网络(DNN)和卷积神经网络(CNN),因为它仅需要从模型的输出中获取信息。

5 Experiments

在本节中,作者将展示作者实验评估的结果,该评估旨在比较作者提出的方法与现有最先进方法的性能。所有实验都是在配备有Intel Xeon CPU E5-2690和NVIDIA Tesla K40m GPU的机器上进行的。代码使用Python语言编写,并采用了TensorFlow和Keras库。

作者将实验分为三个主要部分:第一部分关注在合成数据集上评估作者的方法;第二部分涉及在真实世界数据集上的评估;第三部分将作者的方法与 Baseline 方法进行比较,以展示其优越性。

作者模型的超参数是根据在验证集上的网格搜索选择的。除非有特别说明,作者在所有实验中使用相同的超参数。

在评估指标方面,作者采用了准确度、精确度、召回率和F1分数来衡量不同方法的性能。

Experimental Setup

作者在CelebA数据集[17]上进行了三种不同场景的实验,这是一个大规模的面部属性数据集,包含超过20万张名人脸部图像。作者的代码附在补充材料中,并在发表后将其开源。在标准部署中,作者将初始化为,并将权重限制在的范围内,其中是一个小值,在作者的实验中设置为。作者用初始化,并将其限制在的范围内,因此用初始化。在作者的实验中,将训练-验证分割比例设为,,,以及。为了衡量公平性,评估指标如下:

平衡准确率(BA) [20]衡量分类模型的性能,特别是在处理不平衡数据集时。具体而言,公式如下所示:

它通过计算每个敏感组和目标标签的平均准确度来考虑数据集的不平衡。

人口公平性(DP) [9]衡量算法在不同人口群体中做出公平预测或决策的程度,或者算法根据种族、性别和年龄等个人特征引入多少偏见或不公平,特别是在敏感群体(s = 0和s = 1)之间。形式上,

其中表示在测试集上计算的概率。较小的DP通常意味着算法在不同群体间结果上的差异较少。

均等机会(EO) [13]是关于指定受保护属性的简单且可解释的非歧视概念。具体来说,

作为两种最受欢迎的公平性指标,DP关注不同敏感群体中被分配到_积极预测_的概率;EO关注不同敏感群体中的_真正阳性率_。

Comparison with Baselines

作者选择了五种具有公平性意识的最新基准方法与作者的工作进行对比,即:Vanilla [7],TADeT-MMD [27],TADeT [27],FSCL [21]和FSCL+ [21]。由于DSA [22]的源代码未公开,作者没有在实验中包含DSA。作者基于公开发布的源代码实现了Vanilla、FSCL和FSCL+,以及根据论文中的说明实现了TADeT-MMD和TADeT。表1显示,FairViT在保持较高准确性的同时,在公平性表现上优于其他方法。与作者的主要竞争对手FSCL+相比,FairViT的准确率至少提高了4.5%。在公平性指标方面,FairViT展现了无偏效应的卓越表现。### 消融研究

picture.image

方法消融研究: 作者进行了消融研究,以评估自适应掩蔽和距离损失的有效性。结果展示在表2中。这里,表示不更新掩蔽和权重的自适应掩蔽方法,而表示在更新掩蔽和权重的情况下应用自适应掩蔽。实验结果表明,和均有助于提高准确率,其中在提高准确性和公平性方面发挥着更为关键的作用。持续更新自适应掩蔽在准确性和公平性方面的表现要优于静态掩蔽。

损失函数中的影响: 表3显示,随着的增加,准确率逐渐提高,而EO和BA完全不受影响。作者经验性地观察到,当约为0.1时,它甚至对公平性有益。当达到一定阈值(例如,表3中第二个案例中的0.1到1之间),模型的准确性和公平性都会下降。这一现象可能是由于模型需要在距离损失和交叉熵损失之间取得平衡。不当的可能会干扰优化过程,使模型无法专注于优化目标。在后续实验中,作者设置。

picture.image

距离损失中的影响: 表4中作者注意到,随着值的增加,EO和BA通常在达到0.5之前呈现上升趋势,之后则下降。同时,准确率在0.5之前呈现上升趋势,之后则开始下降。作者可以观察到对距离损失的影响是积极的,有助于提高准确率。然而,过高的可能会造成两种损失之间的不平衡,可能导致准确率下降。考虑到这些观察,作者选择,因为它在作者分析中代表了公平性和准确性的最优平衡。

picture.image

自适应掩蔽中的影响: 在图4中,作者展示了自适应掩蔽中(不同部分的数目)的影响。当较小时,准确性和公平性矩阵没有带来巨大好处;然而,当达到某个阈值时,准确性和公平性趋于稳定且表现良好。一个可能的解释是与模型的调整能力呈正相关,因为模型可以同时考虑更多不同的部分,并以更个性化的方式进行判断。然而,过大的可能会导致某个部分图像过少,每个部分没有足够的训练数据以获得充分的表现,从而略微降低性能。因此,的最佳选择可能因不同的问题场景和数据集而异。

picture.image

Interpretability Study

作者对FairViT进行了可解释性研究,以阐明其在各种场景中表现卓越的原因,如图5所示。作者使用了梯度注意力展开(Gradient Attention Rollout, GAR)[1]来生成 Heatmap ,这些 Heatmap 突出了ViT中关键的决策区域,关于GAR的详细信息在附录0.A中。作者观察到,在Vanilla方法和FairViT之间,关注的区域存在显著差异。在第一种场景中,Vanilla方法似乎捕捉到了与敏感属性(如性别)相关的信息,在第二种场景中捕捉到了与头发颜色相关的信息。相比之下,FairViT通过自适应 Mask ,显示出倾向于提取与目标属性相关的信息,如在第一种场景中的表情,在第二种场景中的吸引力。这一现象展示了FairViT在公平性和准确性方面的有效性。此外,FairViT生成的 Heatmap 在空间上分布得更明确且更密集,这可能表明模型学习能力得到了增强。

picture.image

Time Cost

为了评估FairViT的效率,作者在表5中进行了FairViT与基准方法之间的计算成本比较分析。作者的研究结果表明,FairViT与基准方法展现出相似的计算成本。此外,FairViT在保持合理计算效率的同时,实现了准确性与公平性之间的优越平衡。与FSCL+相比,FairViT的运行速度提高了6倍,同时实现了更高的准确性和具有竞争力的公平性结果。FairViT的核心增量消耗在于自适应 Mask ,其所需计算量为,其中是 Patch 的数量,是 Key 的维度。其时间复杂度优于FSCL,后者需要立方时间复杂度。

picture.image

6 Conclusion, Limitation and Discussion

在本论文中,作者提出了FairViT,旨在解决视觉 Transformer 中的公平性与准确度问题。FairViT采用自适应 Mask 来减轻偏见,同时不牺牲准确度,并设计了一种多功能的距离损失函数来提高整体准确度。

广泛的实验验证了FairViT在提高公平性的同时,保持了可比较的准确度水平。

未来,将提出的技巧扩展到更广泛的神经网络类型将非常有趣。在未来的研究努力中,作者旨在进一步探索距离损失函数和自适应 Mask 有效性的内在机制。此外,对除分类之外的其他学习任务进行更多实验评估也具有很大兴趣。例如,作者计划进一步探索公平生成任务,如文本到图像生成[11]和图形生成。

参考

[1].FairViT: Fair Vision Transformer via Adaptive Masking.

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
如何利用云原生构建 AIGC 业务基石
AIGC即AI Generated Content,是指利用人工智能技术来生成内容,AIGC也被认为是继UGC、PGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的分支。而 AIGC 业务的部署也面临着异构资源管理、机器学习流程管理等问题,本次分享将和大家分享如何使用云原生技术构建 AIGC 业务。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论