Attention-IoU | 破解CV模型偏见黑箱,注意力图透视隐藏变量,突破数据集偏差检测边界

大模型机器学习算法

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

导读

计算机视觉模型已被证明在广泛的数据库和任务中表现出并放大了偏见。现有的量化分类模型偏见的现有方法主要关注数据集分布和模型在子组上的性能,而忽略了模型的内部运作。作者引入了Attention-IoU(注意力交集-并集)指标及其相关评分,该指标使用注意力图来揭示模型内部表示中的偏见,并识别可能导致偏见的图像特征。首先,作者在合成水鸟数据集上验证了Attention-IoU,表明该指标能够准确测量模型偏见。然后,作者分析了CelebA数据集,发现Attention-IoU揭示了超出准确度差异的相关性。通过调查通过男性受保护属性的单个属性,作者考察了CelebA中偏见的不同表示方式。最后,通过子采样训练集以改变属性相关性,作者证明了Attention-IoU揭示了数据集标签中不存在的潜在混杂变量。

代码:https://github.com/aaronserianni/attention-iou

  1. 引言

计算机视觉模型中的偏差可能导致模型性能下降以及不同群体间的不平等行为。这些偏差通常由虚假相关性引起,即模型依赖于与目标相关但无因果关系的属性。依赖于这种虚假相关性的模型可能在分布外测试数据上表现不佳,或者对于相关性不成立的群体表现出低准确率。例如,研究表明模型倾向于Low-Level特征,如纹理和图像光谱[17, 18, 83],以及High-Level属性,包括背景和上下文目标[66]。对于涉及人的任务来说,这一点更为令人担忧,因为这些相关性可能导致模型歧视社会受保护群体,如性别、种族、年龄、民族和收入[6, 12, 23, 63, 90, 91]。

过往研究广泛通过数据集标注和模型准确率的角度来探讨偏差和虚假相关性。例如,公平性指标揭示了模型准确率在不同群体或个体之间的差异(参见[8, 46, 51, 74]中的综述)。其他人创建了工具,通过分析和分类目标、性别、肤色、地理标签等来揭示偏差,有时结合模型预测和无监督技术[4, 35, 76]。许多研究也探讨了减轻数据集中虚假相关性影响的方法[23, 27, 50, 80, 91]。

这些利用数据集输入和模型输出发现和测量虚假相关性的方法揭示了计算机视觉模型所表现出的许多偏差。然而,它们通常只能发现粗粒度的偏差,局限于数据集中存在的二元标签。例如,虽然这些指标在识别一个人的属性分类可能依赖于性别时表现优异,但它们无法突出显示模型用于做出预测的特定性别表现特征。在没有细粒度标签的情况下,可解释性方法有潜力揭示模型中相关性的表示,以及它们可能如何影响模型输出。

本文提出了一种名为Attention-loU的广义交并比度量方法,该方法利用注意力图来衡量图像分类模型中的偏差。作者特别旨在量化模型依赖于与目标分类任务不直接相关的图像区域时产生的虚假相关性。例如,在CelebA人脸数据集[36, 44]中,金发与被 Token 为非男性的相关性。因此,训练用于识别“金发”属性模型的模型可能会使用带有性别特征的五官(如图1所示),除了使用头发特征来计算输出。因此,模型可能会关注眼睛、鼻子、嘴巴以及头发等区域。作为Attention-IoU的一部分,作者提出了两个评分指标: Mask 评分,其中注意力图与真实特征 Mask 进行比较; Heatmap 评分,其中比较两个不同属性的关注力图。

picture.image

首先,作者在合成水鸟[59]数据集上验证了Attention-IoU,结果表明它准确地反映了数据集内的偏差。随后,作者考察了CelebA[44]数据集,因为该数据集是公平性方法的广泛使用基准,涵盖了数据集偏差识别到模型去偏,其中使用男性属性作为敏感属性。

通过这一对CelebA的分析,作者证明了Attention-IoU可以识别受保护男性属性可能影响其他属性的具体方式。作者展示了属性可能受到分类器对受保护

属性表示的不均匀影响,并且某些属性在数据集标签中的简单相关性之外存在偏差。这些见解揭示了计算机视觉模型可能存在偏差的不同方式,使社区能够开发出更好的去偏差技术。

  1. 相关工作

计算机视觉中的偏差。计算机视觉模型和数据集在众多任务中普遍表现出偏差[15, 23, 24, 47, 71, 72, 77, 79]。模型甚至可能放大其训练数据集中的差异[7, 62, 90, 91]。当涉及人群和社会的偏差数据集和模型时,存在重大的公平性和社会影响,因为模型在包括种族、性别和年龄在内的受保护类别上往往表现异常[5, 6, 45, 49, 81]。

关于识别计算机视觉中的偏差的研究,主要集中在量化数据集、训练模型输出或两者的组合偏差[6, 21, 49]。偏差通常通过分析数据集中属性的分布来量化,并识别哪些属性分布不均或与真实世界人口统计相比代表性不足[6, 63]。对于未标注的属性,这可以通过使用图像生成模型来平衡分布[2, 13, 41],以及使用视觉语言模型进行属性的细粒度识别和未标注偏差的识别[29, 33, 40]。其他方法则寻找标注属性与图像中特征之间的相关性,例如共同出现的物体[66],刻板和冒犯性的描绘[5],或Low-Level特征如姿态和颜色[47]。在训练模型中,偏差识别主要限于查看模型的输出,通常包括计算数据集中各种标注组的准确率和错误率[11, 14, 20, 74],或者如果组未标注,则使用无监督技术来寻找它们[35, 39, 48, 68]。

可解释性方法和指标。机器学习的可解释性旨在解释模型的对外行为,并对其内部机制提供洞察。实例或局部解释是计算机视觉中最常见的可解释性技术,描述模型在特定输入特征周围的局部行为。该技术的输出是一个注意力或显著性 Heatmap ,突出显示图像中对模型输出贡献最大的区域[16, 19, 52, 57, 60, 64, 65, 73, 78, 87, 92]。类别激活图(CAM)[92]及其衍生方法,包括GradCAM[60],是创建注意力图最常见的方法。

注意力图常被定性用于评估去偏方法[26, 67, 70, 86],或突出模型中的偏差[60],如Wolfe等人通过平均 Heatmap [82]所做的那样。Krishnakumar等人以及Lee等人都将注意力图作为偏差可视化系统的一部分,通过突出单个相关图像的地图[35, 37]。除了定量评估之外,Bang等人提出了一种方法,通过聚合解释一致性指标直接识别模型偏差,重点关注不同模型实例之间的偏差[3]。一些去偏方法也直接使用注意力图,通过创建集成注意力图的损失函数[38, 56, 66],或通过阈值化地图来突出相关图像区域[1, 31, 53]。具体来说,Singh等人使用损失函数来最小化属性及其共现上下文注意力图的元素级重叠,但并未使用这些地图来评估偏差本身[66]。

  1. 方法

现有的计算机视觉分类模型偏差度量指标主要关注模型在数据集内特定群体中的表现[20, 91]。这可能包括调查数据集中群体的分布、不同群体之间准确率和错误率的差异,或这些差异的组合[74]。这些常见方法通常仅考虑模型的最终预测,但与其他研究[2, 13, 35, 37]一致,作者旨在理解这些偏差可能产生的原因。以一个试图区分水鸟和陆鸟的数据集为例[59]。在这里,鸟类与背景相关联,大多数水鸟图像显示的是水背景,而大多数陆鸟图像显示的是陆背景。此外,假设在这个数据集上训练的模型难以识别在陆背景上的水鸟图像。

picture.image

考虑那些考虑不同群体之间性能差异的度量指标,它们会正确地识别出这个模型存在偏差。然而,作者认为这种偏差可能存在多种形式:

  • • 模型可能正在使用整个背景来识别鸟类,因此,当陆鸟出现在水面上时(图2左侧),它错误地使用了来自水背景的线索。
  • • 模型可能正在使用背景中的特定线索。例如,假设陆地背景总是包含树木,而水背景总是包含船只。模型可以使用这些线索(而不是整个背景)来对图像进行分类(图2中心)。
  • • 水背景上的陆鸟图像可能与陆背景上的图像有所不同。例如,这些鸟类可能被描绘在飞行中,使其看起来更小,从而使得模型分类更加困难。在这种情况下,模型可能(正确地)使用了来自鸟类的线索,但学到的线索并未推广到水背景上的陆鸟(图2右侧)。

为了更好地理解这些差异,作者转向注意力图作为揭示模型决策中哪些图像特征重要的机制。

作者的偏差识别方法的关键洞见如下:如果一个模型在数据集中学习到目标属性与混杂属性之间的虚假相关性,它将学会使用有助于混杂属性的特征而不是目标属性的特征。这使得作者可以通过比较模型对目标属性的关注图与混杂属性的关注图或真实特征图来量化偏差。

3.1. GradCAM预备知识

作者使用梯度加权类激活映射(GradCAM)来获取目标属性的关注图[60]。给定输入图像

和目标属性

,GradCAM计算类输出

对卷积层(通常是最后一层)输出的梯度,以获得属性激活图。简单地将层的特征激活图进行梯度加权的线性组合,产生属性特定的关注图

。GradCAM是为使用分类交叉熵损失训练的模型开发的,因此在其标准实现中,只能为使用二元交叉熵损失训练的模型创建正预测的关注图。对于作者的指标,作者取类输出的绝对值的梯度,

,因此关注图中会关注对预测有正面贡献的图像特征。进一步解释见附录A。

3.2 注意力图指标

现在作者已经有了对应于注意力图和真实特征 Mask 的地图,作者需要的只是一个比较这些地图的方法。该度量标准应该能够比较两个实值注意力图,以及一个注意力图与二值真实特征 Mask 。用于评估注意力图的两种常用度量标准,即指针游戏[89]和交并比(IoU),都未能满足这一要求,因为它们需要一个二值 Mask 作为输入之一。此外,由于图像属性在像素面积上可能差异很大,例如头发颜色与眼睛颜色,该度量标准应该是尺寸不变的,并且如果两个地图成比例缩放,则保持恒定。

基于这些约束,作者提出了一种广义的IoU度量方法,作者称之为Attention-IoU,该方法适用于加权密集像素图,并且对大小和尺度具有不变性。给定两个地图

,这些地图可以是注意力图或特征 Mask ,它们的

归一化地图表示为

,类似于概率密度函数。该度量方法定义为:

是Frobenius内积,即元素级矩阵乘积之和,而

是Frobenius范数,即矩阵元素平方之和。

归一化(

)在乘积内部使得

对映射的值具有尺度不变性。作者度量指标的分子计算了两个映射之间的加权交集。如果其中一个为二值映射,则这报告了集中在相关 Mask 区域的总质量,而当两个映射都是连续的,则这简单地通过相应的像素级概率对质量进行加权。作者度量指标的分母是两个映射的并集。作者平均两个映射,以确保结果矩阵仍然具有

范围内的值。关于不变量的完整证明,请参阅附录B。

-IoU度量具有与IoU类似的良好性质;例如,如果

,则

为1,如果映射完全不相交,则

为0。由于Attention-IoU允许连续得分,如果

重叠,那么随着它们交集的权重增加(分别减少),

也会增加。

3.3. 偏差分数

利用注意力-IoU,作者定义了两种方法来评估针对给定目标属性模型中的偏差。第一种方法,热力图得分,比较每个输入图像中目标属性

的注意力图与所选受保护属性

的注意力图。给定一组图像

,得分的公式为:

Mask 得分是通过目标注意力图与对应特定输入图像的选定真实特征 Mask

之间计算得出的。由于注意力图的大小与最终卷积层的大小相同,而特征 Mask 的大小与输入图像的大小相同,因此特征 Mask 通过双线性插值进行下采样:

Attention-IoU的优势。与现有的偏差检测方法相比,Attention-IoU具有多个优势。首先,由于该指标基于注意力图,它突出了对目标属性预测贡献最大的敏感属性的具体区域。因此,作者能够比其他偏差指标在更细粒度的层面上识别偏差。其次,通过分别可视化不同类型图像的得分,作者可以推理出偏差是否对不同集合不同。例如,这使作者能够理解是否仅在属性取特定值时使用敏感属性的特征。最后,该指标使作者能够挖掘潜在的混杂变量;即当偏差不仅仅是因为训练数据集中标签的简单比例时。

这种基于注意力的方法的一个局限性是,注意力图只能传达模型在图像中关注到的空间信息。关于形状、颜色或纹理的信息并未包含在注意力图中。因此,如果目标和混淆属性位于同一位置,但模型关注的是包含这两个属性的区域内的不同图像特征,作者的指标仍然会显示这两个属性之间的高度相关性。尽管存在这一局限性,但在接下来的两个部分中,作者将展示如何使用Attention-IoU来仔细检查数据集。

  1. 验证指标

首先,作者在Waterbirds [59]数据集上测试了所提出的指标。这个简单的合成数据集是通过将CUB数据集 [75]中的裁剪鸟类图像与Places数据集 [93]中的背景图像组合而成的。数据集中的鸟类被 Token 为水鸟或陆鸟,背景也被相应地 Token 为陆地或水域。数据集可以通过不同的鸟类与背景之间的相关性水平来构建,从而在数据集中引入一个单一的偏差轴。此外,数据集中还提供了鸟类和背景的 Mask ,这些 Mask 可以用于计算Attention-IoU。

实验设置。遵循先前的研究,作者将指定百分比(介于50%-100%)的水鸟放置在水背景上,剩余的0%-50%的水鸟放置在陆背景上,对于陆鸟和陆背景也是如此。验证集和测试集是无偏的,一只鸟有50%的可能性与它的背景对齐。作者遵循Sagawa等人[59]的方法,使用CUB数据集的官方训练-测试分割,该分割包含5,994张训练图像和5,794张测试图像,并随机选择20%的训练图像形成验证集。测试集用于计算整体准确率、每组准确率和Attention-IoU。作者使用在ImageNet[58]上预训练的ResNet-18[22]作为Attention-IoU,使用分类交叉熵损失和Adam优化器[34](学习率0.001,权重衰减0.0001)在Waterbirds上进行训练。输入图像被缩放到224×224,并在训练期间使用随机裁剪和水平翻转进行增强。模型训练了10个epoch,批大小为64。作者报告了20个独立训练模型的平均值和标准偏差。

结果。作者比较了生成的 Heatmap 与鸟类的真实 Mask 。在图3中,作者展示了平均鸟类 Mask ,以及在不同偏置水平下训练的模型在测试集中所有图像上生成的平均 Heatmap 。随着偏置的增加,模型更多地依赖于背景的线索。这在 Heatmap 中得到了体现, Heatmap 突出了除鸟类 Mask 之外的区域。

picture.image

作者在图4中验证了Attention-IoU捕捉了这一效应,该图显示了鸟类和背景 Mask 在不同训练集偏置下的 Mask 得分。作者还报告了每个模型的最低组准确率(WGA)。正如预期的那样,随着偏置从50%增加到100%,最低组准确率从0.81±0.02下降到0.21±0.10。 Mask 得分从0.72±0.02下降到0.42±0.03的减少几乎与WGA的成比例减少相匹配,这验证了该指标准确测量了模型偏置。由于水鸟的简单性质,数据集中的偏置直接体现在训练分布中,而Attention-IoU完美地捕捉了这一点。

picture.image

  1. 分析CelebA数据集

在本节中,作者使用Attention-IoU分析了CelebA数据集[44]。CelebA是一个广泛应用于各种任务的数据集,包括评估去偏方法。CelebA包含202,2599张名人面部图像,每张图像都标注了40个二进制属性,包括定位到特定面部区域的属性(例如,Big_Nose、Mouth_Slightly-Open、Blond_Hair)以及更全局的属性(例如,Male'、Heavy_Makeup)。作者使用Attention-IoU来深入了解数据集中的属性,以及它们可能如何相互影响。

背景。CelebA数据集是研究面部识别、去偏和生成建模最广泛使用的基准之一[44]。使用CelebA的研究显著推进了各自领域的发展。例如,在生成建模中,CelebA是一个常见的真实世界测试平台,如用于面部属性转移的StarGAN和在CoCosNetv2中的图像翻译[10, 84, 94]。近期,能够进行个性化控制和实现逼真合成的文本到图像模型的爆发式增长,导致可控编辑的面部识别模型再次兴起[43]。最后,许多用于缓解偏差的技术在CelebA上得到验证,从使用委员会或偏差模型的重加权,到重新采样或使用伪标签[32, 48, 54, 61, 85]。一个常见的被研究的设置是将“Blond_Hair”(金发)作为目标属性,将“M a1e”(女性)作为受保护属性,这一设置在Sagawa等人评价组DRO论文时被普及[59],并被许多后续工作所采用[28, 33, 61]。

原始数据集的几个后续版本也已开发出来,用于进一步研究,例如包含30,000张

分辨率图像的CelebA-HQ子集[30],以及额外标注了19个面部组件类别语义 Mask 的

分辨率CelebAMask-HQ数据集[36]。高分辨率数据集对于测试高质量超分辨率和修复技术特别有用[9, 88]。

尽管CelebA广受欢迎,但它在先前的工作中存在许多缺陷。一些属性(例如,大嘴唇、浓妆等)已被证明标签不一致[54, 55]。Ramaswamy等人还发现,有13个属性在性别表达上表现出极端的类别不平衡[55]。其他人发现存在隐藏( 未标注 )的偏见问题,这些偏见正是偏见发现工作所试图针对的,例如发长和可见发面积[2, 40]。CelebA中的这些问题直接导致模型和生成结果存在偏见。作者的目标是揭示这些不同的偏见,以更好地理解它们是如何发生并传播到训练模型中的。

5.1 与真实 Mask 的比较

作者首先使用真实 Mask 对具有定位属性和关联 Mask 的属性进行 Heatmap 评估。

实验设置。由于作者需要真实的分割 Mask ,作者使用了CelebAMask-HQ [36],这是CelebA的一个子集,其中每个图像都有高质量的不同面部特征的分割 Mask ,包括头发、鼻子、皮肤、帽子以及珠宝。作者将类似特征分组,例如{左眉,右眉}和{上唇,下唇,嘴巴}。作者排除了大型非局部化特征 Mask (背景、皮肤和布料)的分析。作者在CelebAMask-HQ上选择

的训练-验证-测试分割进行训练。为了训练属性分类器,作者使用在ImageNet [58]上预训练的ResNet-50模型 [22]。作者根据Ramaswamy等人对他们的CelebA ResNet分类器 [55]的做法,将最后一层替换为两个具有2,048个隐藏单元的全连接层,并在它们之间添加一个dropout层以提高准确性。作者使用了按每个属性的正例成比例加权的二元交叉熵损失,批大小为32。其他超参数与第4节相同。

结果。作者选择了17个与特征 Mask 直接对应的CelebA属性子集,并计算了每个属性的相应 Mask 得分(图5)。与Waterbirds不同,最差组准确率(WGA)与 Mask 得分之间没有强烈的关联。这并不令人惊讶,因为数据集偏差与单个属性的标注并不直接相关。相反,一个属性的WGA和偏差取决于图像中的特征以及其标签与其他属性标签的分布。例如,Wearing-Lipstick具有中等偏高的WGA,但相对较低的 Mask 得分。作者假设这种效应是由于该属性与Male的强烈相关性,导致模型将注意力从嘴巴转移到与Male相关的特征上。其他属性,如Eyeglasses,由于它们具有高度的区分度,既具有高 Mask 得分又具有WGA。

picture.image

5.2 与男性 Heatmap 的比较

与先前研究一致,这些研究探讨了由于受保护的

属性导致的偏差影响,作者接下来考察了不同属性的 Heatmap 与

属性 Heatmap 之间的相关性。实验设置与第5.1节相同。

作者使用

计算了所有40个属性的Attention-IoU(图6左)。作者通过计算属性与男性标签之间的相关系数(MCC)的绝对值来衡量属性与男性标签的相关性,该相关系数是为比较两个二元变量而量身定制的。热力图分数从Black_Hair的

到Wearing-Lipstick的

不等。

的值为1,因为其注意力图是与自身进行比较的。热力图分数与预测标签MCC之间存在明显的正相关趋势。一些属性是这一趋势的异常值,例如胡须和眼镜具有更高的热力图分数,而Wavy-Hai r具有更低的热力图分数。作者还报告了所选属性的面罩分数(图6右)。

的面罩分数表明,模型最强烈地关注面部眼睛、眉毛和嘴巴区域,对鼻子和头发区域的关注稍弱。作者注意到,这与Wearing-Lipstick最为接近,验证了其高热力图分数。这种按区域计算分数的方法也使作者能够理解不同属性的特征差异:例如,Blond_Hair和Wavy_Hair之间的主要区别似乎在于模型对眼睛和鼻子周围区域的关注程度。

picture.image

作者现在详细分析五个具有独特属性的代表属性:

  • • 涂口红:该属性在MCC和 Heatmap 得分中都与男性高度相关。
  • • 眼镜和胡须:这些是热力图得分趋势的异常值,其热力图得分显著高于具有相似MCC(Matthews相关系数)的其他属性。
  • • Blond_Hair和Wavy-Hair:这对属性与图像(头发)中的相同区域相关,具有相似的平均交叠率(MCC),但热力图得分却非常不同。

涂抹口红。在所有40个属性中,涂抹口红与男性的绝对相关性最高,MCC值为

。此外,这种相关性在两个方向上都具有预测性。人们预期涂抹口红的注意力图会突出嘴巴区域。然而, Mask 得分显示模型除了关注嘴巴区域外,还关注眼睛、眉毛、鼻子和头发区域。实际上,涂抹口红的 Mask 得分分布与

非常相似,只是嘴巴区域的 Mask 得分略高。这种涂抹口红与

之间的紧密相似性在热力图得分中得到了反映,这是所有属性中最高的。

眼镜。眼镜与Ma le的相关性适中,具有MCC值为0.26±0.02,这表明Ma le不太可能对眼镜的预测产生很大影响(反之亦然)。如图所示,眼镜的 Mask 得分表明模型强烈关注眼睛、眉毛和鼻子区域。眼镜 Mask 得分为低,因为该得分是测试集中所有图像的平均值,其中大多数图像不包含眼镜作为 Mask 。然而,眼镜的 Mask 得分在所有属性中仍然是最高的,这表明当眼镜存在时,模型对该区域的关注程度很高。令人惊讶的是,对于一个MCC值较低的属性,眼镜的 Heatmap 得分高达0.86±0.01。作者推测这可能是因为Attention-IoU中的一个弱点:它无法检测到特征是否共定位:作者在图6(右)中注意到 Heatmap 对眼睛和眉毛的关注程度很高,这与Male类似。

为了验证这一点,作者训练了两组不同的模型,一组仅使用存在眼镜的图像,另一组则使用不存在眼镜的图像。作者假设如果

和眼镜分类器使用了相同的特征,那么Ma le会继续关注眼睛区域,因为这些特征仍然是有用的。然而,当存在眼镜时,

主要关注的是嘴巴而不是眼睛,因为眼镜遮挡了与Ma le相关的特征(图7)。因此,高热力图分数的眼镜并不是由于模型中Male的潜在偏差,而是由与两个属性都相关的共定位特征引起的。

胡须。胡须与男性的相关性适中,预测标签MCC为

。胡须的 Mask 得分分布反映了男性的分布,对头发和嘴巴区域的关注略多。这体现在高 Heatmap 得分为

。作者选择这个属性,因为这个属性代表了一种单向相关性:胡须被 Token 为存在的图像几乎总是被 Token 为

,而胡须被 Token 为不存在的图像在是否被 Token 为

之间大致平均分配。作者研究了这些属性的 GT 值如何影响Attention-IoU的变化(图8)。在 Token 为非男性的图像中,得分极高

。当男性为假时,胡须和

的注意力图紧密对齐,表明模型在分类胡须时严重依赖于男性。然而,当图像被 Token 为

时,得分较低(胡须为真时为

,胡须为假时为

),模型在分类胡须时对

区域的关注较少。胡须表明,尽管在数据集中两个属性可能具有单向预测性(因此MCC较低),但模型仍然会强烈关注属性之间的任何相关性,这通过Attention-IoU得到体现。

picture.image

金发和卷发。金发和卷发的预测标签MCCs相似,分别为

。尽管两者都指代头发特征,Blond_Hair和Wavy-Hair的注意力图却表现出明显的差异。与

Mask 得分相比,对于Wavy_Hair,模型更多地关注头发区域,而对眼睛、鼻子和嘴巴的关注显著减少。头发区域的这种增加在Blond_Hair中更大,同时Blond_Hair在眼睛区域的减少也较小。总体而言,Blond_Hair的热力图得分为

,而Wavy-Hair的得分较低,为

作者进一步探究差异,提出了两个潜在假设:首先,Wavy_Hair的

显著低于0.80±0.03,而Blond_Hair的

为0.96±0.01。这可能是由于Wavy-Hair的标签不一致[42, 55],导致该属性的 Heatmap 对GradCAM生成 Heatmap 的作用减弱,因为GradCAM使用预测的标签来生成 Heatmap 。对于这种差异的另一个假设可能是,这些属性中有一个与

属性没有直接关系,相反,该属性和

都关联于一个( 未标注 的)混杂属性,从而导致这种相关性。

为了验证这一假设,作者对Blond_Hair和Wavy-Hair的训练分布进行了修改,通过在子采样训练集上训练模型(图9)来实现。为此,作者通过改变训练集中4个子组中各组的比例,保持总数不变,将目标属性与

之间的真实MCC从

变化到

(详细情况见附录C)。对于Blond_Hair,作者发现 Heatmap 得分没有发生统计学上显著的改变,Kendall

值为0.007。然而,Wavy-Hair显示出MCC与 Heatmap 得分之间存在强烈的关联

,随着训练集偏差的减少,模型偏差也随之降低。这表明Blond_Hair中可能存在 未标注 的混杂因素:Blond_Hair的特征具有一种与数据集标签不同的固有质量,这会在模型中产生偏差,而不是像Wavy-Hair那样,是数据集中属性相互之间简单比例的偏差。

picture.image

  1. 结论

注意力-IoU对CelebA数据集[44]提供了几个见解。特别是,作者确定了不同属性受男性标签影响的特定方式:属性可以根据敏感属性的标签受到更多或更少的偏差,并且可以以超出数据集中标签相关性的方式产生偏差。这些见解使作者能够更好地理解去偏技术可能在该数据集上的表现。例如,尝试重新平衡数据集或提高Blond_Hair[59, 61]组准确性的方法可能会遇到困难,因为偏差并非由于金发的存在,而是一个隐藏的混杂因素。

结论部分,作者提出了Attention-IoU,这是一种通过注意力图识别和解释虚假相关性的度量标准。作者通过在Waterbirds [59] 和CelebA [44] 数据集上的验证来展示该度量标准的有效性。在CelebA数据集中,作者表明该度量标准以及 Mask 和 Heatmap 得分揭示了超越数据集标签和模型准确性的方面,重新语境化了之前对CelebA的分析。对其他数据集和任务中Attention-IoU的未来研究可以进一步揭示计算机视觉模型中偏差的本质。

参考

[1]. Attention IoU: Examining Biases in CelebA using Attention Maps

picture.image

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称)

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论