备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
视觉语言模型(VLM)的嵌入层已经证明可以编码其训练数据中存在的偏见,例如,社会偏见将负面的特征赋予各种种族和性别身份的成员。VLM正在迅速应用于各种任务,从少样本分类到文本引导图像生成,因此,对VLM嵌入进行去偏的重要性不言而喻。
然而,许多去偏方法在微调VLM时往往会出现灾难性遗忘。另一方面,去偏训练免费的方法通常采用“一概而论”的方法,该方法假设可以用所有可能的输入上的单一线性方向来解释与伪属性相关的关联。
在本工作中,作者提出了一种称为Bend-VLM的非线性、去偏训练免费的方法,该方法针对每个独特的输入自定义去偏操作。这使得作者的去偏方法更加灵活。
此外,作者不需要在推理时间之前就拥有输入集合的知识,这使得作者的方法更适合用于在线、开放集任务,如检索和文本引导图像生成。
1 Introduction
预训练的基础视觉语言模型(VLMs),如CLIP [33],BLIP [22],以及LLaVA [25],已在诸如图像检索 [21],零和少样本分类 [33; 4],文本引导图像生成 [32],以及人脸识别 [58]等领域得到广泛应用。然而,VL模型也编码了社会偏见 。随着越来越多的系统依赖CLIP,编码的表示性危害 [12; 3; 15; 52]可能导致分配性危害,例如计算机视觉系统将黑人个体错误分类为非人类类别的可能性是普通人的三倍 [1]。
最新进展 去偏见VLMs是一个活跃的研究领域。一种常见的做法是微调嵌入模型以消除伪相关性[59; 2; 42]。然而,微调通常会降低基础模型的准确性和泛化能力[31]——这是一个明显的缺陷,因为这些模型通常用于零样本任务。大多数现有的无微调方法学习的是初始文本嵌入的偏见转换,但通常使用一劳永逸的_线性_偏见函数,对每个输入应用相同的固定转换[6; 10; 50]。
虽然最近的研究探讨了非线性VLMs [11],但它们的方法在测试时需要访问一组类别,这需要重新运行去偏训练 Pipeline ,如果针对新类进行 Query 。这在实践中是一个主要限制,因为许多VLMs用于的任务通常具有自然开放式,即在推理之前,测试时需要评估的类别未知。
问题定义:作者研究VLM嵌入的在线开集去偏。在这种设置下,作者只拥有一个VLM以及一个单模态图像数据集。这个图像数据集仅用于“训练”,而不是下游任务实际使用的数据集。作者假设这个数据集,作者称之为_参考数据集_,具有感兴趣的保护属性的标签。在测试时,作者一次接一次地收到在线输入 Query 。这些 Query 也是开集的,意味着它们所指代的类别或概念事先未知于作者。例如, Query 可能是一个“护士的照片”,但在收到 Query 之前,作者并不知道护士是可能的感兴趣类别。作者的目标是使 Query 嵌入从VLM中去偏,从而使 Query 嵌入与任何其他保护属性的值关联程度更低。例如,“护士的照片”的嵌入不应比男性照片更强烈地与女性照片相关联。
挑战。在线开放集VLM去偏化是一个具有挑战性的任务。首先,作者必须克服灾难性遗忘——一种可以降低嵌入的偏斜度,但降低性能的解决方案。其次,受保护属性和 Query 类之间的互动可能是非线性和实例相关的。例如,要从“护士”的嵌入中消除性别偏见所需的转换,可能与要从“修理工”的嵌入中消除性别偏见所需的转换不同。第三,来自开放集类的 Query 意味着作者的方法必须足够灵活,可以在推理时间之前从类中移除受保护属性的关联。最后,在线设置需要计算效率,因此排除了为每个当前类或 Query 重新构建去偏化组件的可能性。
作者的建议是:消除视觉语言模型(VLM)的偏差,即Bend-VLM,这是一种在测试时对VLM进行非线性去偏的方法,在保持VLM权重不变的同时,具有足够的效率用于在线 Query 。通过使用易于获取的带有保护属性的预去偏参考数据集,Bend-VLM可以在无监督的情况下进行测试时去偏。从高层次来看,Bend-VLM主要由两个主要部分组成:
首先,对于一个在线 Query ,作者生成增强 Query ,引入受保护属性的信息。例如,给定“一名护士的照片”,作者生成“一名{ATTRIBUTE}护士的照片”,其中{ATTRIBUTE}用男/女/非二元表示性别去偏。作者从一个小语言模型中获取这些增强 Query ,并使用它们在嵌入空间中找到与受保护属性最相关的特定 Query 的方向。根据这些方向,作者将嵌入投影,使其与受保护属性维度正交,从而得到第一阶段的去偏表示。
在第二步中,作者利用参考图像数据集。作者找到与 Query 最相关的图像,然后通过保护属性值进行子集。作者通过求解一个约束优化方程来找到一个具有最小距离到第一阶段去偏化表示的嵌入,同时与每个属性值下的示例图像具有相等的相似性。例如,作者找到一个与每个性别最近的图像具有相等相似性的嵌入。得到的嵌入与任何其他去偏化受保护属性值都没有过多的关联。然后将输出传递给下游任务。
贡献如下:
- 作者提出了一种名为Bend-VLM的新颖测试时VLM去偏方法,该方法无需微调。
- 作者提出了一种在飞行中实时寻找每个 Query 特定局部属性子空间的技术。
- 作者提出了一种使用参考图像数据集进行均衡化的创新方法。
- 实验评估了分类、检索和图像描述的设置,结果显示Bend-VLM在所有比较方法中始终优于。
2 Problem Definition
让作者用一个示例来说明这个问题。假设作者有一个联合分布 来表示图像、文本、类别和属性的分布。在这个分布下,一个可能的实现如下:
是一个四元组,分别表示图像、文本、类别和属性。假设在推理过程中,用户 Query 了类别 "护士",那么 的值就是 "护士"。此时,作者并不知道 ,即 的支持集,是什么。这意味着作者不知道用户在推理过程中会 Query 哪些类别,并且没有访问带有这些类别标签的训练集。
让作者用 来表示文本嵌入模型(例如,CLIP 的图像编码器),并用 来表示图像编码器。在这里, 和 分别表示文本域和图像域。在通常情况下,作者将 VL 模型简称为 ,而不是其特定的模态编码器。 用于获取 ,其中 是一个距离度量,例如余弦距离。在实际应用中,这些(图像_, 文本_)距离分数用于零样本分类或图像检索。
让作者设 是一个与类别 相关的文本实例,例如,类别 可以表示护士,而 可以表示 "一张护士的照片"。那么,作者的目标是获得一个文本嵌入 ,该嵌入在类别 条件下是公平的。
参考和目标数据集。在实际中,作者假设有一个包含N个图像及其标注属性的数据集 。例如,可以是一个包含具有相应性别、种族或年龄标签的人的图像的数据集。作者关注图像检索和零样本分类两种设置。这个 参考 数据集将用于获取去偏的文本嵌入,作者将在下一节中详细说明。作者将用于检索或零样本应用的下游数据集称为 目标 数据集 。在推理之前, 不可用。
针对检索任务,作者假设 是一个未标注的图像数据集,作者的目标是从中检索与流媒体、开放式 Query 相关的图像。例如, Query 可以是来自搜索引擎用户的自由形式文本搜索。在这种开放式场景下,类集 是未知的 -- 用户将搜索什么类在事先是不确定的。
对于零样本分类,作者同样关注 Stream 、开集场景。中的图像将与其他一组文本进行比较,以进行分类,其中这组文本与类相关,其中对作者未知且可能变化。例如,用户可能首先希望获得中肖像的头发颜色的零样本预测,之后希望获得个人是否戴眼镜的预测。
在两种设置中,作者做如下简化假设:每个用户 Query 没有明确引用感兴趣的受保护属性。例如, Query 是 "一个护士的照片",而不是 "一个男性护士的照片" —— 因此, Query 嵌入不应与特定性别相关联。在 Query 包含对 的明确引用("一个男性护士的照片")的情况下,可以通过使用语言模型过滤这些 Query ,或检查显式的属性术语 3 来避免偏差。
3 Methodology
在高层次上,作者的Bend-VLM方法包括一个两阶段的去偏置 Pipeline 。作者首先使用[24; 9]将正交化到属性子空间的经典方法进行初始去偏置。然而,与大多数先前的作品不同,作者不假设属性子空间对所有 Query 都是全局常数;它可能是这样的情况,即对应"一张男护士的图片"和"一张女护士的图片"的嵌入空间方向不同,而"一张婴儿男孩的图片"和"一张婴儿女孩的图片"之间的性别方向可能不相等。
作者使用属性增强模块找到这些局部属性子空间,以获得属性增强的。经过第一阶段后,作者得到了部分去偏置的嵌入。
作者的第二个和最后一个去偏化步骤是将每个属性类中的参考数据集中与嵌入相关的图像之间的距离进行均衡化。作者通过求解一个约束优化方程的解析解,得到了最终的去偏化嵌入。
Step 1: Making The Embedding Orthogonal To Local Attribute Subspace
针对属性子空间进行正交化文本嵌入,例如将性别或种族对应的嵌入维数设置为零,是用于标准文本嵌入的经典方法[24; 9],最近在去偏VL模型[10]中也显示出前景。然而,现有方法通常为实例找到单个属性子空间,而作者在全局子空间之外还找到了局部属性子空间。
让作者假设 是输入系统的初始文本 Query 。然后作者得到 对于 的所有 。在资源较少的设置下,通过更简单的文本处理技术实现属性增强可能是可行的,例如在 Query 主题之前插入相应的属性字符串,例如为性别平权插入 "男" 和 "女"。
令为矩阵,其列分别为,其中,为的大小。为应对估计局部属性子空间产生的潜在噪声,作者在的列中还包含通用属性文本嵌入。例如,对于性别去偏,作者包括“一张男人的图片”和“一张女人的图片”的嵌入。然后,作者得到初始去偏嵌入如下:
是矩阵 的单位正交投影矩阵[10]。
重要的是,尽管与局部属性子空间正交,但它不一定在条件于“偏置”属性时的相关实例的图像嵌入上具有相同的相似度。
Lemma 1 (正则化不一定能保证类条件公平性。):
在一般情况下,以下不成立:
作者在图1中展示了这一点,如图1所示,第一步并没有显著改善CCF距离。为了缓解这一问题,作者提出第二步去偏方法。
Step 2: Using Reference Images To Equalizing the Text Embedding
在第二阶段,作者使参考数据集 中每个属性类别的图像与文本嵌入 之间的距离相等,目标是为了使每个属性组的相关图像与文本嵌入具有相同的相似性。令 表示与属性类 和类 相关的参考数据集中的图像。作者希望找到满足以下条件的嵌入 :
这些约束条件表示,所有属性值分裂之间的相关图像嵌入的平均距离应相等。例如,“一个护士的画像”的嵌入与相关男性图像之间的距离应与嵌入与相关女性图像之间的距离相等。
请注意,由于作者不假设对 具有上下文标签的访问权限,因此尚不清楚如何立即获得每个 。相反, 是通过选择具有 属性值的 个与 Query 嵌入 最相似的图像来实现的。值 可以通过变化点检测来确定,即 是图相似度得分按降序排序的索引处的肘点值 [38]。在实践中,作者发现一种不太复杂但有效的方法是将 作为一个超参数,并为每个属性和 Query 使用相同的值。
寻找满足的嵌入并非足够,因为作者希望确保去偏的嵌入不会失去与受保护属性无关的信息。这意味着作者要找到一个距离前一次去偏嵌入最小的去偏嵌入:
因此,作者通过求解以下约束优化方程来找到 :
方程1在二元特征情况下具有简单的解析解,当时为余弦距离且每个嵌入具有单位范数长度。
Lemma 2 : 最小化初始嵌入 与图像嵌入公平约束之间的距离的 的值为:
具体翻译结果如下:
其中λ由以下给出:
类条件公平距离用于文本嵌入 类 ,以及度量 的计算方式如下:
( 这 里 插 入 您 的 公 式 )
其中, 是 的平均嵌入。
在嵌入长度为1的要求简化了解析方案之后,作者在集合 中添加了范数约束 。在保护属性不是二进制的情况下,可以使用约束优化解算器 [48] 找到 。
在获得此最终去偏置步骤的结果后,作者修改后的嵌入可以向下游任务(如在目标数据集上的检索或零样本分类)传递,或用于条件其他模型(如文本到图像生成器)。
4 Experiments
作者将作者的Bend-VLM与现有的去偏方法在FairFace[18]、CelebA[26]和UTKFace[57]数据集上进行了比较。每个数据集都包含人的图片。CelebA具有性别标注,而FairFace和UTKFace都具有性别和种族标签。
作者评估去偏方法在改进CLIP-ViT-Base-Patch16(CLIP-ViT-B-P16)和CLIP-ViT-Large-Patch14(CLIP-ViT-L-P14)VLMs性能方面的能力。在图像描述方面,作者使用ClipCap [30]预训练在Conceptual Captions [41]上,它使用ViT-B/32架构。作者使用Mistral-7B-Instruct-v0.2 [17]作为作者的AttributeAugment模块。
相较于方法。作者将Bend-VLM与以下去偏方法进行比较:
基准CLIP模型[33]就是原始CLIP模型(例如ViT-B-P16或ViT-L-P14)去掉任何去偏置步骤。这作为作者的基准。
正交投影通过使 Query 嵌入与全局伪属性子空间(例如,与性别相关联的嵌入空间方向)正交来降低 Query 嵌入的偏差。
同样地,正交校准(Orth-Cal.) [10] 也将嵌入向量正交于全局伪随机子空间,但引入了额外的正则化项,以鼓励属性增强的 Query 在投影后变得较为接近。
DebiasCLIP [6] 针对性别偏见进行了 CLIP 模型的微调,以消除伪属性偏见。作者们已经发布了在 CLIP-ViT-B-P16 上进行性别平权训练的 DebiasCLIP 的权重,但尚未公开其训练代码。这意味着作者在使用 CLIP-ViT-B-P16 进行实验时,仅将此方法作为比较目标。请注意,尽管发布的 DebiasCLIP 模型进行了性别平权训练,但作者将其纳入了种族平权评估,但不期望它在这些设置中具有竞争力。
实现细节。作者将每个数据集的参考和目标数据分别分为50/50的比例。此外,作者还为目标数据集创建了5个折叠,以便计算所有方法的置信区间。在选择计算每个 的 个最相关图像时,作者选择了 (参见第3.2节)。对于Orth-Cal和Orth-Proj的主要超参数,作者使用默认可选值 。在检索过程中,作者始终从目标数据集中采样500张图像。作者的参考和目标数据集分别来自每个数据集预先建立的训练划分。
评估指标。作者测量 ,即属性先验 (例如目标数据集中的性别真实分布)和 (给定目标数据集的 Query 所检索到的属性标签的实证分布)之间的 KL 散度。直观上,如果 Query 在计算相似性时并不依赖该伪属性,那么检索到的实例(例如最相似的实例)应导致与伪属性总体分布匹配的实证属性分布。例如,如果一个数据集包含 40% 的男性(males)和 60% 的女性(females),那么如果作者独立于性别进行采样,作者应该检索到大约 40% 的男性(males)和 60% 的女性(females)。作者还报告了属性先验和实证检索分布之间的最大偏斜度,。
对于零样本分类,作者使用 Query 和检索集中每个组中图像的相似度作为得分,计算每个组的AUC ROC。然后报告最差组AUC ROC:,其中是余弦距离,是余弦相似度。最差组AUC ROC告诉作者,对于最不利的群体成员,相似度分数对文本嵌入在零样本分类中的有用性如何。
Query 集。由于CelebA具有发色类标签,作者使用一组与发色相关的 Query ,作者称其为HairColor,以便通过Worst Group AUC衡量零样本分类性能。HairColor是{"一张明星的发色为{COLOR}的照片"}的集合,其中COLOR{金发,黑发,棕发,灰发。作者还使用 Query 集Stereotypes,这是一个包含诸如"不良少年"和"恐怖分子"等负面词汇的集合,这些词汇来自So-B-IT VLM审计分类法[15],该分类法已知存在种族和性别偏见。作者的每个 Query 都在附录中给出。
Optimizing Accuracy And Minimizing Fairness
作者通过Worst Group AUC ROC以及KL散度和MaxSkew偏置度指标研究了去偏对准确性的影响。作者使用CelebA,因为它具有HairColor的类别标签。
图2显示了Worst Group AUC与MaxSkew之间的关系。理想的方法应位于图的最左上角,表示高精度和低偏差。作者的Bend-VLM方法接近这个理想区域。作者在 Baseline 上的Worst Group AUC提高,大致上匹配了Orth-Proj和Orth-Cal的AUC性能,但它们的偏差明显更低。DebiasCLIP的MaxSkew优于Orth-Proj和Orth-Cal,但仍然比Bend-VLM差,同时与 Baseline 相比AUC降低。作者在附录A.1节中提供了这个实验的额外结果;请参阅表6,其中包含了相同设置的结果,以及KL散度度量。作者明显看到,Bend-VLM的偏差评分显著优于所有比较方法,同时与下一个方法相比AUC明显更好,而与 Baseline 相比AUC几乎无损。
Mitigating Stereotype Bias
作者在消除成见词汇与种族和性别之间的关联方面评估了作者的方法。UTKFace、FairFace和CelebA的结果分别列在表1、2和3中。作者再次看到,Bend-VLM在所有作者评估的场景中,与比较方法相比具有较少的偏见。值得注意的是,其他去偏技术通常优于 Baseline ,但有时会出现_更差_的MaxSkew或KL差异,而作者的方法从未观察到这种情况。
Interscertional Debiasing
作者进行了一项新实验,其中作者针对发色(HairColor)的公平性对FairFace进行去偏置,但在评估种族方面。作者不期望在性别去偏置任何方法后看到与种族偏见有关的改进。表4显示,在性别去偏置后,所有去偏置方法的种族偏见都有所上升。这反映了一个已知且令人沮丧的“Whac-A-Mole”问题,即在去偏置一个属性时,另一个属性的偏见通常会增加[23]。有趣的是,在仅执行Bend-VLM去偏置的步骤2时,作者没有看到种族偏见增加,这表明这种快捷方式问题最强烈地受到步骤1中执行的正交化操作的影响。其他去偏置方法也执行了类似的正交化步骤,并同样经历了这种快捷方式问题。
Debiasing Image Captioning
在本次实验中,作者评估了Bend-VLM对去偏自动图像描述的影响。作者研究了ClipCap [30](ViT-B/32视觉编码器,预训练于概念描述[41]),因为它是少数仅输入最终层嵌入向量的描述方法,相反,BLIP [22]或LLaVA [25]输入ViT的嵌入序列。
作者挑选了20张图像,这些图像的 Baseline CLIP 嵌入式表示生成的标题具有显著的负面影响或有害性。经过 Bend-VLM 去偏后,作者进行了手动检查,发现去偏后的6张图像中,有3张图像的标题变得更加有害,有11张图像的标题与原始标题相同。
接下来,作者从FairFace的验证集随机抽取1600张图像,这些图像生成的描述中包含了以下负面词汇: "abandoned","murder","homeless","accuse","kill","anime","arrest","surprised","blood","shot","pregnant","intoxicat","charged","bad day","permanently surprised","bandage","hit","wilful","no idea","prison","abuse","attack"。然后作者使用CLIP进行自动化情感分析。表5显示,Bend-VLM降低了每个种族的平均负面情感,并使这个平均值在各种族之间更加均衡。
5 Limitations and Broader Impact
为了实现Bend-VLM,作者需要一个具有受保护属性标注的参考数据集,这在某些场景下是不现实的。在作者的当前实现中,作者的AttributeSwap模块需要使用相对较小的7B LLM。这可能在非常资源受限的情况下带来过多的计算开销。此外,作者的评估数据集并非完美无缺。
它们只包含二进制性别标签,但有一大批人并不以这种方式进行自我认同。此外,种族和性别标签并非来自自我识别,这意味着它们只是身份的噪声信号。作者认为,作者的方法总体上有助于理解和减轻偏见,并且仍可以直接扩展以支持对减轻社会偏见极端挑战的更细微解决方案。
6 Related Works
近年来,视觉语言模型(Vision-Language models)越来越广泛地应用于各个领域。然而,这些模型已知存在伪相关问题,并且可能对某些种族和性别存在偏见[8]。研究表明,这些模型中的偏见可以源于它们所使用的训练数据。例如,Agarwal等人[1]发现,CLIP模型在将"白人"文本标签与白人个体相比时,准确度较低,而将黑人标签的图像更可能被错误地 Token 为动物。此外,Dehouche在 Prompt 性别中立的文本时发现了CLIP中的性别偏见,而Wolfe等人[53]指出,多族裔个体更容易被分配到少数族裔标签。这些模型中嵌入的偏见反映了训练数据的偏见,这些数据通常包含令人反感且成见的内容。
去偏视觉语言模型. 近年来,视觉、语言和视觉语言模型的去偏取得了各种减轻偏见的方法,范围从数据增强和平衡[7]到模型层面的调整,如对抗训练[45]。例如,Wang等人[50]提出删除与性别属性相关的CLIP嵌入维度的维度,而Berg等人[6]使用对抗学习通过 Prompt 学习去偏CLIP模型。其他技术包括学习可加性残差图像表示[40]和通过使用对比学习[56]和伪相关感知微调[55]提高CLIP的鲁棒性。Friedrich等人[13]开发了一个公平文本到图像扩散模型的查找表。同样,Kong等人[20]通过在 Query 结果中下采样主要类别解决了图像检索的测试时偏见,而Adept框架[54]使用去偏 Prompt 文本嵌入。Chuang等人[10]通过正交化与受保护属性相关的嵌入维度的嵌入,在不进行广泛微调的情况下减少了偏见。Kim等人[19]强调了在视觉语言模型中解决性别和种族偏见的重要性。尽管做出了这些努力,在不需要广泛再训练的情况下实现有效去偏仍然具有挑战性。相比之下,作者的方法完全零样本且不依赖于任何下游数据集或模型训练,旨在为去偏视觉语言模型提供更可扩展的解决方案,尤其是在开放场景中,当提供的是一段文本而不是多个类别时。
7 Conclusion
本工作提出了一种不需要fine-tuning的测试时VLM去偏方法,能够针对特定 Query 执行非线性去偏,而不是采用一视同仁的方法。作者在检索、分类和图像描述中消除种族和性别偏见实验表明,作者的方法在降低偏见的同时,始终能提高最差组的表现。
作者发现,作者的方法始终能匹配最佳表现方法的准确性,同时显著降低所有比较方法的偏见。作者希望作者的方法能激发更多关于VLMs高效、非线性去偏技术的科研工作。
[0]. BendVLM: Test-Time Debiasing of Vision-Language Embeddings.