备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
作者研究了压缩基础视觉语言模型(Vision-Language Models)中的一个标准做法(量化)对模型产生社会公平输出的影响。
与单模态模型中压缩始终放大社会偏见的前期发现不同,作者在三个数据集和三个CLIP变体中评估了四种量化设置,得出的结果令人惊讶:
尽管单个模型表现出偏见,但由于量化,压缩后的模型群体中偏见的大小或方向没有一致的变化。
1 Introduction
量化(Gholami等人,2022年)是压缩深度学习模型的领先实践:它将模型的参数表示从32位浮点数转换为较低的字节宽度(例如,8位或4位整数),从而显著减少内存占用和推理延迟。然而,这些在数字表示上的转换可能会引入模型参数值的一小数值扰动,可能导致在量化后模型出现不期望的行为。在本文中,作者研究了量化对基础视觉语言(ViL)模型公平结果的影响。
相关工作 。大多数研究关注压缩导致的单模态偏见,如视觉或语言模型。Hooker等人(2019年)首次指出,压缩视觉模型导致的精度下降主要集中在一些类中,这些类被 "cannibalized"以在其余类中保持准确性。后续工作(Hooker等人,2020年)指出,压缩错误在训练分布中具有低表示的数据上影响较大,这通常与社会有意义特征相关,如性别和年龄。Silva等人(2021年)同样发现,提炼的语言模型 "几乎总是表现出统计显著的偏见。" 后续工作表明,压缩语言模型加剧了性别偏见并且,视觉模型压缩对面部分类准确性(Tran等人,2022年)、表情识别(Stoychev和Gunes,2022年)以及其他传统视觉任务(Paganini,2023年)有不同影响。
近年来,这些研究扩展到了不同领域如面部识别、医学诊断和多语言 NLP 等处的各种压缩技术。公平性感知的压缩方法分析了模型公平性、性能和环境影响之间的权衡。Yi-Lin Sung(2024年)甚至开发了一种专门针对ViL模型的压缩技术。然而,至今尚无研究关注多模态ViL模型的压缩公平性影响,这留下了这些技术如何影响集成架构的紧迫问题。
贡献 。作者通过广泛评估多模态ViL模型中的量化效应,重点关注社会有意义特征如性别、年龄和种族的公平结果,来解决这一知识鸿沟。与公平压缩的前期研究不同,作者的分析揭示了一个新的发现:
2 Methodology and Experiments
作者研究了三种常见的开源模型压缩量化方法: 来自 bitsandbytes集成到Hugging Face Transformers 的8位和4位量化,以及PyTorch的(Paszke等人,2019年)8位动态量化。
8位量化HuggingFace 。8位量化方法最初由Dettmers等人(2022年)在其关于LLM.int8(0)的研究中引入。这是实现模型压缩效率的重要一步。这种方法采用线性量化方案对权重表示进行量化,将权重量化为8位整数,同时保留更高精度的激活。与FP16表示相比,它可以将模型大小减少50%,通常比低位数的替代方案性能更好,尽管压缩比较小。这种方法的关键创新在于使用了向量量化的方法,独立地对权重矩阵的行或列进行量化,从而更好地保留了权重分布。
基于这项工作,Dettmers等人(2023年)提出了4位量化方法,他们的QLoRA方法利用了NormalFloat(NF4)数据类型。这种专门格式针对神经网络中通常观察到的权重分布进行了优化。与FP16表示相比,4位量化方法将模型大小减少了75%,使得在具有有限内存的消费级GPU上加载和推理更大模型成为可能。这种方法的关键方面是采用了分块量化。在这种方案中,权重矩阵被分成小块(通常为64或128个元素),每个块独立进行量化。这种方法允许进行更精细的量化,更好地保留权重矩阵的局部结构。
PyTorch 8-bit量化 。PyTorch 的动态量化(Paszke 等,2019)提供了一种值得考虑的互补方法。这种后训练技术专注于减少推理时间和内存使用,尤其是在 CPU 架构上。它将权重量化为 8 位整数,并在推理阶段动态量化激活值,利用动态范围计算飞行中的缩放因子。这种方法非常适合具有不同输入大小或动态计算图的模型。
作者选择CLIP(Radford等,2021年)作为基础对齐模型的代表性模型,并将上述量化方法应用于各种模型变体,这些变体跨越不同的训练数据来源。具体来说,作者考虑了具有序列长度32(B/32)和16(B/16)的基础视觉 Transformer (ViT)(Dosovitskiy,2020年)变体,以及具有序列长度14(L/14)的大规模ViT变体。
对于每个CLIP变体,作者考虑了一个在OpenAI WIT(Radford等,2021年)、LAION-2B(Schuhmann等,2022年)和DataComp-XL(Gadre等,2024年)上预训练的模型。作者发现,在DataComp-XL上训练的B/32变体的在线权重被破坏,导致评估了八个不同的模型,每个模型使用三种量化方法总共32种情况。
Evaluation Datasets and Metrics
作者在三个基准测试上评估,以验证量化模型是否既准确又公平。
零样本分类与检索。 作者在两个常见的基准任务上评估每个模型及其量化变体的准确性:在ImageNet(Deng等,2009年)上的零样本图像分类和在COCO(Lin等,2014年)上的基于文本的图像检索。量化变体本应具有与原始模型相似的准确性。
公平零样本分类。 FACET(Gustafson等人,2023年)数据集包含52个人相关类别的专家图像标注,包括年龄、肤色和性别呈现。作者通过为每个类别构建文本 Prompt ,并预测与图像中构建 Prompt 最相似的类来进行零样本分类。遵循Gustafson等人(2023年)的方法,作者将敏感组内两对值之间的差异(例如{"light","dark"}∈肤色)作为每个类别中真实阳性实例的召回率差异。较大的绝对值差异表示模型在组内成员中预测阳性实例的能力更好,而零差异表示组内机会均等。作者研究了在所有类别中测量的最大和最小差异。作者使用与Slyman等人(2024年)相同的敏感组,评估所有至少在两个子组中具有25个样本的类别中的性别表达,即阳刚 vs 阴柔呈现,较浅(1-4MST1)_vs_.较深(6-10MST)肤色,以及所有类别的中年年轻/年长年龄。
公平图像检索 。FairFace(Karkkainen和Joo,2021)为裁剪过的脸标注了感知到的种族、年龄和性别。
遵循(Seth等人,2023)的研究,作者评估了图像文本 Query 的顶部结果在验证集中敏感属性值的不同程度,使用MaxSkew@k(Geyik等人,2019)。对于 Query 的给定顶部图像集,令表示具有特定敏感属性值的实际比例,表示从完整数据集中真实率估计的期望比例。那么的偏差为:
Skew@k 是针对敏感属性单个值特性的。为了提供更全面的视角,作者报告最(最不)偏斜的属性值作为 MaxSkew@k (MinSkew@k)。MaxSkew@k 表示在 Top- 结果中具有特定属性值图像的“最大的不公平优势”(Geyik 等,2019),而 MinSkew@k 捕捉了子组的“最坏的代表劣势”。
在满足所期望图像比例与数据集中图像的真实分布相匹配的条件下,可以实现人口平权(Optimal MaxSkew@k=0)。遵循 Berg 等(2022)的研究,作者在与数据集中图像正交的 240 个(优/劣)正面描述中报告 MaxSkew@1000 的平均值,匹配种族、年龄和性别等测试属性和 Prompt 。类似于 Slyman 等(2024)的研究,作者将年龄分成:较年轻(0-19)、中年(20-49)和 较年长(50-70+)子组,以降低噪声。
3 Empirical Evaluation
如图1所示,所选的量化方法在不同的模型和任务上通常都能保持准确性。这一结果表明,作者所研究的方法在保留 Baseline 性能方面是有效的。否则,如果一种方法不能保持性能(例如导致随机预测),它可能轻松地满足许多常见的公平性标准。
公平性。作者将公平性评估视为成对的前后/量化测量,并使用成对t检验评估两个测量之间的差异的重要性。公平性的结果参差不齐。表1呈现了FACET的结果,作者观察到零样本图像分类中的机会不平等结果不一致。不同人口群体之间的差异各异,有些量化方法会导致轻微但相对统计显著的变化。如表2所示,FairFace在图像检索中展示了类似的不一致偏斜结果。作者注意到,这些观察结果未进行多重测试校正,而在这里观察到的轻微显著结果在大多数校正方法下可能消失。
局限性
作者的评估做了几个普遍适用性的限制假设。具体来说,作者只研究了在量化作为压缩方法下的CLIP模型。在将来,应用更先进的压缩方法(例如剪枝或蒸馏)、替代的配准模型架构,或更先进的ViL模型(例如BLIP(Li等人,2023年))进行VQA和图像描述任务将会是非常有吸引力的工作。
4 Conclusion
作者的研究表明,量化对多模态视觉语言(ViL)模型中偏差的影响既不一致也不统一,它在不同的模型、方法和数据集之间存在差异。
量化引入的偏差方向和大小各不相同,这表明量化对公平性的影响是复杂且依赖于具体情境的。
这些发现挑战了量化在所有设置中一致影响偏差的假设,强调了作者需要更细致地理解压缩技术如何在不同模型架构和应用中对公平性产生影响。
[0]. You Never Know: Quantization Induces Inconsistent Biases in Vision-Language Foundation Models.