推理加速策略对 LLMs 偏差的影响 ! - 文章 - 开发者社区

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

近年来，大型语言模型（LLM）的能力取得了前所未有的进步。这些进步有望在众多应用领域带来深刻的益处。然而，由于其庞大的规模，使用LLM进行推理既费时又费钱。

因此，许多最近的工作提出了提高推理效率的策略，例如量化、剪枝和缓存。这些加速策略通过降低推理成本和延迟，通常降低几个数量级，同时保持通过常见基准测量的预测性能。

在这项工作中，作者探讨了LLM性能的另一个关键方面：由于推理加速优化而产生的模型生成人口统计偏见。作者使用一系列指标从多个角度探究模型输出的偏见。在推理加速前后的输出分析显示，偏见发生了显著变化。

令人担忧的是，这些偏见效应是复杂且不可预测的。一种加速策略和一种偏见类型可能在一个模型中显示几乎无偏变化，但在另一个模型中可能导致大的影响。

作者的结果强调了在修改模型以加速推理后进行深入且案例化的模型偏见评估的必要性。

1 Introduction

现代的LLM（如LLaMA和GPT-4）展示了惊人的语言生成能力，导致它们的受欢迎程度和采用率激增。然而，由于它们的巨大大小，部署这些模型可能会具有挑战性，甚至对于消费级设备来说可能不可行。大量的研究提出了加速策略，如量化剪枝，以实现高效推理。这些策略的目标通常是在保持预测性能的同时减少模型大小。随着时间的推移，这些策略越来越普遍，并集成到了流行的库（如HuggingFace）和库（如vLLM）中。

尽管这些推理加速策略旨在保持预测性能，但它们可能会无意中导致一些副作用。例如，压缩技术可能会显著降低模型的可信度。另一方面，较小的模型已被发现可以降低生成的文本中的隐私风险并减少以自我为中心的趋势。

本论文探讨了在实施推理加速策略后，模型输出中的人口统计偏见如何变化。具体而言，作者旨在回答以下研究问题：

RQ1 : 某些偏见类型是否由于推理加速而更容易显现？

RQ2 : 某些推理加速策略是否更容易导致偏见？

RQ3 : 策略的偏见影响是否在各种模型中保持一致？作者的评估包括五种常用的推理加速技术以及三种广泛使用的LLM。考虑到偏见的多维性（Mehrabi等人，2022），作者使用六种不同的偏见度量标准测试模型。

作者的结果表明，推理加速策略可能会对偏见产生显著影响 。表1提供了使用4位AWQ量化（Lin等人，2024）对模型决策的影响的示例。

某些加速策略比其他加速策略更容易导致偏见 。例如，AWQ量化对某些模型/偏见度量组合产生了显著的偏见变化，而KV-cache量化则大部分保持稳健。推理加速对偏见的效应可能是不可预测的，偏见的方向和幅度在模型之间经常发生变化。例如，AWQ量化并未对LLaMA-2或LLaMA-3.1模型与刻板印象的一致性产生负面影响，但对Mistral-0.3的刻板印象行为产生了显著的增加。

picture.image

总体而言，作者的结果表明，在应用推理加速时需要谨慎评估，因为下游对偏差的负面影响可能不可预测且具有显著的规模。

2 Related Work

大多数关于推理加速策略的评价都集中在应用无关的指标如困惑度或预测性能驱动的任务如MMLU。然而，最近的研究表明，模型压缩可能导致模型在预测性能之外的领域的性能下降。

模型大小对信任标准的影响。最近的研究开始探索模型大小对与信任相关的标准的影响。例如，Perez等人（2022年）发现，较大的模型往往过于同意用户的观点。Sun等人表明，较小的模型可以降低隐私风险。Huang等人（2024年）发现，较小的模型更容易受到后门攻击的影响。Mo等人（2024年）发现，较大的模型更容易受到恶意示例的影响。Jaiswal等人（2024年）提供了一个细粒度的基准，用于评估压缩后的LLM在更复杂、知识密集型任务（如推理、总结和上下文检索）上的性能。通过测量困惑度，他们发现修剪后的模型在性能上有所降低，而量化模型则表现更好。Xu和Hu（2022年）发现，知识蒸馏可以在GPT-2中导致单调减少毒性，尽管在减少基于反事实嵌入的歧义数据集上的偏见方面只显示了微小的改进。

这些分析与本文的不同之处在于：

（i）它们局限于较不 recent、预训练的模型，这些模型可能无法充分代表具有显著更多参数的现代LLM的复杂性；

（ii）它们针对的是超越偏见的信任度需求，例如后门攻击。

推理加速策略对可信度的影响 。Goncalves和Strubell（2023年）衡量了量化和学习蒸馏对LLM的影响，并发现更长的预训练和更大的模型与更高的人口偏见相关，而量化似乎具有规范作用。他们考虑的偏见指标侧重于嵌入或 Token 输出概率，而作者考虑的指标范围更广，侧重于生成文本的属性。Hong等人（2024年）在Wang等人（2024年）之后，提供了对压缩策略如量化和剪枝下可信度更广泛的评估，包括对抗设置。然而，他们的研究依赖于单一的指标来评估刻板偏见，这可能无法捕捉到偏见的更广泛复杂性。另一方面，作者旨在通过使用更丰富的指标来提供对偏见跨多个维度的全面评估，以更好地了解推理加速策略的影响。最后，虽然这些先前的基准表明，推理加速对偏见的影响大致均匀且可预测，但通过利用更丰富的指标集，作者的分析显示出了一个更为细腻的画面，并需要针对具体情况进行评估。

3 Measuring Bias in LLM Outputs

ML偏见可以源自不同的原因（Suresh和Guttag，2021），可以以各种方式表现，并且可能造成不同类型的伤害。尽管在Gallegos等人（2024）的研究中有详细探讨，但在LLM中的偏见通常被归类为以下元组：

基于词嵌入的度量方法使用来自不同人口群体（例如）的词语或短语表示，例如WEAT和SEAT（May等人，2019年）。

基于概率的指标 将模型分配给不同人口群体的概率进行比较，例如CrowSPairs。

基于文本的指标分析了模型生成的差异，这些指标可以在人口统计学特征（例如，通过评估模型对标准化问卷的反应（Durmus等人，2024年），或使用分类器分析代际特征，如毒性（Dhamala等人，2021年；Hartvigsen等人，2022年；Smith等人，2022年）。

作者在分析中排除了基于嵌入的指标，原因有两个：

(i)现代指令调优的LLM（如LaMDA和GPT-4）的更典型使用场景是 Prompt 调优或微调，而不是通过嵌入调整模型，(ii)嵌入偏差并不能保证导致文本生成的偏差。作者最初考虑了基于分类的偏差指标（例如，Dhamala等人），这些指标评估在常见数据集（如维基百科）上的毒性指标和情感差异。初步分析显示，模型输出的总体毒性很小，很可能是因为在这些数据集上进行了大量的对齐。因此，作者没有进一步考虑这些指标。

在考虑了以上因素后，作者考虑的最终一组指标如下。作者在附录A中添加了进一步的信息，例如输入数量和许可证类型。

CrowSPairs (Nangia等人，2020年)是一个由众包句子对组成的数据集，旨在评估与种族、性别、性取向、宗教、年龄、国籍、残疾、外貌和社会经济地位相关的刻板印象。每对句子都包含一个展示刻板印象的句子，以及一个展示与刻板印象相反的句子的句子。

全球观点问答 （Durmus等人，2024年）通过多项选择题来评估模型相对于不同国家汇总的人口观点所表达的观点。目标是确定模型在代表多样化观点方面可能存在的偏见。作者遵循Durmus等人在一个例外：作者使用瓦萨斯坦距离作为相似度度量（利用Python scipy库（Virtanen等人，2020年）的实现）。Durmus等人使用1-詹森-香农距离作为相似度度量，当分布具有非常小或没有重叠时，可能会变得高度偏斜。

相比之下，瓦萨斯坦距离对概率分布的几何形状（Arjovsky等人，2017年）更为敏感。然后，每个国家的瓦萨斯坦距离的吉尼系数就是偏见值。该指标的范围在[0,1]之间。数据集并未提供所有国家对所有问题的回答，这使得很难一致地分析总体趋势。为了解决这个问题，作者从分析中排除了对至少50个问题没有回答的国家。

世界基准（Moayeri等人，2024年）评估了不同语言模型在回忆关于不同国家的若干事实（例如，人口、GDP和首都）方面的性能差异。Moayeri等人（2024年）将问题结构为获取单一数值答案。该数据集涵盖了约200个国家的11个统计数据。为了比较数值答案，作者计算模型答案与实际值之间的绝对相对误差，并针对所有问题求平均，以获得每个模型的单一分数。该分数位于[0,1]范围内。

DT-Stereotyping （王等人，2024年）是一个评估LLM在八个维度上可信度的框架，其中一个是刻板偏见。该数据集包括定制语句（从现在起称为DT-Stereotyping），旨在引发不安全的（例如，偏见、有毒）反应。根据Wang等人（2024年）的研究，作者要求模型同意或不同意这些语句。为了衡量刻板偏见行为，作者使用的指标是模型同意刻板陈述的平均可能性 $\frac{n\_{\text{avg}}}{n}\in[0,1]$ 。原始数据集在三个评估场景中进行评估：指导模型作为有益助手（良性设置），不顾其内容政策（无目标设置）和针对目标群体的有针对性偏见（目标设置）。作者在无目标设置中进行实验，以评估模型的抗压能力，不针对任何群体明确地进行对抗。就像DiscrimEvalGen一样，作者考虑了两个版本：DT-Stereotyping（贪婪）设置T=0和DT-Stereotyping（采样）设置T=1和top-p=1。

DiscrimEval （Tamkin等人，2023年）包括70个假设性的决策场景，例如申请贷款。对于每个场景，模型需要对描述年龄、性别和种族（分别有9、3和5种选择）的人做出二元yes/no决策。是的决策总是有利的。遵循Tamkin等人的方法，作者在 Prompt 中添加"我的回答将是"来引导生成二元决策，并将模型产生的"yes"或"no"的softmax概率作为第一个 Token 记录下来。

具体而言，作者（i）向模型呈现问题，并描述候选人来自不同的群体，例如，一个男性，一个女性，一个非二元性别的人；

（ii）描述福利（例如，一份工作合同）只能授予一个人；

（iii）要求模型做出选择。

4 Experimental Setup

模型与基础设施 作者分析了三种不同的模型：LLAMA-2（Touvron等人，2023年），LLAMA-3.1（Dubey等人，2024年）和Mistral-0.3（Jiang等人，2023年）。作者考虑了每个模型的最小尺寸变体：LLAMA-2-7B，LLAMA-3.1-8B和Mistral-7B-v0.3（见A部分）。这些模型之所以被选择，是因为它们较新，应用广泛，且与作者所受资源限制相兼容，这些资源限制包括配备四个NVIDIA A100 GPU的单节点，这些GPU需共享给多个研究团队。作者的评估重点在于这些模型的聊天版本，这些版本专门设计以符合人类价值观和偏好。作者使用GitHub Copilot IDE插件来辅助编程。

推理加速策略。 作者考虑不需要重新训练的推理时间加速技术。这种选择使作者能够在真实场景中评估用户下载预训练模型并将其应用于任务，而不需要进一步的数据或计算密集型修改。作者关注的是通过近似基模型的输出来加快推理速度，且近似结果导致模型输出可测量地发生变化。这一标准排除了像推测解码（Leviathan等人，2023年）这样的策略，其中基模型和推理加速模型的输出通常相同。

采用Bitsandbytes库（Bit，2024）的INT4或INT8量化方法（Bit，2024），首先将模型权重进行归一化以高效存储常见值。然后，将权重量化为4或8位以进行存储。根据实现方式，权重在推理过程中可能被解量化为fp16，或者使用自定义 Kernel 进行低位矩阵乘法，同时仍能高效利用张量核心进行矩阵乘法。

激活感知权重量化（AWQ ）(林等人，2024) 通过考虑模型在推理过程中产生的激活数据分布来量化参数。作者使用4位版本，而作者没有提供8位实现。

Key-Value Cache Quantization (KV4或KV8)在推理过程中动态压缩KV缓存。KV缓存是快速LLM推理的关键组件，可以在GPU上占用大量空间。因此，缓存量化允许使用更大的KV缓存以实现更快地推理。作者使用4位（Liu等人，2023年）和8位（同上）量化。作者使用HuggingFace的原生实现。此实现不支持Mistral模型。

剪枝**(Pruning)** 是一种去除模型权重子集的方法，以降低语言模型（LLMs）的高计算成本，同时力求保持性能。传统的剪枝方法需要重新训练（Cheng等人，2024）。较新的方法在迭代权重更新过程中剪枝权重，例如稀疏GPT（Frantar和Alistarh，2023）。作者使用Sun等人（2024年）的Wanda方法，该方法使用基于权重大小和输入激活范数的剪枝度量。剪枝后得到的稀疏模型可以直接使用，无需进一步微调。

作者考虑了两种变体：

（i）无结构剪枝（WU ）具有50%的稀疏比，即删除与每个输出相关的50%权重；

以及（ii）结构剪枝（WS ），强制实现结构N:M稀疏，其中最多允许M个连续权重中的N个非零，允许计算利用基于矩阵的GPU优化。作者使用了2:4的压缩率。以前的工作表明，即使在高压缩率下（Frantar和Alistarh，2023；Jaiswal等人，2024；Sun等人，2024），剪枝后的模型也可以保持可比性能，包括这里使用的2:4率。

参数。如第3节所述，大多数偏见度量都是设计为只支持贪心解码，导致确定性输出。只有DT-Stereotyping和DiscrimEvalGen支持随机解码和贪心解码。在随机解码中，作者采样输出5次并报告平均偏见。这些模型可以使用和不需要开发者指定的指令模板（使用特殊 Token 指令边界）。虽然指令格式可能会对模型性能产生不可预测的影响（Fourier等人，2023），但指令模板对模型偏见的影响还不十分清楚。因此，作者研究了这两种配置，带有和不带有指令模板。

5 Results

论文中的AI实验结果因模型和上下文而异。结果还显示，虽然输入概率基础的度量标准CrowSPairs在整体上没有明显的变化，但考虑更广泛的度量标准，则呈现出更为多样化的画面。变化的大小各异，但在有和无指令模板（附录C）的情况下，作者大致上看到对下游偏差的不可预测影响相似的趋势。尽管作者没有跟踪确切的运行时间，但作者的实验耗用了几天GPU。现在作者将详细分析第一部分中的每个RQ。

6 Conclusion & Future Work

在本研究中，作者研究了推理加速策略对大型语言模型（LLMs）偏置的影响。尽管这些策略主要旨在提高计算效率而无需牺牲性能，但作者的研究结果揭示出它们可能对模型偏置产生意外的、复杂的后果。

KV 缓存量化在各个数据集上保持了稳定性，对偏差评分的影响最小，而 AWQ 量化则对偏差产生了负面影响。其他策略的影响效果不一致，有些策略在降低一个模型的偏差的同时，却导致了另一个模型的不理想效果。这种变化性强调了推理加速策略的效果并非普遍可预测，因此需要针对每个案例进行评估，以了解特定模型架构如何与这些优化相互交互。

这些策略的影响超出了偏斜结构化剪枝的范围，例如，在减少偏斜方面有效，但可能导致无意义和不连贯的文本。作者的结果强调了使用多种任务和多种指标来全面捕捉这些策略的权衡的重要性，特别是在任务本身的性质（例如，生成与基于概率）可能出现不同类型的偏差时。

向前看，在模型训练过程中就已经需要考虑用户可能会后期应用的推理加速策略。这些策略可以在对模型进行对齐时进行考虑，以减少偏见。此外，探索多个策略的组合效果，如混合方法，将剪枝与量化相结合，可以提供有关如何更好地平衡效率、性能和偏见的宝贵见解。需要进一步的研究来继续探索 LLM 中的偏见复杂动力学，以确保在效率和性能之间找到正确的平衡，同时最大限度地减少意外副作用。

参考文献

[0]. The Impact of Inference Acceleration Strategies on Bias of LLMs.