LoftQ-大规模语言模型的lora微调感知量化方法 - 文章 - 开发者社区


        
          
https://arxiv.org/abs/2310.08659

预训练语言模型（PLMs）的引入标志着自然语言处理领域的变革性转变。它们在执行包括自然语言理解（NLU）和自然语言生成（NLG）在内的广泛语言任务方面表现出异常的熟练程度。这些模型通常包含数百万甚至数十亿个参数，导致计算和内存需求相当大。然而，这些模型的相当大的计算和内存需求带来了重大挑战，这一点得到了研究界的认可。

在本文中，作者介绍了一种新的量化框架，称为LoRA-Fine-Tuning-aware量化（LoftQ）。该框架专门为需要量化和LoRA微调的预训练模型量身定制。该框架积极地结合低秩逼近与量化，共同逼近原始高精度预训练权重。

picture.image

上面的图展示了QLoRA在不同位数下的性能。左边：QLoRA在WikiText-2上初始化LLAMA-2-13b。右边：将QLoRA应用于WikiText-2语言模型任务中的LLAMA-2-13b。较小的困惑度表示更好的性能。

量化方法。应用两种量化方法来证明LoftQ与不同的量化函数兼容：

均匀量化是一种经典的量化方法。它将一个连续区间均匀地分成2N个类别，并存储一个局部最大绝对值以进行反量化。
NF4及其2位变体NF2是QLoRA中使用的量化方法。它们假设高精度值来自于高斯分布，并将这些值映射到具有相等概率的离散槽中。

对所有模型进行了2位和4位量化，分别在4位和2位级别上实现了25-30%和15-20%的压缩比。所有实验都在NVIDIA A100 GPU上进行。

通过对各种下游任务（包括NLU、问答、摘要和自然语言生成）进行广泛的实验，评估了他们的量化框架。这些实验的结果表明，LoftQ在所有精度级别上始终优于QLoRA。例如，通过4位量化，他们在XSum和CNN/DailyMail的Rouge-1上分别取得了1.1和0.8的提升。随着自然语言处理领域的不断发展，预计进一步的创新和优化将有助于弥合PLM的巨大潜力与实际部署之间的差距，造福于各种应用和用户。