https://arxiv.org/abs/2310.08659
预训练语言模型(PLMs)的引入标志着自然语言处理领域的变革性转变。它们在执行包括自然语言理解(NLU)和自然语言生成(NLG)在内的广泛语言任务方面表现出异常的熟练程度。这些模型通常包含数百万甚至数十亿个参数,导致计算和内存需求相当大。然而,这些模型的相当大的计算和内存需求带来了重大挑战,这一点得到了研究界的认可。
在本文中,作者介绍了一种新的量化框架,称为LoRA-Fine-Tuning-aware量化(LoftQ)。该框架专门为需要量化和LoRA微调的预训练模型量身定制。该框架积极地结合低秩逼近与量化,共同逼近原始高精度预训练权重。
上面的图展示了QLoRA在不同位数下的性能。左边:QLoRA在WikiText-2上初始化LLAMA-2-13b。右边:将QLoRA应用于WikiText-2语言模型任务中的LLAMA-2-13b。较小的困惑度表示更好的性能。
量化方法。应用两种量化方法来证明LoftQ与不同的量化函数兼容:
- 均匀量化是一种经典的量化方法。它将一个连续区间均匀地分成2N个类别,并存储一个局部最大绝对值以进行反量化。
- NF4及其2位变体NF2是QLoRA中使用的量化方法。它们假设高精度值来自于高斯分布,并将这些值映射到具有相等概率的离散槽中。
对所有模型进行了2位和4位量化,分别在4位和2位级别上实现了25-30%和15-20%的压缩比。所有实验都在NVIDIA A100 GPU上进行。
通过对各种下游任务(包括NLU、问答、摘要和自然语言生成)进行广泛的实验,评估了他们的量化框架。这些实验的结果表明,LoftQ在所有精度级别上始终优于QLoRA。例如,通过4位量化,他们在XSum和CNN/DailyMail的Rouge-1上分别取得了1.1和0.8的提升。随着自然语言处理领域的不断发展,预计进一步的创新和优化将有助于弥合PLM的巨大潜力与实际部署之间的差距,造福于各种应用和用户。