vera：一个对比lora可训练参数降低10倍的新微调策略 - 文章 - 开发者社区

“ 一个可能没什么用但是挺好玩的工作，另外刚刚开到CMTEB上有个tao的开源模型刷榜了，关注向量模型的朋友可以测试一下效果。


        
          
https://arxiv.org/abs/2310.11454

随着自然语言处理应用范围的不断扩大，对于能够以最小的计算复杂性和内存需求有效理解和执行特定指令的模型的需求也在增长。本研究强调了现有方法的局限性，并提出了一种名为VeRA的新方法，旨在优化指令微调过程的显存占用。

语言模型通常需要在内存和计算需求方面得到帮助，这使得它们在实际应用中效率较低。为了解决这个问题，研究人员引入了VeRA，一种新方法，使得Llama2 7B模型能够仅使用140万个可训练参数有效地遵循指令。与先前采用的LoRA方法相比，这标志着显著的进步，LoRA方法需要159.9万个参数和64个秩。在保持性能水平的同时大幅减少参数表明了VeRA方法的有效性和潜力。

picture.image 今天模型生成的都不知道他在说啥，插个简单的补充。正常的lora是在每个linear层加入2个可训练的矩阵A、B，那一个linear就从y = wx 变成了 y = wx + BAx , 这里的BA虽然矩阵参数量不大，但是有没有可能再进一步缩小参数量呢？有的，那就是本文的VeRA，变一下 y = wx + , BA是一个随机的，冻结的矩阵，而且每个插的lora层之间共享，b和d是可训练的对角矩阵。如下2图，相比lora，训练参数量降低的还是很明显的，效果也不错。

picture.image

VeRA方法的成功可以归因于其全面的微调策略，主要集中在所有线性层上，除了最顶层的词表映射。此外，利用单GPU训练的量化技术和Alpaca数据集的清理版本的利用对展示VeRA能力起到了重要作用。研究团队在Alpaca数据集的10000个样本子集上进行了训练，并进行了全面的学习率扫描，以确保最佳性能。对数据选择和训练方法的这种细致入微的方法凸显了研究结果的稳健性和可靠性。

在评估阶段，研究团队采用了类似于Chiang等人的方法，针对一组预定义的80个问题生成模型响应，并使用GPT-4评估这些响应。结果呈现在表4中，突出了VeRA方法的卓越表现，即与传统的LoRA方法相比，综合得分更高。这一显著成就强调了VeRA方法在实现增强的指令遵循能力的同时保持最佳效率方面的有效性。

VeRA方法的影响超越了其直接应用，它标志着指令调整和语言模型优化的范式转变。通过显著减少可训练参数的数量，VeRA有效地解决了应用语言模型中的一个关键瓶颈，为更高效和可访问的人工智能服务铺平了道路。这一突破对于依赖人工智能驱动解决方案的各行各业和领域具有巨大潜力，为各种应用的指令调整提供了实用而高效的方法。

总之，VeRA方法的出现代表着语言模型和指令调整方法学发展中的重要里程碑。它的成功证明了在最小计算复杂性和内存需求下实现最佳性能的可能性。随着对高效实用的人工智能解决方案需求的不断增长，VeRA方法证明了人工智能研究持续进步以及其在改变各行各业和领域中的潜力。研究团队的发现标志着在追求更可访问和简化的人工智能解决方案方面迈出了重要一步，为自然语言处理和指令调整技术的未来创新和发展奠定了基础。