LongQLoRA: 一个扩展大模型上下文长度的方法

大模型增长营销机器学习

        
          
https://arxiv.org/pdf/2311.04879v1.pdf  
https://github.com/yangjianxin1/LongQLoRA  

      

介绍了一种名为LongQLoRA的方法,用于有效地扩展大型语言模型(如LLaMA2)的上下文长度。LongQLoRA结合了位置插值(Position Interpolation)、QLoRA和LongLoRA中的Shift Short Attention等技术的优势。

扩展大型语言模型的上下文长度对于处理长文本任务非常重要。然而,直接使用更长的文本进行预训练需要大量的计算资源。LongQLoRA通过组合现有技术,实现了在单个32GB V100 GPU上将LLaMA2的上下文长度从4096扩展到8192甚至12000的目标。

picture.image

算法原理:

  1. 位置插值(Position Interpolation):将模型的预定义上下文长度扩展到目标长度。
  2. QLoRA:将预训练模型的权重量化为4位,以减少内存占用,并添加可学习的低秩适配器(LoRA)权重来恢复因量化造成的性能损失。
  3. Shift Short Attention:在微调过程中使用分组局部注意力机制,降低计算复杂度,节省GPU内存。

结论:LongQLoRA在PG19和Proof-pile数据集上取得了与其他方法相竞争的性能。对于LLaMA2 7B模型,LongQLoRA在上下文长度从1024到8192的范围内优于LongLoRA,并接近MPT-7B-8K。此外,作者还构建了一个长指令数据集,并使用该数据集将Vicuna-13B模型的上下文长度从4096扩展到8192,取得了良好的性能。

总之,LongQLoRA是一种内存高效且有效的方法,可以在有限的计算资源下扩展大型语言模型的上下文长度,并在各种任务上表现出色。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
亿万用户下高可用融合直播的应用实践
直播融合 CDN 调度系统承担了公司内所有直播流量的接入工作,对高并发高带宽场景支持友好,有完善的体系进行容灾降级、质量优化、成本优化。本次演讲将带大家了解直播融合 CDN 调度系统的整体架构及在抖音上的应用。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论