研究继续预训练的数据配比分布策略,实现大模型上下文长度扩展到128K

大模型智能语音交互数据库管理服务

        
          
https://arxiv.org/pdf/2402.10171.pdf  

      

文章的核心假设是,长上下文建模能力,特别是利用任意输入位置信息的能力,主要是通过大规模预训练获得的,并且这种能力可以通过在适当数据混合上的轻量级持续预训练(continual pretraining)扩展到训练中未见的更长上下文(例如,从4K扩展到128K):

  • 数据量(Quantity):
  • 文章假设,通过大规模预训练,模型已经获得了在长上下文中利用信息的能力,即使预训练时的上下文长度远小于128K。因此,不需要大量的数据来注入这种能力。
  • 实验表明,使用500百万到50亿个token的数据进行持续预训练,足以使模型能够在128K的上下文中精确检索信息。这表明,模型的长上下文能力可以通过相对较小的数据量进行扩展。
  • 数据质量(Quality):
  • 领域平衡(Domain Balance):强调了保持数据源的领域混合比例的重要性。这意味着在构建数据混合物时,应该保持与原始预训练数据相似的领域分布,例如,保持CommonCrawl、C4、Github、Wikipedia、书籍、Arxiv和StackExchange等来源的比例不变。
  • 长度上采样(Length Upsampling):在保持领域混合比例的同时,文章提出了在每个领域内上采样长序列的方法。这意味着在每个数据源中,将原本长度超过4K的序列从大约30%增加到大约70%,从而在不改变领域混合比例的情况下,只改变训练文档的长度分布。

这种方法在大海捞针中的表现优于强大的开源长上下文模型,并缩小了与前沿模型(如GPT-4 128K)的差距。picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
DevOps 在字节移动研发中的探索和实践
在日益复杂的APP工程架构下,如何保证APP能高效开发,保障团队效能和工程质量?本次将结合字节内部应用的事件案例,介绍DevOps团队对移动研发效能建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论