https://arxiv.org/pdf/2402.10171.pdf
文章的核心假设是,长上下文建模能力,特别是利用任意输入位置信息的能力,主要是通过大规模预训练获得的,并且这种能力可以通过在适当数据混合上的轻量级持续预训练(continual pretraining)扩展到训练中未见的更长上下文(例如,从4K扩展到128K):
- 数据量(Quantity):
- 文章假设,通过大规模预训练,模型已经获得了在长上下文中利用信息的能力,即使预训练时的上下文长度远小于128K。因此,不需要大量的数据来注入这种能力。
- 实验表明,使用500百万到50亿个token的数据进行持续预训练,足以使模型能够在128K的上下文中精确检索信息。这表明,模型的长上下文能力可以通过相对较小的数据量进行扩展。
- 数据质量(Quality):
- 领域平衡(Domain Balance):强调了保持数据源的领域混合比例的重要性。这意味着在构建数据混合物时,应该保持与原始预训练数据相似的领域分布,例如,保持CommonCrawl、C4、Github、Wikipedia、书籍、Arxiv和StackExchange等来源的比例不变。
- 长度上采样(Length Upsampling):在保持领域混合比例的同时,文章提出了在每个领域内上采样长序列的方法。这意味着在每个数据源中,将原本长度超过4K的序列从大约30%增加到大约70%,从而在不改变领域混合比例的情况下,只改变训练文档的长度分布。
这种方法在大海捞针中的表现优于强大的开源长上下文模型,并缩小了与前沿模型(如GPT-4 128K)的差距。