论文题目:Extending LLMs’ Context Window with 100 Samples
论文链接:https://arxiv.org/pdf/2401.07004.pdf
已开源Github:https://github.com/GAIR-NLP/Entropy-ABF
一、概要
研究背景:
大型语言模型(LLMs)在处理长序列时,其预训练的上下文窗口大小限制了它们在需要长输入的下游任务中的应用。为了解决这一问题,研究者们提出了通过修改旋转位置嵌入(Rotary Position Embedding, RoPE)来扩展LLMs的上下文窗口的方法。
方案设计:
论文提出了一种新的RoPE扩展方法,称为“ entropy-aware ABF ”,它结合了调整RoPE的基础频率和缩放注意力logits的策略,以帮助LLMs高效适应更大的上下文窗口。这种方法通过动态注意力缩放来避免过度拉伸注意力logits,同时根据模型层的不同特性进行层依赖性调整,并在有监督的微调阶段结合“缩放注意力logits”与ABF来促进上下文窗口的扩展。
实验结论:
实验结果表明,与现有方法相比,“entropy-aware ABF”在微调性能和不同上下文窗口大小的鲁棒性方面都表现出优越性。特别是在只有 100个样本 和 6个训练 步骤的情况下,该方法能够将LLaMA-2-7B-Chat的上下文窗口扩展到 16,384 ,展示了极高的效率。
不同上下文窗口大小下,扩展方法的长上下文性能
二、讨论
1、为什么现有的RoPE扩展方法在实际应用中可能不如预期?
答案:现有的RoPE扩展方法,如Position Interpolation (PI)和YaRN,虽然在理论上能够扩展上下文窗口,但在实际应用中可能由于资源密集和缺乏比较实验来评估其适用性,导致实际效果不如预期。此外,这些方法可能没有充分考虑到LLMs在处理长序列时保持注意力集中的内在需求,这可能会影响模型在长上下文任务上的性能。
2、“entropy-aware ABF”方法在上下文窗口扩展中的优势是什么?
答案:“entropy-aware ABF”方法的优势在于它通过动态注意力缩放和层依赖性调整来更灵活地适应不同输入位置的注意力分布,从而更好地维护模型在处理长序列时的注意力集中。此外,该方法在有监督微调阶段结合了“缩放注意力logits”与ABF,这有助于模型学习在处理长序列时保持集中,从而在长上下文任务上表现出更好的性能。
3、在实际应用中,如何有效地利用训练数据来扩展上下文窗口?
答案:在实际应用中,可以通过训练模型在短的、与领域相关的样本上,然后从这些模型开始进行上下文窗口扩展,而不是直接在长样本上进行训练。这种方法可以作为上下文窗口扩展的良好起点,因为它能够有效地利用有限的训练资源,同时保持模型在原始上下文窗口内的性能,同时展示出一定的超出微调长度的外推能力。
推荐阅读
- • TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • 2023年最新LLM发展时间线一览(ChatGPT、LLaMA等)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。