Flash-Decoding：一种基于FlashAttention的新方法，可使长上下文LLM推理速度提高多达8倍 - 文章 - 开发者社区

“ 写在前面：从今天开始更换生成风格，以一种快速阅读的方式阐述这个工作具体在讲什么、有什么用，更偏向于summary。因为全文解读展现的效果不好，新的模式可能能够帮助读者更快速的了解相关工作。


        
          
https://princeton-nlp.github.io/flash-decoding/  
https://crfm.stanford.edu/2023/10/12/flashdecoding.html

大型语言模型（LLMs）如ChatGPT和Llama因其出色的自然语言处理能力而受到广泛关注，使得各种应用从文本生成到代码完成都成为可能。尽管它们的巨大效用，但这些模型的高运营成本构成了重大挑战，促使研究人员寻求创新解决方案以增强其效率和可扩展性。

由于生成单个响应的平均成本为0.01美元，将这些模型扩展到为数十亿用户提供服务，每个用户每天进行多次交互，相关费用可以迅速成为重大负担。这些费用可能会呈指数级上升，特别是在像代码自动完成这样的复杂任务中，模型在编码过程中不断参与。认识到优化解码过程的迫切需要，研究人员已经探索了技术来简化和加速注意力操作，这是生成连贯且与上下文相关的文本的重要组成部分。

LLM推理，通常称为解码，涉及逐步生成标记，注意力操作是确定总体生成时间的重要因素。虽然像FlashAttention v2和FasterTransformer这样的进展通过优化内存带宽和计算资源增强了训练过程，但在推理阶段仍存在挑战。在解码期间遇到的主要约束之一涉及注意力操作随着更长上下文的可扩展性。随着LLMs越来越多地处理更广泛的文档、对话和代码库，注意力操作可能会消耗大量推理时间，从而阻碍模型的整体效率。

研究人员引入了一种名为Flash-Decoding的创新技术，以应对这些挑战，并在之前的方法基础上进行了改进。Flash-Decoding的关键创新在于其对并行化的新颖方法，重点在于key和value的序列长度。通过将key和value分割成较小的片段，该方法可以在较小的批次大小和扩展上下文的情况下，高效地利用GPU。Flash-Decoding通过利用并行化的注意力计算log-sum-exp函数，显著降低了GPU内存需求，促进了整个模型架构的流畅高效计算。

为了评估Flash-Decoding的有效性，对最先进的CodeLLaMa-34b模型进行了全面的基准测试，该模型以其稳健的架构和先进的功能而闻名。结果显示，与现有方法相比，对于较长序列，解码速度提高了8倍，这令人印象深刻。此外，针对不同序列长度和批次大小进行的缩放多头注意力微基准测试进一步验证了Flash-Decoding的有效性，并展示了其在序列长度扩展到64k时的一致性性能。这种卓越的性能在显著提高LLM（大型语言模型）的效率和可扩展性方面起到了关键作用，标志着大型语言模型推理技术的重大进步。

picture.image

总之，Flash-Decoding已经成为解决大型语言模型解码过程中注意力操作挑战的一种变革性解决方案。通过优化GPU利用率和提升整体模型性能，Flash-Decoding有潜力大幅降低运营成本，并促进这些模型在各种应用中更易获取。这一开创性技术代表了大型语言模型推理领域的重要里程碑，为提高效率和加速自然语言处理技术的进步铺平了道路。