摩尔线程突破LLM长对话内存墙！Round Attention让KV缓存直降56%，实现无损高效推理 - 文章 - 开发者社区

点击下方卡片，关注

「集智书童」

公众号

picture.image

导读

随着大语言模型（LLMs）中上下文窗口大小的增加，它们处理复杂、长文本任务的能力得到了提升。然而，随着对话轮次的持续，需要在GPU内存中存储大量的KV缓存，这显著影响了模型服务系统的效率甚至可用性。本文分析了来自真实用户的对话数据，并发现LLM推理表现出一个分水岭层，在此之后，轮次 Level 的注意力分布显示出显著的相似性。作者提出了轮次注意力（Round Attention），一种新颖的轮次 Level 注意力机制，它只召回和计算最相关轮次的KV缓存。实验表明，Round-Attention在不影响模型性能的情况下，节省了56%的内存使用。

1 引言

近年来，大语言模型的发展促进了语言模型服务在日常问题解决任务中的更广泛采用。然而，长时间的交互暴露出两个显著挑战。首先，由于自注意力机制的二次扩展，上下文长度的快速扩展导致巨大的计算开销。其次，尽管键值（KV）缓存可以缓解冗余计算，但它大幅增加了GPU内存需求，导致推理批次大小有限和GPU利用率低下。例如，配备40GB内存的NVIDIA A100只能容纳单个上下文长度为128K的LLaMA请求，其近50%的处理时间用于KV缓存访问。

为了提高推理效率，先前的研究探讨了LLMs的KV缓存驱逐和Sparse注意力技术，指出注意力本质上是Sparse的。这些方法要么将整个KV缓存存储在GPU内存中，在自回归过程中选择关键 Token 以减少交叉注意力计算时间，要么在CPU内存中维护KV缓存，在推理过程中逐个将 Token 传输到GPU内存中。前者并未减少GPU内存使用，而后者则产生了显著的通信开销。此外，当前方法通常需要计算每层最相关的 Token ，这需要昂贵的计算。

上述研究分析了词汇层面的上下文关系。Sun等人[2024]的研究分析表明，大多数RoPE之后的键与相邻词汇具有高余弦相似度，这为选择重要词汇提供了块级近似。LONGMEMEVAL基准测试探讨了记忆增强聊天助手的内存设计选项，并发现“轮次”是“最佳”的存储和利用交互历史的粒度。这与现实生活中个体交流的沟通习惯相一致，因为轮次比词汇更能清晰地表达更接近的上下文关系。

因此，作者通过多轮分析注意力矩阵，并识别出两种有趣的模式。首先，在目前流行的开源大型模型中，注意力分数的分布在不同层级的初始层表现出相当大的可变性；然而，从某一层开始，层与层之间的分布变得非常相似。其次，在单个对话轮次内，针对“问题”与先前对话轮次相关的注意力分数与针对相同先前轮次的“答案”计算出的注意力分数非常相似。

基于这些发现，作者提出了轮次注意力（Round Attention）方法，该方法利用了注意力矩阵的Sparse性。在推理过程中，它仅将最相关的轮次的键值（KV）缓存纳入注意力计算，并将完整的KV缓存卸载到CPU内存。轮次注意力在轮次粒度上存储和传输KV缓存，将每个轮次的KV缓存分割成两个完整的张量。由于第一个识别出的模式，作者只需要在特定层计算一次前k个

轮次，然后执行一次主机到设备（h2d）操作，将相应的KV缓存张量传输到GPU内存。这种方法与其他需要在每个层计算前k个

并按 Token 粒度传输KV缓存的方法形成对比，显著减少了与其他方法中提到的top-k计算和卸载相关的延迟开销。

作者的主要贡献如下：

• 作者在LLM部署后以轮次粒度剖析了注意力模式，并在实际应用中揭示了注意力矩阵中的两个启发性特征。
• 基于这些特性，作者设计了一种新颖的方法，称为“轮次注意力”，并关联了一系列用于长上下文对话的技术。这种方法以轮次粒度存储和传递KV缓存。
• 作者对所Round-Attention进行了广泛的实验。结果表明，该方法可以将GPU内存占用减少55%，且不会损失精度。更重要的是，得益于一次性的top-k选择和主机到设备（h2d）传输，Round-Attention相比标准的非卸载Flash Attention实现了更低的延迟。

2 相关工作

2.1 注意力矩阵分析

预训练大语言模型（LLM）中注意力权重的Sparse性，尤其是在长上下文场景中，已被广泛记录。马等[2024]研究了上下文中重要 Token 的分布，发现最近 Token 比远距离 Token 更重要。他们还发现，连续层之间的注意力分数相似，这一现象也曾在较小模型中观察到（肖等[2019]，博贾纳帕利等[2021]）。

穆等[2024]报告称，在Transformer层之间，尤其是相邻层之间，注意力权重非常相似。门等[2024]发现LLM层之间存在显著的冗余，其中某些层对模型贡献微乎其微。范等[2024]表明，对于某些任务，LLM可以在某些中间层达到与最终输出相当的结果。

2.2 KV缓存

许多先前的研究致力于KV缓存压缩以加速注意力机制并减少内存使用。H2O Zhang等人[2023]为历史注意力分数总和的重要KV缓存保留了一定的预算。FastGen Ge等人[2023]进一步对 Token 进行分类，并使用更复杂的策略仅保留部分KV缓存。TOVA Oren等人[2024]通过确定当前 Query 中永久丢弃的 Token 来简化策略。StreamingLLM Xiao等人[2023]使用注意力汇聚和有限的KV缓存处理无限长的文本。SparQ Ribar等人[2023]通过通道剪枝计算近似注意力分数，并通过这些分数选择重要的 Token 。Tang等人[2024]得出结论， Token 的重要性高度依赖于 Query ，并提出了Quest方法，该方法记录KV缓存页面中的最小和最大键值，并使用 Query 向量估计页面的重要性。

然而，这些方法面临着几个挑战。首先，识别topk注意力是非常昂贵的。例如，应用一个简单的搜索算法，如IVF Douze等人[2024]，需要访问超过30%的关键状态才能获得topk结果 Liu等人[2024]，这非常耗费计算资源。其次，这些方法将KV缓存保存在GPU内存中，以避免从CPU内存中加载它们，但这并没有减少KV缓存的总内存消耗，因此限制了最大上下文窗口和推理批大小。

一些论文尝试将KV缓存卸载到CPU内存中，以减少活跃GPU内存的使用。刘等人[2024]提出在CPU内存中为KV向量构建近似最近邻搜索（ANNS）索引，并在生成过程中通过向量搜索检索最相关的结果。孙等人[2024]存储低秩键缓存，并将值缓存卸载，以减少更大批量和更长时间序列的内存占用。陈等人[2024]存储LSH哈希表，并在CPU上运行注意力计算，这显著减少了注意力计算的工作量。然而，这些工作在 Token Level 传输键值（KV）缓存，在某些方法中，top-k选择是在每层基础上计算的，这意味着KV缓存也是逐层传输的，导致h2d传输产生显著开销。

3 方法论

本节介绍了圆注意力（Round Attention），这是一种新颖的方法，通过将注意力矩阵在圆 Level 上进行分解，以

对作为基本分析单元，用于多轮对话任务。目标是减少LLMs的内存占用和推理延迟，同时不牺牲其准确性。本节还将讨论圆注意力背后的技术套件。

3.1 注意力分布

给定输入序列

，标准的Transformer网络（Vaswani等，[2023]）通过在

上应用线性变换来计算一组 Query

、键

和值

。然后，它按照以下方式计算自注意力分数：

为

了

研

究

各

轮

次

之

间

的

注

意

力

模

式

，

作

者

定

义

第

层

第

轮

中

的

以

及

前

轮

中

的

注

意

力

分

数

之

和

为

：

\mathsf{q A t t e n t i o n}

{k}^{l}=\sum

{\substack{i\in\mathbf{q}

{n}}}\mathrm{Attention}(Q

{i}^{l},K_{j}^{l})