本文主要解决了什么问题
-
- 长上下文推理受到高计算需求的严重限制,现有方法虽然优化了注意力计算,但在每个层中仍处理完整的隐藏状态集,限制了整体效率。
-
- KV缓存随输入长度线性增长,导致GPU内存消耗巨大,难以扩展到更长的序列。
-
- 现有token剪枝方法存在局限性:部分方法主要关注解码阶段优化,对首个token生成时间(TTFT)改善有限;其他方法通过Sparse化注意力模式支持预填充和解码阶段,但非注意力组件未得到优化。
-
- 内存效率构成额外挑战:动态token剪枝方法保留全部KV缓存于GPU,导致内存消耗过大;将KV缓存卸载至CPU虽能降低GPU压力,但引入显著I/O延迟。
-
- 现有方法难以同时优化推理速度、内存使用和模型性能。
本文的核心创新是什么
-
- 提出了SlimInfer框架,通过在前向传播过程中动态剪枝非关键Prompt token来加速推理。
-
- 发现并利用了"信息扩散现象":随着关键token的信息通过各层传播,它会在整个序列中分布开来,表明即使剪枝隐藏状态中的过多token(包括关键token),LLMs仍能保持语义完整性。
-
- 引入动态细粒度剪枝机制,将Prompt划分为固定大小的块,并将每个块划分为更小的token单元,精确移除中间层隐藏状态中的冗余token。
-
- 设计了异步KV缓存管理器,利用剪枝决策的确定性,实现无预测器预取和高效的GPU内存管理,降低了内存使用和I/O成本。
-
- 采用重叠感知的KV交换策略,仅在活动块集发生显著变化时才触发异步KV缓存预取和卸载,使I/O与计算重叠,最小化推理开销。
结果相较于以前的方法有哪些提升
-
- 在单个RTX 4090上对LLaMA3.1-8B-Instruct实现了高达2.53×的首次token生成时间(TTFT)加速和1.88×的端到端延迟降低。
-
- 在LongBench上保持了近乎无损的精度,在不同任务类别中展现出一致且稳健的准确率,在大多数基准测试中均达到或超越了其他基线模型。
-
- 在Prompt KV缓存内存上减少了20.3%至56.6%,有效限制了推理过程中的GPU内存使用。
-
- 建立了强大的帕累托前沿,在大幅降低延迟的同时,实现了接近完整KV基线的准确率,在质量和效率之间提供了更优的平衡。
-
- 随着上下文长度增长,在TTFT延迟上呈现加速趋势,突显了在长上下文场景下Sparse预填充设计的优势。
局限性总结
-
- 论文中没有明确提及SlimInfer在极长上下文(超过128k)上的表现和扩展性。
-
- 剪枝策略需要调整多个参数(如块大小、token单元大小、KV交换阈值等),可能需要针对不同模型进行优化。
-
- 虽然减少了GPU内存使用,但需要额外的CPU内存来存储卸载的KV缓存,可能对系统整体资源利用带来挑战。
-
- 论文未详细讨论在多GPU或分布式环境下的扩展性,以及在实时推理场景中的表现。
导读
长上下文推理对于大语言模型(LLMs)而言,受到高计算需求的严重限制。尽管现有方法优化了注意力计算,但它们在每个层中仍处理完整的隐藏状态集,从而限制了整体效率。在本工作中,作者提出了SlimInfer,一个旨在通过在正向传递过程中直接剪枝非关键 Prompt token来加速推理的创新框架。作者的关键洞察是一种信息扩散现象:随着来自关键token的信息通过各层传播,它会在整个序列中分布开来。这一扩散过程表明,当在隐藏状态中剪枝过多的token(甚至包括这些关键token)时,LLMs仍能保持其语义完整性。受此启发,SlimInfer引入了一种动态细粒度剪枝机制,能够精确移除中间层隐藏状态中的冗余token。这种逐层剪枝自然地支持了一种异步KV缓存管理器,该管理器无需复杂的预测器即可预取所需的token块,从而降低了内存使用和I/O成本。大量实验表明,SlimInfer在单个RTX 4090上对LLaMA3.1-8B-Instruct实现了高达
的首次token生成时间(TTFT)加速和
的端到端延迟降低,且在LongBench上未牺牲性能。作者的代码将在论文被接受后发布。
1 引言
大语言模型(LLMs)在长文本任务中表现出色,例如摘要生成(Zhang et al. 2020; Kryscinski et al. 2022)、多文档问答(Yang et al. 2018)以及从扩展输入中检索信息(Bai et al. 2024)。扩展到更长的序列不仅能够实现更复杂的推理,还随着上下文长度的增加带来显著的计算和内存开销(Fu 2024)。在预填充阶段,自注意力机制(Vaswani et al. 2017)的时间复杂度与序列长度呈平方关系,使其成为长文本场景中的主要延迟来源。同时,键值(KV)缓存随输入长度线性增长,导致GPU内存消耗巨大。为缓解这些问题,已提出多种token剪枝方法。然而,现有的token剪枝方法存在若干关键局限性。部分研究(Zhang et al. 2023; Xiao et al. 2024b; Li et al. 2024; Yang et al. 2024; Wang et al. 2025; Cai et al. 2025; Hao et al. 2025; Nguyen et al. 2025)主要关注解码阶段的优化,对关键的首个Token生成时间(TTFT)改善有限。此外,其token驱逐策略常因移除上下文重要信息而导致准确率下降。其他方法(Lai et al. 2025; Jiang et al. 2024)通过Sparse化注意力模式(Deng et al. 2025)同时支持预填充和解码阶段。然而,它们在每个层级处理完整序列的隐藏状态,导致 FFN (FFNs)等非注意力组件未得到优化,限制了整体加速效果。内存效率也构成额外挑战。动态token剪枝方法(Fu et al. 2024)保留全部KV缓存于GPU,导致内存消耗过大且难以扩展至更长的序列。为缓解此问题,部分系统将KV缓存卸载至CPU(Tang et al. 2024),虽能降低GPU压力(Gong et al. 2024; Huang et al. 2024),但引入显著I/O延迟。较新的设计尝试预取KV片段以重叠数据传输与计算(Lee et al. 2024; Yang et al. 2025)。然而,这些方法常依赖预测器机制,增加了额外开销和复杂性。因此,现有token剪枝方法仍难以同时优化推理速度(Jiang et al. 2024; Huang et al. 2025c)、内存使用(Xiao et al. 2024b; Huang et al. 2025a)和模型性能(Huang et al. 2025b; Wnag et al. 2024)。
在本文中,作者提出了SlimInfer框架,该框架通过在前向传播过程中动态剪枝非关键 Prompt 词元来加速推理。SlimInfer基于一个作者称之为信息扩散现象的关键洞察:随着关键词元的信息通过LLM的层传播,它逐渐分布到其他词元表示中。这种扩散过程表明,即使剪枝了隐藏状态中的过多词元(包括最初必要的词元),LLM也能保持其语义完整性。受此洞察的启发,SlimInfer在中间层的隐藏状态中引入了动态逐层剪枝,逐步减少计算工作负载。为了在最大程度提高效率的同时保留关键语义信息,作者进一步引入了一种细粒度的、块状的重要性评估,仅保留上下文中相关的词元。这种剪枝机制与异步KV缓存管理器协同工作,该管理器利用剪枝决策的确定性,实现无预测器预取和高效的GPU内存管理。
作者对LLaMA-3.1-8B-Instruct(Grattafiori等人,2024年)和Qwen2.5-7BInstruct(Qwen等人,2025年)进行了广泛的实验。如图1所示,SlimInfer在单个NVIDIA RTX 4090 GPU上可达到高达2.53倍的首次token生成时间(TTFT)加速和1.88倍端到端延迟降低。同时,它在LongBench(Bai等人,2024年)上保持了近乎无损的精度下降。
2.2 KV 缓存卸载
这项工作通过将KV缓存从GPU卸载到CPU内存来解决长上下文推理的内存开销问题。Quest(Tang等人,2024)采用了一种简单的按需策略,仅在需要时获取KV条目。更High-Level的系统尝试预取KV缓存块,以使数据传输与计算重叠。InfiniGen(Lee等人,2024)使用部分模型权重和前一层的输入进行轻量级预演,并借助离线的奇异值分解(SVD)进行辅助。AttentionPredictor(Yang等人,2025)训练一个独立的CNN来预测注意力分数。然而,这些方法引入了显著的计算和工程开销。相比之下,SlimInfer通过利用其逐层剪枝设计,避免了这些限制,实现了一种无需预测器的预取策略,从而在不进行推测性估计的情况下实现高效的KV缓存传输。
2 相关工作
2.1 Token Pruning
剪枝方法旨在通过选择性地移除计算或内存中不那么关键的token来降低推理开销。许多方法通过维持固定大小的KV缓存来减少GPU内存占用。StreamingLLM(Xiao等人,2024b)保留初始token(注意力汇点)和近期token的滑动窗口,但丢弃中间token。H2O(Zhang等人,2023)提出了一种重 hitter预言机,该预言机会移除累积注意力分数低的token。类似地,SnapKV(Li等人,2024)利用 Prompt 的局部上下文来预测并保留对未来生成步骤重要的token。LazyLLM(Fu等人,2024)引入了基于token重要性的动态剪枝,但仍然保留GPU内存中的大多数KV条目,这限制了其对更长上下文的可扩展性。这些方法的主要局限性在于其不可逆的token移除,这会永久从GPU内存中删除KV条目。这种永久移除可能导致显著的精度下降,特别是在依赖上下文中分散的长程依赖的复杂任务中。与先前不可逆地丢弃被移除token的方法不同,SlimInfer将当前不相关的token(即被剪枝的token)卸载到CPU内存而不是丢弃它们,显著提高了性能并减少了GPU内存使用。其他方法通过在注意力图上引入Sparse性来加速计算。FlexPrefill(Lai等人,2025)、SpargeAttn(Zhang等人,2025b)通过为token块构建代表性向量采用块级启发式方法,实现粗粒度的注意力跳过。相比之下,MInference(Jiang等人,2024)根据部分注意力观察预测结构化Sparse模式。然而,它们仍然在每一层计算整个隐藏状态序列。因此,非注意力组件如 FFN (FFN)仍未得到优化,留下了进一步加速的显著空间,这限制了整体加速效果,尤其是在预填充阶段。SlimInfer通过直接剪枝隐藏状态本身来解决这一问题,从而减少了后续所有层的计算量。
3 动机
SlimInfer的设计灵感来源于以下核心见解:(1)信息扩散现象,该现象证实了激进剪枝隐藏状态的可行性;(2)这种剪枝策略自然为KV缓存预取提供了机会,从而进一步提升推理效率。
3.1 信息传播
传统的剪枝方法(Lai等人,2025;Jiang等人,2024)在加速注意力计算时通常保留所有隐藏状态,同时优化底层操作。相比之下,作者研究了一个更激进的方向:在正向传播过程中直接剪枝隐藏状态的可行性。为此,作者在LLaMA3.1-8B-Instruct(Grattafiori等人,2024)上进行了检测实验。如图2(左)所示,作者在不同层中选择性地移除对应关键 Prompt 词"278"的隐藏状态。当在较晚层进行剪枝时,模型能够成功回忆正确答案,但在较早层进行剪枝时会失败。为了进一步理解其底层机制,作者在图2(右)中可视化了所有Transformer层中解码词到 Prompt 词的注意力权重。在标准解码步骤中,第13层周围会出现明亮的垂直激活带,这表明解码词持续关注关键 Prompt 词(响应中的"278"对应 Prompt 中的
)。当在较晚层(即第25层)进行剪枝时,激活带在剪枝点处被突然截断。尽管如此,模型仍能产生正确输出,表明关键词的语义贡献在早期层的正向传播过程中已经有效地扩散到其他词中。相反,在第5层进行早期剪枝会阻止这种稳定注意力模式的形成。对应关键词的隐藏状态缺失导致第13层周围无关词上出现分散且微弱的垂直线。这种迷失的注意力范围反映了标准推理过程的干扰。见解。这一系列观察为SlimInfer提出了两个核心设计原则:(i)应保留早期层的隐藏状态以保持语义保真度,因为过早剪枝会破坏扩散过程;(ii)在后期层,即使原本重要的词的隐藏状态也可以安全地剪枝,表明存在大量冗余可被利用以减少计算。
3.2 预取机会
高效管理KV缓存是长上下文推理中的一个主要挑战,尤其是在将KV缓存卸载到CPU以节省GPU内存时。在后续推理步骤中从CPU获取卸载的KV缓存会引入显著的I/O成本(Lee等人,2024)。为了减少这种开销,先前工作引入了预取技术,该技术通过将KV缓存传输与计算重叠来隐藏延迟。然而,对于专注于Sparse注意力的 Token 剪枝,启用预取并非易事。如图3(b)所示,Quest(Tang等人,2024)根据当前的
表示从KV缓存(包括卸载的条目)中剪枝 Token 。在剪枝阶段(即Sel.)之后,用于获取的卸载KV条目是可用的。因此,在注意力之前不可能重叠数据传输(KV获取)与计算。为了允许预取,InfiniGen(Lee等人,2024)通过使用部分权重和离线SVD重演注意力模式来解决此问题,而AttentionPredictor(Yang等人,2025)训练了一个单独的CNN来预测未来的注意力分数。这两种方法由于其推测性质,引入了额外的计算和工程开销。分析。值得注意的是,在给定层的注意力之后应用上述隐藏状态剪枝(第3.1节),SlimInfer可以消除对预测机制的需求。如图3(c)所示,KV获取可以与FFN和QKV生成在后续注意力之前的计算重叠。基于此分析,SlimInfer可以在没有任何预测或启发式策略的情况下自然实现及时预取。
4 SlimInfer
4.1 框架概述
在本节中,作者提出了SlimInfer来加速长上下文推理。它结合了动态块状隐藏状态剪枝和无预测器KV缓存预取策略。具体而言, Prompt 词被划分为固定大小的块,这是一种常见的抽象方式,与GPU友好的批量操作高度契合,并支持高效的内存访问(Tang等人,2024年;Xiao等人,2024a)。在推理的任何时刻,如果一个块被认为是当前计算的关键部分,则称其为活动块。只有这些活动块参与注意力计算,其KV条目存储在GPU内存中。此外,作者的剪枝机制仅应用于 Prompt 词。相比之下,所有作为响应生成的词都被完全保留,以在整个生成过程中保持流畅性。如图4所示,推理分为两个阶段:
保留层。受作者对信息传播分析的影响,早期层保留了 Prompt 中的所有 Token 。
这确保了关键语义信息在模型中进行剪枝前具有足够的深度进行传播。
精简层。在后续层中,SlimInfer通过在推理步骤中动态剪枝隐藏状态的 Prompt 块来减少计算量。这由一个准确的重要性估计器指导,该估计器根据最近的解码上下文选择最相关的top-k块。剪枝决策(如第4.2节所示)在注意力计算后立即做出,并确定下一层的活动块集。该活动块集随后未经更改地通过后续层,直到下一次剪枝操作。
上述隐藏状态剪枝范式自然地支持高效的KV缓存预取,如第3.2节所述。此外,作者采用了一种感知重叠的设计(参见第4.3节)用于预取,以避免不必要的数据移动:仅当活动块集发生显著变化时,才会触发异步KV缓存预取和卸载,使I/O与计算重叠,从而最小化推理开销。
4.2 块状 Prompt 词剪枝
在此作者详细阐述了针对Slim Layers的特定剪枝决策。传统的基于块 Level 的token剪枝方法通常通过将整个块压缩成一个向量来估计每个块对当前解码上下文的贡献(Tang等人,2024;Yang等人,2025),这可能会掩盖细粒度的语义信息。为了解决这一局限性,SlimInfer采用了一种更具表达力的策略,将Key状态的每个 Prompt 块划分为多个更小的子集,称为token单元。这种设计能够在每个块内捕捉更细粒度的语义,从而在不牺牲块 Level 内存效率的前提下实现更准确的重要性估计。
具体而言,每个 Prompt 块
被划分为
个互不重叠的Token单元,其中每个单元由该块内的连续token序列组成。对于每个token单元,通过对其内部所有token的Key状态进行平均计算,得到一个代表性的Key向量
。
为评估块的重要性,作者通过平均最近
个token的 Query 向量,在预填充阶段从 Prompt 的末尾抽取或在解码阶段从解码token中构建 Query 状态
的局部窗口。对于块
中的每个代表性键向量
,作者通过每个注意力头的点积计算其与
的相似度。块级重要性分数随后定义为:
Double subscripts: use braces to clarify
其中
表示注意力头的数量,
索引块内的token单元,
索引注意力头。
除了动态评分外,作者的剪枝策略还强制保留结构上重要的模块以维持模型稳定性。具体而言, Prompt 的初始模块,通常作为注意力陷阱(Xiao et al. 2024b),无论其评分如何,始终保留在活跃集中。对于所有其他模块,选择重要性评分最高的前
个模块形成候选集
,用于后续计算。剪枝模块的KV缓存不会被丢弃,而是卸载到CPU内存,以便在后续解码步骤中再次相关时进行恢复。
4.3 无预测器KV缓存预取
为了减少GPU内存压力,SlimInfer将非活动 Prompt 块的KV缓存卸载到CPU。在后续的FFN和QKV生成过程中存在重叠。
在每个推理步骤
中,SlimInfer 维护一个活跃块集合
,其对应的 KV 缓存条目存储在 GPU 内存中以实现快速访问。为最小化不必要的数据传输,只有在该集合的组成需要发生显著变化时,才会启用交换操作(即卸载
预取)。具体而言,SlimInfer 首先建立候选激活集合
(参见第 4.2 节),该集合基于重要性分数计算得出。随后,SlimInfer 计算该候选集合与前一活跃块集合
之间的重叠率。若该比率低于预设阈值
,则触发交换操作。否则,直接将
作为
进行复用,该操作忽略 KV 缓存预取,且性能下降可忽略不计(参见附录)。该设计优先考虑推理效率以降低数据传输开销。
交换操作如算法1所述,涉及异步预取:(i) 新要求块
的KV条目从CPU传输到GPU。(ii) 尚未在CPU内存池中的未使用块
的条目被卸载到CPU;那些已经存在于CPU中的条目(即对应于块
),其GPU内存立即释放以供新预取条目使用。为了最大化效率并隐藏I/O延迟,卸载和预取过程在一个单独的CUDA流上执行。如图3所示,在此交换场景中,SlimInfer自然允许一种无预测器预取机制,以减少利用其逐层隐藏状态剪枝设计(如第3.2节所示)产生的显著I/O成本。在此,作者进一步提出一种重叠感知的KV交换(见算法1),以最小化预取的不必要数据传输,具体如下。
5 实验
5.1 设置
模型 实验使用LLaMA3.1-8B-Instruct (LLaMA-3.1) (Grattafiori et al. 2024) 和 Qwen2.5-7B-Instruct (Qwen-2.5) (Qwen et al. 2025) 来评估SlimInfer在更大规模LLM中的有效性。这两个模型都支持上下文长度为
。
实现细节 SlimInfer基于LazyLLM (Fu et al. 2024) 并使用PyTorch实现。对于推理流程,作者通过替换默认的自注意力模块将SlimInfer集成到Transformers (Wolf et al. 2020) 库中,以支持高效的分块 Token 剪枝和异步KV缓存管理。除非另有说明,作者使用块大小为64, Token 单元大小为8,KV交换阈值为
,以及局部 Query 窗口为4。对于LLaMA3.1,在层10、20和30进行剪枝,分别保留8k、4k和
个 Token ;对于Qwen2.5,在层9、18和26进行剪枝,分别保留12k、6k和4k个 Token 。所有准确率实验均在NVIDIA H200 GPU上进行,而效率评估则在单个NVIDIA RTX 4090 GPU (24GB)上运行,以模拟典型的边缘部署场景。
Baseline 模型 为了评估SlimInfer的有效性,作者将其与FlashAttention2(全KV)(Dao 2023)以及三种用于长上下文处理的token剪枝方法进行比较:MInference (Jiang et al. 2024)、FlexPrefill (Lai et al. 2025)和LazyLLM (Fu et al. 2024)。FlashAttention2作为稠密注意力 Baseline ,而其他方法采用Sparse注意力或内存管理来提高效率。所有结果均基于公开实现。为确保公平比较,LazyLLM在相同层应用剪枝,每个剪枝层保留50%的token。对于FlexPrefill,作者使用
,分别用于LLaMA-3.1和Qwen-2.5,与其推荐配置一致。对于MInference,作者遵循其官方代码库,并针对每个注意力头选择Sparse注意力模式。
5.2 准确性评估
遵循常见做法(Zhang et al. 2025b; Li et al. 2024; Zhang et al. 2025a),作者采用LongBench(Bai et al. 2024)来评估SlimInfer在长上下文理解设置下的生成质量。LongBench包含多种任务,如单文档和多文档问答、摘要生成、少样本学习、合成任务和代码补全。每个任务使用任务特定的指标进行评估,如准确率、F1分数和Rouge-L,分数越高表示性能越好。
如表1所示,SlimInfer在LLaMA3.1-8BInstruct和Qwen2.5-7B-Instruct模型上始终保持着最高的平均准确率。除了其优异的整体性能外,SlimInfer在不同任务类别中展现出一致且稳健的准确率,在大多数基准测试中均达到或超越了其他 Baseline 模型。这些结果表明其在不同模型架构上具有广泛的泛化能力。
5.3 效率评估
延迟分析 作者使用单个输入序列对各种方法的推理延迟进行基准测试。所有实验均在RTX 4090 GPU上使用LLaMA-3.1-8B-Instruct(Grattafiori等人,2024)进行。为了评估延迟如何随输入长度变化,作者使用LongBench(Bai等人,2024)中采样的一个
token序列的5个截断版本。作者报告两个指标:(1)首个token时间(TTFT)延迟,以及(2)解码16个token的端到端(E2E)延迟。在图5中,作者展示了相对于FlashAttention-2(Dao,2023) Baseline 的各种推理 Baseline 的加速比。在所有输入长度下,SlimInfer在TTFT和E2E延迟方面均实现了显著加速。特别是,作者的SlimiInfer随着上下文长度增长在TTFT延迟上呈现加速趋势,突显了作者在长上下文场景下Sparse预填充设计的优势。与其他 Baseline 相比,SlimInfer在
输入长度下实现了最高的TTFT加速(高达
)和E2E加速(高达
)。这些结果进一步验证了作者的设计在减少 Prompt 预填充和解码延迟方面的优越性。Qwen2.5-7BInstruct(Qwen等人,2025)的比较结果见附录。
准确率与效率 作者的动态剪枝策略能够在推理效率和模型准确率之间实现灵活的权衡。在图6中,作者比较了不同 Baseline 模型的端到端延迟和LongBench(Bai等人,2024)的准确率。结果表明,SlimInfer建立了一个强大的帕累托前沿:它在大幅降低延迟的同时,实现了接近完整KV Baseline 的准确率。与现有方法相比,SlimInfer在质量和效率之间提供了更优的平衡。详细设置在附录中提供。
内存效率除了延迟之外,作者还评估了SlimInfer的GPU内存占用与其他代表性方法。FlexPrefill(Lai等人,2025年)和MInference(Jiang等人,2024年)优化了计算但保留了所有层的完整KV缓存,导致没有内存节省。LazyLLM(Fu等人,2024年)应用了动态剪枝但忽略了KV缓存卸载,错失了减少大量GPU内存开销的机会。相比之下,SlimInfer结合了动态剪枝策略,并将非活动块的KV对卸载到CPU内存。因此,SlimInfer有效地限制了推理过程中的GPU内存使用。如表2所示,这种设计在 Prompt KV缓存内存上减少了20.3%至56.6%。
5.4 消融研究
作者使用LLaMA3.1-8B-Instruct(Grattafiori等人,2024年)。
默认设置在5.1节中给出。
平衡剪枝深度和 Token 保留 作者在保持保留 Token 总数大致不变的情况下,变化剪枝起始层,以考察剪枝位置如何影响模型在不同任务上的性能。如图7所示,所有三个任务均表现出非线性模式:随着剪枝延迟到中间层,准确率提升。然而,对于MQA和Qasper,进一步延迟剪枝会导致准确率急剧下降,而PassR则保持相对稳定。这可能是由于在后期层面对Sparse性约束下保留的 Token 过少所致。早期剪枝阻碍信息传播,而后期剪枝限制了下游推理的 Token 容量。这突显了平衡早期信息保留与充足后期层 Token 可用性的必要性。
块重要性评分算法 为了评估作者基于块的剪枝算法的有效性,作者移除了块重要性评分策略。作者将基于Token单元的方法(将每个块划分为更细粒度的Token单元)与两个 Baseline 进行比较:AvgPooling(Token键状态的平均值)和Max-Pooling(逐元素最大值)。其他SlimInfer设置保持不变。如表3所示,SlimInfer在代表性任务中始终优于 Baseline ,实现了最高平均分数。这突出了细粒度表示在捕捉语义重要性方面对于更有效剪枝的优势。
重叠操作用于降低延迟 为了评估异步KV缓存管理的影响,作者比较了有无此优化的端到端推理延迟。如表4所示,SlimInfer在所有输入长度上均实现了对FlashAttention Baseline 的持续加速。在
上下文长度下,SlimInfer在无异步KV时达到
的加速,进一步在启用异步KV时提升至
。随着输入长度的增加,加速效果更为显著,这表明重叠计算与数据传输对于长上下文推理的有效性。
参考
[1]. SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning
