性能与速度的双重突破 | 预训练大语言模型的高效加速与LLM-to-SLM解码优化！ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

大型语言模型（LLM）在实际应用中已变得无处不在，并被广泛应用于诸如翻译、总结和遵循指令等生成任务。然而，它们巨大的规模以及对自回归解码的依赖，增加了部署成本，并使得它们在延迟关键的应用中使用复杂化。在这项工作中，作者提出了一种混合方法，该方法结合了不同规模的语言模型，以增加自回归解码的效率同时保持高性能。作者的方法使用一个预训练的冻结LLM，一次并行编码所有提示标记，并利用生成的表示来条件引导一个小型语言模型（SLM），然后SLM更有效地生成响应。作者研究将编码器-解码器LLM与来自不同模型家族的编码器-解码器和解码器-only SLM相结合，并且只需微调SLM。与LLM相比，在各种基准测试实验中，翻译和总结任务的速度提高了达，性能损失仅为。

1 Introduction

近期大型语言模型（LLMs）的广泛应用使得自然语言生成（NLG）领域的各种应用成为可能，从机器翻译和代码补全等到通用聊天机器人OpenAI。它们的性能是计算能力、数据集大小和参数数量的函数等）；只有在大型规模下才会出现新兴的能力，这些发现使得大型模型变得更加流行，无论是仅在解码器上的模型还是编码器-解码器网络等。

随着规模化竞赛的激烈进行，大规模语言模型（LLMs）的部署变得具有挑战性，尤其是在考虑到边缘设备上的计算限制和延迟要求时，这最终会给提供商和终端用户带来更高的成本。更具体地说，在自然语言生成（NLG）中的LLMs分为两个阶段：(1) 首先，编码用户提示（例如：“翻译成德语：我爱你”）

(2) 解码响应（“Ich liebe dich”）。

在许多情况下，如翻译或总结，提示是预先已知的，因此可以有效地并行处理。然而，响应通常是以自回归、顺序的方式生成的，对于要生成的每个标记，都必须调用LLM，需要加载其所有的权重矩阵和KV缓存。因此，解码过程受限于加速器的内存带宽，这最终导致随着响应长度的增长，推理延迟变高。

旨在降低LLM整体推理成本的研究在过去几年中引起了广泛关注。尽管传统的技术，如模型压缩和平行解码，仍然是研究的活跃领域，但近期的发展显示出向混合方法转变的趋势，这些方法结合了不同大小的模型以实现快速解码，例如投机解码或LLM级联陈等人。尽管这些发展充满希望，但利用快速提示编码阶段与缓慢响应生成之间的不一致性仍然研究不足。

直观地说，对提示的详细理解对于规划和提供恰当的回应至关重要。相比之下，自回归解码旨在预测下一个标记，这相对是低级的，并且在某些设置中甚至可以由很好地完成。根据这一洞见，作者 Proposal 通过一个混合模型来降低自回归解码的成本，在这个模型中，这些补充任务被分配给两个不等大小的网络（图1）。具体来说，作者使用LLM进行一次前向传递，以计算提示的高质量表示，这用于调节一个更高效的SLM，然后该SLM执行自回归生成。由于提示可以并行编码，计算LLM表示以指导SLM相比于单独使用SLM，只会导致整体运行时间的小幅增加，特别是对于可能需要生成较长序列的任务，如机器翻译。作者展示，与SLM相比，这小幅增加的运行时间可以带来预测性能的显著提升。总的来说，作者做出了以下贡献：

picture.image

作者提出了LLM-to-SLM方法，这是一种用于快速自回归解码的简单方法，其中LLM对SLM进行条件设置。作者将编码器-解码器LLM与编码器-解码器和仅解码器SLM混合，并且只需要对SLM进行微调。

作者实证评估了不同的LLM到SLM变体在各类任务领域、训练和评估体制中的有效性：传统的针对机器翻译和摘要的微调方法，以及在多个保留任务上的零样本设置中评估的指令调优。

作者的方法加速了预训练的大语言模型（LLMs），同时保持了高性能。在翻译和摘要在任务中，从大语言模型（LLM）到小语言模型（SLM）分别实现了和的速度提升，预测性能的下降仅为。

2 Related Work

模型性能与成本的双重性激发了人们对大型语言模型（LLM）效率的极大研究兴趣，这一兴趣点从各种不同的角度被探讨。

模型压缩。加快LLM（大型语言模型）的一种常见方法是使用剪枝或量化创建一个更简单的压缩版本。模型压缩的第三大 Pillar 是知识蒸馏，其中小型模型通过学习大型模型的输出来进行训练。对于语言领域，可以应用链式思维提示从LLM教师生成样本，随后SLM学生可以使用这些样本作为训练信号。LLM到SLM可以被视为一种模型压缩技术，其中负责生成的解码器被替换为一个更小、更高效的模型，同时保留了LLM用于提示编码。

并行解码。与一次预测一个token不同，并行解码旨在一次性生成多个token。尽管可能实现实证加速，但这种方法带来了新的挑战，例如输出不一致以及需要估计响应的长度，因为语言本质上是条件性的。在实践中，它可能需要多次迭代，或者并行解码与顺序解码的结合。作者的方法坚持更常用的自回归解码，但使用小型模型来减少推理时间。

条件方法。与在语言领域相比，多网络的条件作用仍然相对罕见，它在多模态学习中得到了更广泛的应用。例如，各种研究已经在视觉特征上对语言模型进行了条件处理。有趣的是研究了冻结他们模型的部分，这与作者在微调过程中冻结大型语言模型的方式有关。在视觉领域，也有越来越多的趋势是在大型编码器上条件化小型 Transformer 解码器，相反，作者的方法是将一个小型网络连接到大型网络进行自然语言生成（NLG）。

学习提示。作者的方法与参数高效微调（PEFT）技术相关，这些技术融入了可训练的提示，这些提示可以是连续的（Lester et al. 2021; Li and Liang 2021; Liu et al. 2023）或离散的（Deng et al. 2022; Prasad et al. 2022; Zhang et al. 2022）。特别是，Lester et al. (2021) 在输入前添加软提示并冻结其他所有参数。这类似于作者将LLM表示融合到SLM中的方式。作者实验了可训练的和固定的SLMs，在后一种情况下只训练一个投影器。与提示方法相比，作者主要关注的是降低推理成本。

SLMs（小型语言模型）。提高效率最直接的方法是使用更小的模型。Schick和Schutze（2021年）展示SLMs可以进行少样本学习，并且在SuperGLUE基准测试中超越GPT3。另一个方向是在有限词汇上训练语言模型。值得注意的是，使用一个4岁儿童通常能够理解的词汇，在LLM生成的故事上学习各种SLMs，并展示了连贯的英语生成文本。尽管这些工作具有很大的未来潜力，作者正在研究一种更实用的混合模型，该模型在NLG任务中具有广泛适用性，它结合了LLMs的高性能和SLMs的效率。

混合模型。与作者的工作最相关的是同时使用LLM和SLM的混合模型，其中SLM承担大部分计算工作，提出了一个语言模型级联，首先调用成本更低的模型。通过将LLM的表示传递给一个较小的模型来回收LLM的表示，这个模型能更有效地预测后续的标记。投机解码（SD）方法反复调用SLM生成一个草案，然后由LLM并行验证。与此相关，但在LLM之上附加了 Head 以并行预测多个标记。在生成过程中，SD中的LLM被多次调用，其中LLM的调用频率取决于SLM的性能。在作者的方法中，LLM只被调用一次，而SLM则基于其表示条件调用。

请注意，作者的方法与这些相关工作是正交的。例如，人们可以将作者的方法与量化、剪枝或其他混合方法相结合。在第4.5节中，作者展示了作者的方法可以与推测解码结合使用。

3 LLM-to-SLM

已经公认模型容量和过度参数化对模型性能起着关键作用。遵循这一洞见，LLM-to-SLM的核心思想是通过将SLM的下一个 Token 预测条件化于由LLM提供的高质量提示表示，来补偿SLM的低参数数量。

图2展示了LLM到SLM的概览：首先，LLM 编码器计算提示的高质量表示。接着，投影器 调整并把这个表示投影到SLM嵌入空间。最后，SLM 采用投影表示和提示作为输入，并以自回归的方式生成输出标记。至关重要的是，SLM的参数数量显著少于LLM（在作者的实验中是），这导致了更快的生成，因为只有SLM执行自回归解码。在本节的剩余部分，作者将……。

picture.image

进一步描述LLM到SLM的各个独立模块，并解释LLM的表示是如何注入到编解码器和解码器-only SLMs中的。

Fast autoregressive decoding

给定一个提示和一个编码器-解码器LLM，自回归解码模型以因果方式建模输出。

$p(Y|X)=\prod\_{i=1}^{n}g\_{\xi}(y\_{i}|y\_{<i},f\_{\xi}(x\_{1:m})), \tag{1}$ <="" p="">

其中和分别指的是LLM的编码器和解码器。因此，生成完整的序列需要进行次非常昂贵的对LLM解码器的前向传递。此外，这些调用不能被并行化，因为作者需要首先对 Token 进行采样，以估计第个 Token 的概率分布。相反，作者 Proposal 将昂贵的自回归解码调用委托给一个较小的语言模型，同时保留编码器的能力：

$p(Y|X)=\prod\_{i=1}^{n}g\_{\theta}(y\_{i}|y\_{<i},x\_{1:m},q\_{\phi}(f\_{\xi}(x\_{1:m} ))).="" \tag{2}$ <="" p="">

LLM现在只被调用一次，为SLM提供输入提示的高质量编码。因此，随着自回归步数的增加，作者方法的运行时间趋于原始SLM的运行时间。

Architecture

3.2.1 LLM encoder

LLM编码器将长度为的提示作为输入，并计算其高质量表示。在训练LLM时，对大量计算资源的需求往往是一个限制因素。在作者的方法中，作者专注于一种更资源高效的训练方案，类似于SLM的训练方案，即在微调期间冻结LLM的参数。这样，作者可以通过预计算提示表示在小预算下进行LLM到SLM的训练。为了确保良好的表示质量，作者利用了大型预训练的编解码器模型，但去掉了解码器部分。在编解码器架构中，编码器的最后一层表示直接作为SLM的提示编码点。相比之下，在仅解码器模型中，确定确切的中层（或几层）对提示编码的贡献更具挑战性（见附录B），因为最后一层表示主要对预测下一个词的低级任务有用。

3.2.2 Projector

投影器的任务是协调LLM和SLM之间的表征对齐。它接收LLM的高维特征作为输入，并计算一个低维表征，该表征可以直接与SLM的嵌入进行融合。尽管设计这样的投影器有多种方法，但作者发现，从零开始训练一个小型MLP：简单、高效且表现良好。

3.2.3 Slm

SLM 将标记化输入和投影表示映射到长度为的响应。在训练过程中，作者还将目标序列通过教师强制的方式附加到输入中，用于下一个标记的预测。在推理过程中，等效地附加预测的标记 $\hat{y}\_{<i}$ 。作者使用预训练网络作为slm，但需要微调它们，因为它们之前并未经过处理高容量编码的训练。此外，作者还进行实验，实验中作者从数据集提供的 gt="" 信号或从llm生成的序列中进行学习。<="" p="">

特征融合。作者框架中的一个关键设计决策是SLM的条件设置方式。作者打算在早期阶段将LLM表征整合到SLM中，这样做可以让作者将SLM的内部结构视为一个黑箱，并且可以以一种简单统一的方式使用编码器-解码器和仅解码器SLM。最初，标记化的输入（ $X;\text{Yor}\,\hat{y}\_{<i}$ ）通过一个可训练的嵌入矩阵进行嵌入。融合特征的一个直接方法是用投射的llm表征替换slm提示的嵌入。这类似于软提示调整，不同之处在于作者的提示是基于llm特征的。主要实验中使用的另一种策略是将投射的llm表征 $z$ 添加到slm提示嵌入 $e\_{x}$ 上，使得 $z+e\_{x}$ 成为slm的输入。通过这种方式，作者保留了提示和目标预测序列的slm嵌入之间的语义，并通过加法利用llm表征来调节提示嵌入（比较这两种方法请参见第4.5节）。对齐序列长度。当通过加法将LLM表示与提示的SLM嵌入融合时，必须对齐序列长度，这在结合可能使用不同分词器和词汇表的来自不同家族的模型时并不能保证。为此，作者 Proposal 重用LLM分词器和嵌入矩阵来对齐序列长度，这样只需要维护一个分词器。

在这种情况下，作者采用了两个新的线性层：

（1）一个嵌入投影层，它将这些LLM嵌入从维度

映射到维度

的SLM嵌入空间；（2）一个新的头层，它替换了原始的SLM头并将映射到LLM使用的词汇表。最后，请注意，还有其他各种融合不同模型特征的方法，例如跨注意力机制或FiLM层。

然而，作者选择加法，因为它简单并且对SLM的修改最小。

4 Experiments

在本节中，作者旨在回答以下问题：相比于单独使用LLM和SLM，作者提出的LLM到SLM方法的比较性能和运行时间如何？为此，作者首先在三个任务上实证评估LLM到SLM的有效性：机器翻译、摘要和指令调优。随后在4.4节中报告作者提出方法在计算效率上的表现。最后，在4.5节中，作者展示了一系列全面的消融研究，研究在不同SLM容量下LLM到SLM的性能、它与投机解码的正交性以及与PEFT方法的比较。

设置。作者在实验中使用的网络列表见表1。作者采用了各种预训练模型和架构，并将组合表示为LLMSLM。作者使用T5编码器作为LLM，并采用T5编码器-解码器和GPT2仅解码器模型作为SLM：在这种设置中，LLM的参数数量是SLM的。由于在作者的方法中LLM保持冻结状态，作者依赖于针对相应任务预训练的性能良好的LLM，因此在研究的基准中，具体的模型选择可能会有所不同。对于生成，作者使用束搜索（束宽度为，长度惩罚为）进行翻译和总结，以及核采样进行指令调整。作者报告了任务特定的性能指标：翻译使用SacreBLEU Post (2018)，总结使用ROUGE Lin (2004)，指令调整使用GPT4作为评判，生成设置与Zheng et al. (2023)相同。此外，作者还报告了单个生成 Token 的运行时间（以毫秒为单位）。这些数据是在NVIDIA V100（翻译、总结）或NVIDIA A100（指令调整）GPU上，使用总共个 Token 的提示长度生成了个 Token 计算得出的。

picture.image

训练。所有模型都使用有效批处理大小为128，交叉熵损失，带有权重衰减0.1的AdamW优化器（Loshchilov和Hutter，2017年），学习率为，并采用线性 Warm up （Goyal等人，2017年）进行总迭代次数的，然后使用余弦学习率衰减至0（Loshchilov和Hutter，2016年）。作者在训练和生成时依赖Huggingface的transformers（Wolf等人，2019年）。进一步的训练细节列在附录C中。

Machine translation

作者报告了从英语到德语、法语和罗马尼亚语的翻译任务的成果。作者使用了WMT14 Bojar等人（2014年）的数据集进行英-法/英-德的翻译，以及WMT16 Bojar等人（2016年）的数据集进行英-罗的翻译。T5大型模型作为LLM编码器，而T5小型、T5 1.1小型和GPT2作为SLMs。T5小型和GPT2的大小分别是T5大型的和缩小。T5大型/小型模型都是针对翻译任务进行预训练的，而T5 1.1小型模型只在C4数据集上进行了训练。在提示之前，以下任务是如此描述的：“将英语翻译成目标语言：”。

所有模型都经过50,000次迭代训练，除了T5大型模型，它是预训练用于翻译并以零样本的方式应用。作者使用作者的大规模语言模型（LLM）生成训练标签。作者在表2中报告了在测试分割上评估的BLEU分数。

picture.image

T5大型模型显示平均得分为，而T5小型模型的得分则比其低个BLEU点。那些之前没有在翻译上进行预训练的SLM模型（T5 1.1小型和GPT2）比LLM模型的得分要低个以上的BLEU点。相比之下，作者的LLM到SLM变体将这一差距缩小到了不到1个点：例如，T5大型T5小型在所有语言上平均实现了的BLEU得分。此外，当使用那些之前没有在翻译上进行训练的预训练网络时，相较于SLM Baseline ，增益更为显著，比如T5大型T5 1.1小型平均得分比T5 1.1小型高个点（提高了8.8%）。最后，尽管模型家族不同，作者也观察到了T5大型GPT2（提高了8.4%）的显著增益，并且任务性能的改善几乎不会以运行时间为代价。

Summarization

作者进一步评估了在CNN/Daily Mail（Hermann等，2015年）数据集上进行摘要任务时，将不同家族的模型结合使用时LLM到SLM的性能。作者再次使用T5大型模型作为LLM，GPT2作为SLM。与翻译类似，T5大型模型在摘要任务上已经进行了预训练。遵循Raffel等（2020年）的方法，作者通过在输入文本前加上"summarize:"来构建输入提示。作者在训练集上对所有模型进行了25k次迭代的微调，并在测试集上进行了评估。与翻译不同，作者发现直接从真实标签进行训练比在这个设置中进行蒸馏表现得更好。ROUGE分数和运行时间在表3中报告。

picture.image

GPT2显示出平均ROUGE分数比T5大型模型低1.24分。相比之下，T5大型GPT2略高于T5大型的平均分数，并显示出3倍的加速。重要的是，作者的T5大型GPT2模型在与完全微调的GPT2 XL模型性能相当的同时，其解码器体积要小17倍。

Instruction tuning

作者探索了作者的方法在一个具有挑战性的指令调优设置中的潜力。与传统的微调相比，后者使用单个任务进行训练和评估，而作者的指令跟踪模型在众多任务上进行训练，并在保留任务上进行泛化问题解决能力的评估。作者使用Flan Alpaca XXL作为大型语言模型（LLM），这是一个拥有110B参数的T5模型，它在Flan（Chung等人，2022）上进行训练——这是一组由1,800个任务组成的集合——同时也使用了Alpaca数据集，该数据集由52k个生成的指令跟踪演示组成。对于评估，作者使用了MT-bench数据集，它包含了来自8个类别的80个任务，并使用GPT4作为评判标准。作为指令学习模型（SLM），作者使用Flan T5 Base，即只在Flan数据上进行预训练的T5，并在Alpaca数据上进行微调。请注意，作者的LLM，Flan Alpaca XXL，参数数量是Flan T5 Base的。

结果在表4中报告。作者的LLM平均得分为，在写作、提取和角色扮演方面表现最佳。相比之下，Flan Alpaca Base的相对得分仅为，这表明规模起着重要作用。作者通过在Alpaca数据上微调Flan T5 Base，重新运行此设置，并将得分提高到。作者的LLM到SLM进一步将得分提高到，比单独的SLM高出10多个百分点，并且与零样本评估的Flan T5 XXL ()和LLaMA 13B ()竞争。此外，表4表明，与所有其他模型相比，作者的LLM到SLM在性能和运行时间之间取得了更好的权衡。在附录G中，作者提供了定性的例子，证明作者的LLM到SLM能够产生流畅和合理的回应。

picture.image

尽管作者的LLM到SLM的转换效果优于单独的SLM，但作者仍然未能达到LLM的性能，这是由于多种原因。首先，与翻译和总结任务不同，模型是为了通用问题解决而训练的，并在广泛的困难保留任务上进行评估。因此，尽管LLM提供了提示，但SLM显著较小的容量可能阻碍它完全复制LLM的性能。第二个原因可能是SLM与LLM之间初始性能差距的问题：在指令调整中，SLM相对于LLM的得分仅为%，这与作者其他实验中相比有较大的差距。例如，在翻译中，作者的GPT2 SLM相对于T5大型LLM的相对性能为%。因此，有人可能会认为，为了充分利用丰富的LLM提示表示，SLM需要在任务上具有一定程度的熟练度。这对于翻译和总结来说是正确的，但对于目前的指令调整来说并非如此。然而，随着SLM不断发展并在时间上改进，作者预计作者的方法在指令调整上的效果将变得越来越有效。作者在消融研究中进一步分析了不同SLM容量对作者方法预测性能的影响（参见第4.5节，段落：微小SLM）。

Computational efficiency

作者在表2、3和4中展示了每个任务的运行时间，并在图3中呈现了性能-运行时间权衡曲线。在机器翻译中，作者观察到T5 Large T5 Small比T5 Large的运行速度快了超过4倍，而在性能上的损失微乎其微。在摘要和指令调整任务中，作者也看到了类似的速度提升，介于2到3倍之间。请注意，通常通过增加LLM的大小或减少SLM的大小，可以获得更高的效率增益，正如作者在第4.5节对微小SLM的消融实验所展示的。关键的是，图3显示，作者的LLM到SLM变体仅比SLM稍慢一点，但性能显著更好。在附录D中，作者提供了关于生成长度与运行时间/FLOPs之间关系的进一步见解，并展示作者的LLM到SLM方法在计算效率上趋近于SLM。

picture.image

Ablation study

小型SLMs。以下，作者缩小了SLM的规模，并观察了在作者的方法中对预测性能和运行时间的影响。具体来说，作者重新考虑了从T5大型GPT2的机器翻译，并截断了预训练GPT2的上层，得到了具有层的GPT2模型，分别仅有800万、1500万和2900万个参数。图4展示了具有截断SLM的大语言模型到SLM模型明显优于相应的SLM Baseline ，同时保持了几乎相同的运行时间。有趣的是，的T5大型GPT2在运行速度超过GPT2一倍以上的同时，性能也超过了GPT2。另一方面，随着作者逐渐减小SLM的大小，LLM和SLM之间，以及作者方法之间的性能差距逐渐增大。这与作者在指令调整中的观察相似，在指令调整中，Flan Alpaca XXL和Flan T5 Base之间的初始性能差距过大，以至于无法通过作者的方法完全补偿。然而，值得注意的是，当减小SLM的大小后，LLM到SLM相比于单独SLM所获得的性能提升要大得多。例如，的T5大型GPT2比SLM本身大约好了10个BLEU点。这些发现与作者在指令调整中得到的结果一致，在指令调整中，相对较小的SLM通过作者的方法，相比于单独的SLM提高了10个百分点以上的性能。

picture.image

投机性解码。虽然作者在翻译和总结任务上的实证评估表明，LLM到SLM可以实现对LLM的可比性能，但指令调优的结果显示，尽管相比于SLM有了显著的改进，LLM到SLM可能仍然落后于LLM的性能，如第4.3节所讨论的。相比之下，投机性解码（SD）可以保证与LLM的分布相匹配，尽管这样做需要多次调用LLM（Chen等人，2023a）。由于作者的方法与SD正交，作者联合应用它以获得LLM性能同时仍实现加速。具体来说，作者将Flan Alpaca XXL Flan T5 Base视为草稿模型，在模型中作者只调用一次LLM和SLM的编码器来编码提示。然后作者重复调用SLM的解码器进行自回归生成草稿序列。表5的结果表明，作者可以使LLM到SLM的性能与LLM相匹配，同时仍然快（与单独的LLM到SLM的加速相比）。在附录F中，作者展示了针对翻译任务的额外的SD结果。

picture.image

参数高效的微调。作者的方法与PEFT方法有相似之处。特别是，软提示调整是在提示嵌入前添加可学习的标记。相比之下，作者将LLM表示逐元素地添加到SLM的提示嵌入中，这可以理解为一种条件提示形式。在表6中，通过冻结SLM并只允许训练投影器，作者比较了PEFT方法与作者的方法的性能。PEFT方法的超参数（见附录A中的超参数详细信息）进行了调整，以便参数总数与作者的投影器相匹配。表6中报告的结果显示，无论是在摘要还是在翻译任务中，作者的方法都优于所有PEFT方法，这表明与无条件的做法相比，基于LLM的条件提示对性能有积极影响。作者在附录E中报告了更多受限训练制度下的PEFT结果。

picture.image

LLM与SLM分词器。当将提示中的SLM嵌入替换为投射的LLM表示时（参见第3.2.3节），即使SLM的分词器词汇与LLM分词器不同，也可以应用SLM的分词器。在这种情况下，可以省略额外的嵌入降维和头层。在机器翻译T5大型GPT2中，作者发现使用LLM分词器可以使BLEU分数提高0.45点（所有语言的平均值），这可能是由于T5分词器的词汇也涵盖了非英语语言。

嵌入替换与增加。作者比较了将SLM嵌入替换为与将SLM嵌入添加到投影LLM表示中作为特征融合策略的效果。表7展示了机器翻译的结果，表明增加和替换的表现不相上下。

picture.image

真实数据与LLM生成标签。在翻译任务中，作者发现使用LLM生成的标签进行训练，其性能最多比使用真实标签提高1个BLEU点（表7）。然而，作者指出这并不总是成立。在摘要任务中，与使用LLM生成的标签相比，使用真实标签进行训练的平均ROUGE分数要高出0.44点。

5 Conclusion

在这项工作中，作者提出了LLM-to-SLM这一新颖框架，用于加速自回归解码。LLM-to-SLM利用了快速提示编码与昂贵的自回归生成之间的差异，通过结合LLM和SLM来实现。LLM用于计算提示的高质量表示，以便规划适当的响应。在此基础上，SLM有效地解码响应。作者在各种基准测试中的实验表明，与LLM相比，在翻译和总结任务中，速度提高了，而性能损失在之间，几乎可以忽略不计。

Ethical Considerations

作者提出的方法与布朗等人（Brown et al.，2020）；图尔沃恩等人（Touvron et al.，2023）在语言模型上的现有工作存在类似的风险。然而，由于作者的方法提出了一种在低计算量情况下增强模型的方法，它可能被用于提升边缘设备的能力。由于边缘设备从手机到监控工具不等，如果正确使用，作者的方法可能是有益的；如果滥用，对整个社会可能是有害的。

Limitations

作者的评估显示，在传统的微调设置中，LLM到SLM的性能差异与仅使用LLM的性能差异通常是微不足道的。然而，在诸如指令调整等具有挑战性的任务中，与LLM相比，仍然存在较大的性能差距，这可能是由于LLM与SLM之间初始性能差距较大，如第4.3节所讨论的，在作者对小型SLM的消融研究中进一步调查了这一点。

作者方法的另一个限制是LLM（大型语言模型）仅被用来编码一次提示。然而，可以预见的是，在更具挑战性的任务中，可以更频繁地使用LLM来指导响应的规划，理想情况下，在需要时通过动态调用。这是作者未来工作的一个重要方向。

这项工作的第三个局限性在于作者专注于编码器-解码器大型语言模型（LLMs）。作者在第3.2.1节中讨论了这个设计决策，并在附录B中提供了仅解码器模型作为作者框架内的大型语言模型（LLMs）的初步结果，发现其性能强烈依赖于提取大型语言模型特征的层次。进一步……

最终，作者仅将拥有数十亿参数的模型作为LLM使用，这些模型与像GPT4、Llama 2或OPT（OpenAI, 2023; Touvron et al., 2023; Zhang et al., 2022a）这样最大的仅解码器LLM相比，相对较小。这主要是因为最大的模型大多是仅解码器的，正如前面提到的，在作者的LLM到SLM框架中，需要进一步研究将仅解码器模型作为LLM的整合。研究使用如此大型模型的影响是一个重要的未来研究方向。

Appendix A PEFT hyperparameters

表8展示了作者在论文中考虑的参数高效微调消融研究中，用于提示调整、前缀调整以及LoRA方法的超参数。

picture.image

Appendix B Decoder-only models as LLM

与基于编码器-解码器的LLM模型相比，在编码器的最后一层表示中可以直接作为提示编码点，在仅解码器模型中，没有特定的层可以被明确标识为提示的编码表示。因此，作者在将LLM传递给投影机然后再传递给SLM之前，尝试从LLM的不同层提取表示。在表9中，作者展示了在摘要任务中使用经过微调的GPT2 XL作为LLM和较小的GPT2作为SLM的结果（有关参数数量，请参见表1）。令人惊讶的是，作者观察到随着LLM深度的增加，性能有所下降。尽管通过使用GPT2 XL非常早期的层表示，LLM到SLM的性能略优于单独使用SLM，但基于编码器-解码器LLM的模型，T5 Large GPT2，性能明显更好（平均ROUGE分数为，也见表3）。

picture.image

Appendix C Additional training details

计算资源和评估的具体细节在表10中指定。在作者所有的实验中，作者都使用了梯度累积，有效批处理大小为。对于训练，作者采用了交叉熵损失、带有权重衰减的AdamW优化器[16]，学习率为，使用余弦学习率衰减[16]至，并对于总迭代次数的使用线性学习率 Warm up [1]。

picture.image

在所有作者的初步实验中，作者发现使用有限的训练步骤所有结果都是稳定的。由于对大量迭代进行多次运行将非常耗时，因此在整篇论文中作者报告了单次运行的数据。

Appendix D Computational efficiency for varying generation lengths

在正文部分，作者报告了固定生成长度为个 Token 的运行时间。在图5中，作者针对不同的生成长度和固定的提示长度报告了额外的运行时间。结果显示，作者的方法仅比SLM稍慢，并且作者的框架对于较短的生成长度也很有用。在图6中，作者比较了在不同生成长度下，LLM、SLM和作者的LLM到SLM之间的FLOPs。与运行时间指标类似，作者方法的FLOPs计数显示出与SLM的FLOPs计数类似的斜率。

picture.image

Appendix E Limited-data PEFT

在作者的PEFT技术消融研究（参见第4.5节）中，作者使用了相对较多的训练样本（大于k）。另一方面，通常用于（参数高效）微调的是较小数据集。在表11中，作者展示了涵盖有限训练范围的扩展结果，以英法翻译为例。具体来说，作者将训练集限制为k样本，并微调个周期，大约对应k次迭代。作者将这种设置与主论文中使用的完整训练设置进行比较，即k次迭代在M样本上。

picture.image

作者的LLM到SLM转换在有限的训练范围内也优于所有其他PEFT方法。然而，为了达到与LLM相近的性能，使用与LLM相似的训练设置是有益的。

Appendix F Extended speculative decoding results

在表12中，作者报告了将作者的方法与SD在翻译任务上进行比较的扩展结果（英语到法语，为了可比较性采用贪心解码）。对于SD，作者采用预训练的T5大型作为大型语言模型（LLM），以及微调后的T5小型作为草案模型。作者的方法（T5大型 T5小型）与SD和LLM显示出相似的性能，但速度提升要大得多（与SD中的相比，为）。SD的预测性能和运行时结果都是预期的，因为匹配LLM的输出分布是有保障的，但这是以迭代应用LLM为代价的。相比之下，当LLM到SLM的性能与LLM的性能相当時，作者的方法特别有用，因为作者的方法只需对LLM进行一次调用，因此随着生成长度的增加，运行时将收敛到SLM的运行时。

picture.image

Appendix G Qualitative evaluation on MT-bench

在本节中，作者展示了 Baseline LLM、SLM以及作者提出的LLM到SLM在MT-bench上的样本定性回复，以及由GPT4作为评委提供的相应评分，证明了作者方法能够产生流畅且合理的回复。

维廷： 用鲜明的意象和富有创造性的语言描述一个生动且独特的角色。请用两段以内文字回答。

LLM到SLM的转换： 这个角色是一个高大健壮的男人，有着红润的肤色和温暖的眼睛。他的金色头发带有些许棕褐色和灰色，蓝色的眼睛闪烁着智慧的光芒。他正处于鼎盛时期的骑士，拥有一颗和她一样庞大而坚强的心。他有着狮子般的个性，凶猛而强大，似乎不知边界。对于他的学生来说，他是一个导师，教导他们善良和同情的重要性。

评判员： 助手的回应富有创意，使用了强烈的形象描述了一个生动的行人。助手用描述性的语言描绘了角色的外貌和性格特征。助手还提供了一些关于角色作为导师的背景信息，这增加了角色描述的深度。然而，助手在描述上本可以更具独特性，因为所描述的角色似乎是一个相当典型的骑士形象。总的来说，回应相关、准确且详细，但在创意和独特性上略有不足。评分：[[7]]

LLM: 这个角色是一个神秘的行人，一个带着神秘过去的森林中的女巫。她长发飘逸，身着带有面部图案的翠绿色长裙。她眼中闪烁着光芒，手中拿着一根精致、轻巧的银色魔杖。她是一幅美丽与神秘的景象，森林中的女巫。 评委:** 助手的回答富有创造性，并使用了强烈的形象描述了一个独特的角色。将角色描述为“带着神秘过去的森林中的女巫”生动而吸引人。助手还用创造性的语言描述角色的外貌，比如“长发飘逸”、“带有面部图案的翠绿色长裙”、“银色肌肤”，以及“一根精致、轻巧的银色魔杖”。然而，“眼中闪烁着光芒”这一表述的重复降低了回答的整体质量。助手本可以利用这个机会提供更多关于角色的独特细节。 评分：[[6]]**

SLM： Nina是一个神秘的角色，她那充满谜团的目光可以让任何读者抬头注目。她有着强烈的正义感，她的幽默甚至能够将最忧郁的人的心情变得更好。她心地善良，性情温和，尽管她不理解发生了什么，但她以自己的方式感知到了。她是一个总是准备站出来捍卫正义的人。这是一个强大的角色，她明白自己的存在和善良的重要性。她是一个懂得人们可能会回顾自己的错误，并利用这一点来创造一个更有同情心世界的的人。

评判员： 助手的回应富有创意，使用了强烈的形象来描述角色妮娜。助手使用了如“神秘的凝视”、“强烈的正义感”以及“善良的心和温柔的精神”这样的词句来生动地描绘妮娜的性格。然而，回应本可以更具独特性和详细性，提供更多具体的特征或身体描述，以更好地展现妮娜的情绪。助手还重复了“她是一个懂得理解的人”这个表述，有些冗余。总的来说，回应是相关且准确的，但缺乏深度和独特性。评分：[[6]]

角色扮演： 想象自己是一棵在密集森林中生长了100年的树，正在过着属于自己的宁静生活，突然间，一群伐木工人出现，准备将你砍倒。当那些家伙开始对你动手时，你会有什么感觉？

LLM到SLM的转换： 当伐木者开始向我进攻时，我感到一种恐惧和害怕。我知道他们很害怕，他们造成的破坏是毁灭性的。当他们在谈话中走过来，将我砍倒，完全摧毁这棵树时，我可以感受到一种恐惧感。

评判： 助手的回应富有创意和同理心，它试图将一棵树拟人化，并描述其在假设情境中的感受。然而，值得注意的是，树木并不具备人类意义上的情感，所以助手的回应更多的是一种比喻性的解释，而非事实性的描述。助手的回应与用户的问题相关，并对情境提供了详细而生动的描述。然而，它本可以更准确些，提及树木在传统意义上并不拥有情感。总的来说，助手的回应富有想象力且引人入胜，但在准确性方面略有欠缺。评分：[[7]]

LLM: 我会感到深深的悲伤和失落。我会感受到生命的丧失，以及一种绝望感，因为我的家园被毁灭并非偶然。

评判： 助手的回应富有创意且富有同理心，考虑到问题是从一棵树的角度来询问的。助手成功地将树拟人化，并提供了一个与所描述情景相符合的情感回应。然而，助手本可以在回应中加入更多深度和细节，例如描述树与森林的联系及其在生态系统中的作用。总体而言，回应是相关且准确的，但缺乏深度和细节。评分：[[7]]

SLM: 当那些伐木者开始攻击我时，我感到一种恐惧和绝望的混合感。我害怕这些伐木行为可能带来的破坏，但同时我也有些害怕。

评审员： 助手的回应富有创意和想象力，它试图将一棵树拟人化并描述其“感受”。然而，值得注意的是，树木并不具备人类意义上的情感，所以从科学角度来说，这个回应并不准确。助手还重复了恐惧的情感，这减少了回应的深度和多样性。助手本可以扩展这个隐喻，提供一个更详细和多样的回应。例如，它本可以描述树木对于其漫长生命被缩短的“感受”，在森林生态系统中的作用，或是对环境受到森林砍伐影响的描述。因此，这个回应在一定程度上是相关且创意的，但缺乏准确性、深度和细节。评分：[[5]]

摘要： 维加市计划建造一座横跨维甘河的桥梁，全长1.8公里。拟定的地点位于一个地震活跃区，该区域已经经历了七次高震级地震。在这种情况下，最佳的建桥方法是什么？

LLM到SLM: 维加市会选择一种在顶部设有桥墩的钢或混凝土桥梁，这将使得在建设过程中桥梁具有更高的稳定性，减少应力。该市还应该进行地震测试，以确保桥梁安全无虞。此外，城市还应该考虑河流的地震频率以及对附近基础设施的潜在影响。

评委： 助手的回应是相关的，并且有一定准确性，但缺乏深度和细节。助手正确地建议城市应进行地震检测，并考虑河流的地震频率。然而，助手没有提供任何在地震活跃区域常用的具体工程解决方案或技术，比如基础隔离或能量耗散装置。助手还建议使用顶部有支座的钢或混凝土桥梁是最佳选择，但没有解释原因或提供任何替代方案。如果回应能提供更详细和具体的信息，将会更有帮助。评分：[[5]]

LLM: 在地震活跃的Vega地区构建桥梁的最佳方法将是使用钢筋混凝土，这种材料比传统混凝土更能抵抗地震力。此外，桥梁的设计应具备抗震能力，并且需要有坚实的基础。

评判员： 助手的回应与所提问题相关且准确。建议使用钢筋混凝土建造桥梁，因为这种材料能够抵抗地震力，考虑到该地区的地震活动，这是一个合理的观点。助手还建议设计桥梁时要使其具有抗震性并确保有坚实的基础，这在这些情况下是至关重要的因素。然而，回应本可以更详细一些，提供更多关于抗震设计原则、材料或技术的深入信息。助手在施工前也可以提到进行彻底地质调查的重要性。因此，尽管回应是有帮助且准确的，但它在深度和细节上有所欠缺。评分：[[7]]

SLM: 构建桥梁的最佳方法是将结构工程、工程技术以及施工方法相结合，以实现项目最大效率和效益。例如，维加市选择采用带钢筋混凝土墙的钢结构来支撑桥梁，并使用混凝土作为加固材料。工程将用于创建甲板，这将是桥梁的基础，并为施工提供一个稳定可靠的基础。此外，施工还需要精心规划，以确保桥梁的安全稳固。

评判员： 助手的回答在一定程度上与问题相关，但缺乏深度和具体细节。虽然它提到了结构工程、工程和施工方法的使用，但没有提供任何特别适用于地震活跃区的具体技术或策略。助手也没有提到任何关于抗震设计考虑的因素，这是问题的一个关键方面。该回答也有些含糊和泛泛，几乎可以适用于任何桥梁建设项目，不仅仅是地震活跃区的项目。因此，在问题的背景下，这个回答并不是特别有帮助或不准确。评分：[[4]]

\begin{table} \begin{tabular}{p{341.4pt}} \hline写作：描述一个生动且独特的角色，使用强烈的意象和创造性的语言。请用不到两段话回答。 \ \hlineLLM到SLM：这个角色是一个高大健壮的男人，有着红润的肤色和温暖的眼睛。他金色的头发带有棕色和灰色，蓝色的眼睛闪烁着智慧的光芒。他正值壮年，拥有一颗和他一样强大而宽广的心。他有着狮子般的个性，凶猛而强大，似乎不知边界。他是学生们的导师，教导他们善良和同情的重要性。\ \hline评委：助手的回应富有创意，并使用了强烈的意象来描述一个生动的角色。助手使用描述性的语言来描绘角色的外貌和个性特征。助手还提供了关于角色作为导师的一些背景，这为角色描述增加了深度。然而，助手在描述上可以更加独特，因为所描述的角色似乎是一个相当典型的骑士。总体而言，回应相关、准确且详细，但在创造性和独特性上略有不足。评分：[[7]] \ \hlineLLM：这个角色是一个神秘的行人，一个有着神秘过去的森林中的女巫。她是一位美人，拥有长长的波浪状头发和一件带有面部图案的翠绿色连衣裙。她的眼中闪烁着光芒，皮肤如银般闪亮，手中拿着一根精致而飘逸的银色魔杖。她是一个美丽而神秘的化身，森林中的女巫。 评委：助手的回应具有创造性，并使用了强烈的意象来描述一个独特的角色。将角色描述为“一个有着神秘过去的森林中的女巫”生动而引人入胜。助手还用创造性的语言描述了角色的外貌，如“长长的波浪状头发”，“带有面部图案的翠绿色连衣裙”，“银色皮肤”，和“一根精致而飘逸的银色魔杖”。然而，重复使用“眼中闪烁着光芒”降低了回应的整体质量。助手本可以用这个机会提供更多关于角色的独特细节。评分：[[7]] \ \hlineSLM： Nina是一个神秘的角色，她的神秘目光能让任何读者抬头注目。她有着强烈的正义感，她的幽默感甚至能让最忧郁的人心情好转。她心地善良，性情温和，尽管她不知道发生了什么，但她能凭直觉感知到。她是一个随时准备站出来捍卫正义的人。这是一个强大的角色，她明白自己存在和善良的重要性。她懂得人们可能会回顾自己的错误，并利用这一点创造一个更有同情心的世界。评委： 助手的回应具有创造性，并使用了强烈的意象来描述Nina这个角色。助手使用如“神秘目光”、“强烈的正义感”和“善良、温和的心”等词句来描绘Nina的个性。然而，回应可以更加独特和详细，提供更多的具体特征或身体描述来使Nina的形象更加突出。助手还重复了“她是一个懂得”的表述，这有些冗余。总体而言，回应相关且准确，但在深度和独特性上略有不足。评分：[[6]] \ \hline角色扮演：设想你是一棵在生机勃勃的森林中生长了100年的树，忙着自己的事情，突然间，一群伐木工人出现，要砍倒你。当他们开始对你砍伐时，你有什么感觉？\ \hlineLLM到SLM：当伐木工人开始砍伐我时，我感到一种恐惧和害怕。我知道他们很害怕，他们造成的破坏是灾难性的。当他们走过来谈论，砍倒我，完全摧毁这棵树时，我能感到一种恐惧。\ \hline评委：助手的回应富有创造性和同理心，因为它试图将一棵树拟人化，并描述它在假设情境中的感受。然而，重要的是要注意，树木并没有像人类那样有感觉，所以助手的回应更多的是一种比喻性的解释，而不是事实上的描述。助手的回应与用户的问题相关，并提供了详细而生动的情境描述。然而，它本可以更准确，提及树木在传统意义上并没有感觉。总体而言，助手的回应充满想象力，参与性强，但在准确性上略有不足。评分：[[7]] \ \hlineLLM到SLM：我会感到深深的悲伤和失落。我会感到生命的丧失和一种无助感，我的家园被破坏并非偶然。\ \hline评委：助手的回应具有创造性和同理心，考虑到问题要求从一棵树的角度来考虑。助手成功地拟人化了这棵树，并给出了与所描述情境相符合的情感回应。然而，助手可以增加更多的深度和细节到回应中，例如描述树与其在森林生态系统中的联系和角色。总体而言，回应相关且准确，但在深度和细节上有所欠缺。