牛津大学提出 Ensemble SuperICL ，超越 BaselineEn在自然语言理解任务中表现卓越！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

大型语言模型（LLMs）在各种任务上展现了令人瞩目的能力，但它们在特定领域的表现仍然有限。

虽然诸如检索增强生成和微调等方法可以解决这个问题，但它们需要大量的资源。而在语境中学习（ICL）是一种便宜且高效的选择，但无法与高级方法相媲美。作者提出了一种名为Ensemble SuperICL的新方法，通过利用多个微调过的专门领域的语言模型（SLMs）来增强ICL。Ensemble SuperICL在几个自然语言理解基准测试上实现了最先进（SoTA）的结果。

此外，作者在一个医学领域的 Token 任务上测试它，并展示了其实用性，使用在通用语言任务上微调的一般领域的SLMs，实现了比所有 Baseline 在大规模数据 Token 方面的优越准确性。

最后，作者进行了消除研究和敏感性分析，以阐明Ensemble SuperICL的潜在机制。作者的研究有助于满足LLM日益增长的需求，为实践者提供了一种廉价且有效的方法。

1 Introduction

语义学习（ICL）是一种有效的方法，可以将大型语言模型（LLM）调整到执行特定任务，而无需通过微调更新模型参数（Brown等人，2020年）。它涉及用少量的训练示例 Prompt LLM，并提供一个测试输入，使LLM能够从提供的上下文中推理出正确的输出。

尽管ICL是一种时间和成本效益高的方式，但它与更昂贵的优化和检索增强生成（RAG）相比，准确性较低。解决这个问题在两个趋势背景下显得尤为重要。首先，需要将LLM适配到特定任务或专业领域，例如在特定语料库（如医学或法律文件）上的问答。其次，日益增长的计算和数据 Bottleneck 正在创造对不需要大量计算和数据资源的方法的需求，这与RAG和优化不同（Thompson等人，2020）。改进ICL的性能可以为实践者提供在LLM中进行廉价但高度专业化的领域适配。

为了提高ICL性能，一系列研究致力于构建能够实现高稳定ICL性能的 Prompt 。在Xu等人和Yang等人的研究中，作者们提出了SuperICL，将微调的小语言模型（SLM）2的预测结果附加到ICL Prompt 中，结合专家模型的专业知识和LLM的一般语言能力。然而，SuperICL需要对目标数据集进行微调SLM，这需要大量的计算资源和高质量的数据。这抵消了ICL的主要优势，即低成本。此外，微调可能导致数据泄漏问题。

贡献

作者提出了一种名为Ensemble SuperICL的ICL方法，该方法使LLM能够利用多个现成的SLM的预测和置信度。作者在几个自然语言理解基准测试上测试Ensemble SuperICL，并表明它优于ICL、SLM和SuperICL Baseline 。

为了展示跨任务专业知识迁移的转移性，作者在一个医学标签任务上测试Ensemble SuperICL，并表明作者的方法可以比所有 Baseline 更准确地 Token 大规模的特定领域数据。

作者进行了结果验证的消融研究和敏感性分析。

2 Ensemble Super In-Context Learning

随着参数数量的增长，基于 Transformer 的语言模型开始展示在特定上下文中的学习能力，这使得它们能够执行它们未经训练就能完成的任务（Brown等人，2020年）。少样本 Prompt 利用了LLM的ICL能力，通过向LLM提供几个精心选择的示例（上下文示例）来实现（Dong等人，2022年）。

过去的研究既探索了在特定上下文中的示例组合，也探索了将SLM集成到ICL中。Khalifa等人（2023年）提出了示例组合，其中LLM将示例分成子集，为每个子集生成输出概率，并最终组合这些概率进行预测。Sun等人（2023年）使用SLM进行ICL的-近邻示例搜索。Shen等人（2024年）使用LLM作为控制器来访问许多专家模型，无论大小。

Wang等人（2024年）开发了一种算法，该算法使用一个小语言模型从一组标注数据中选择最佳示例。

最近，徐等人（2023）和杨等人（2023）提出了SuperICL和SuperContext，这两种方法都在增强ICL（增强式学习）典型场景中的上下文示例方面取得了进展，通过将SLM（序列到序列模型）的预测以及其信心评分（通过将SLM产生的对数概率应用 sigmoid 函数得到的）相结合。这些较小的模型提供特定任务的知识，充当具有通用语言能力的LLM（大型语言模型）的插件模型。

基于这些过去的工作，作者提出了 Ensemble SuperICL 方法，该方法利用 ICL 使 LLM 能够利用多个 SLM 的专家知识。Ensemble SuperICL 过程的流程图如图1 所示。Ensemble SuperICL 的第一步是选择在语境中的示例，其中每个示例都是输入和真实标签的一对。接下来，两个或多个在任务上或通用任务上进行微调的 SLM 产生 _ensemble super context_：Ensemble SuperICL 中的一个示例包括输入、这个在语境中的示例上来自两个到五个 SLM 的预测标签和置信度，以及真实标签。最后，将测试问题与其来自 SLM 的预测标签和置信度连接，并将其输入到 LLM 中。总之，LLM 使用构建的语境和测试问题，两者都增强了多个 SLM 的预测和置信度，以形成响应。Ensemble SuperICL 在 SST-2 数据集上的一个示例（在 1 shot 设置中，有两个 SLM）在附录 B 中展示。

picture.image

这样的上下文构造背后的动机是，LLM将能够利用SLM的预测、其置信度分数和真实标签，从而三角定位正确的回答，并学习给定SLM的预测（及其置信度）的可靠性。

3 Methods

作者使用了五个数据集进行实验：四个自然语言理解（NLU）基准测试和一个特定领域的数据集。GLUE（General Language Understanding Evaluation）基准测试是一个用于评估自然语言理解系统（NLU）的资源集合（Wang等人，2019年）。作者使用了其中的四个GLUE数据集，以评估各种NLU能力：多体裁自然语言推理语料库（MNLI）、斯坦福情感树库（SST-2）、微软研究换句语料库（MRPC）和语言可接受性语料库（CoLA）（附录A）（Dolan和Brockett，2005年；Socher等人，2013年；Williams等人，2018年；Warstadt等人，2018年）。此外，医学多选题问答数据集（MedMCQA）包含超过183k的医学入学考试问题。每个问题都分配了一个21个医学主题之一，如手术、牙科和病理学。作者将模型任务为推理给定问题的主题。

集成超ICL模型。 作者使用Llama3-8b-Instruct作为LLM，并考虑了七个SLMs：MobileBERT, flan-t5-large, ELECTRA-large, DeBERTa-large, RoBERTa-large, BART-large,和T5-large（表1）。作者使用Hugging Face为每个数据集提供每个SLM的微调版本，除了MedMCQA，作者在那里重用了MNLI微调的SLMs。MNLI是微调SLMs的最受欢迎的数据集选择之一，为它们提供了可能具有迁移性的通用语言理解能力。作者在0, 8, 16, 24和32个示例的选择上运行了实验，并考虑了所有可能的SLMs组合（包括0、8、16、24和32个示例）。

picture.image

Baseline 模型 作者考虑了三种 Baseline 模型。第一种是传统的在语境中的学习，包括8、16、24和32个示例。第二种是原始的SuperICL方法，它使用单个SLM。由于作者的方法需要使用多个小型语言模型（SLM），作者构建了一个第三种 Baseline 预测器：是SLM预测的一个简单多数投票。如果没有多数投票，如在只考虑了四个SLM的情况下，最后一个出现的预测将被使用。在考虑了几个多数投票预测器版本，包括一个由SLM置信度加权的版本，作者发现这种方法在各个数据集上平均获得了最高的准确性。这是因为性能不佳的SLM可以确信地是错误的。

构建上下文。对于每个数据集，作者从训练集中随机选择8、16、24或32个问题-答案对来用于上下文构建。为了保证公平比较和可重复性，作者在所有实验中使用同一数据集的上下文示例。

推理时间。作者将联合超上下文、测试输入和指令 Prompt 提供给LLM，以预测测试输入的标签（见附录C中具体 Prompt 设计）。为了进行公平的比较和可重复性，作者在分析中的LLM预测具有最高概率的 Token （贪心解码），而不是从输出分布中采样。所有实验都在两块NVIDIA A100 80GB GPU上运行。

4 Results and Discussion

Ensemble SuperICL outperforms nearly all baselines on each dataset

可以在表2中看到，Ensemble SuperICL在各个数据集上提高了ICL性能3到20个百分点，在更具挑战性的任务上取得了更大的改进，并在四个基准数据集（SST-2、MRPC和CoLA）中的三个上超过了所有 Baseline ：SST-2、MRPC和CoLA。在MNLI上，Ensemble SuperICL超过了ICL和SuperICL Baseline ，但SLM多数投票 Baseline 略好一些。附录D和E中报告了包含所有少样本设置和SLM组合的500多个实验的结果。

picture.image

集成SuperICL在MedMCQA标签任务上优于所有 Baseline 。请注意，所使用的SLM并未针对目标任务进行微调。这表明，针对通用推理任务微调的集成SLM可以在保留其低数据和计算需求的同时，在特定领域的任务上优于ICL。

令人惊讶的是，即使是性能较差的SLMs也在提升ICL性能方面发挥了作用。在CoLA实验中，作者包括了两个“弱”的SLMs，尽管它们在目标任务上进行了微调，但性能却不如ICL模型：MobileBERT和T5分别取得了52.78%和53.51%的准确率，而Llama3-8b-Instruct ICL取得了55.43%的准确率，然而，通过Ensemble SuperICL将MobileBERT和T5结合在一起，在所有少样本场景下，其性能都超过了ICL，最高准确率达到了62.21%。在MedMCQA中，ELECTRA-large的准确率非常低，为29.86%，而Llama3-8b-Instruct ICL取得了79.43%的准确率，然而，Ensemble SuperICL与ELECTRA-large结合在一起，在五个少样本场景中有三个的准确率超过了ICL，最高准确率达到了82.00%（见附录E中的表7）。这些结果表明，EnsembleSuperICL与“弱”的SLMs可能足以超越ICL性能。作者还证明了作者的结果在随机种子（附录G）下仍然有效。

picture.image

Ablation study: all components of Ensemble SuperICL are significant

作者研究了三个组成部分对Ensemble SuperICL的最佳性能版本的影响：(a) 在上下文示例中的SLM预测；(b) 在上下文示例和测试输入中的SLM信心评分；(c) 测试输入中的SLM预测。ablation研究的结果呈现在表3中，表明所有组成部分对最佳性能都是必要的。

首先（1），作者在测试输入中仅保留SLM预测，从上下文示例中移除SLM预测，并从测试输入中移除SLM置信度。平均而言，这对性能影响最大，尤其是在MNLI和MedMCQA中，性能下降了约6个百分点。其次（2），作者在上下文示例和测试输入中保留SLM预测，但移除SLM置信度。这在对SST-2、MRPC和CoLA的性能影响最大，但在MNLI和MedMCQA中的影响最小。第三（3），作者在测试输入中保留SLM预测和置信度，但从上下文示例中移除两者。平均而言，这对性能的影响最小。

Limitations and future works

首先，Ensemble SuperICL 的最大局限性在于超参数的最佳配置（如在语境中的示例数量、SLM 数量以及选择 SLM 的方法）在不同的数据集上差异很大（见附录 F）。然而，无论超参数如何，Ensemble SuperICL 平均上都优于 ICL，这表明在没有审慎的超参数选择过程的情况下，它仍然可能有用。此外，本工作的范围仅限于文本分类任务。

Yang 等（2023年）在文本生成任务上展示了 SuperICL 的积极结果，这表明 Ensemble SuperICL 应该可以扩展到文本生成领域。因此，后续研究可以尝试在类似于 SQuAD 2.0、QNLI 和 QQP 的问题回答数据集上测试 Ensemble SuperICL。

同样，未来的工作可以扩大到医疗领域之外，以更好地评估 Ensemble SuperICL 的领域专业能力。

5 Conclusion

作者提出了Ensemble SuperICL，一种将小型语言模型（SLMs）集成以提高ICL分类准确率的同时保持其低时间、计算和数据要求的方法。Ensemble SuperICL在三个自然语言理解（NLU）基准测试以及一个医学分类任务上都超过了所有 Baseline ，显示出在特定领域分类任务上的应用前景。

两个结果进一步支持其用于实际应用的案例：

(1) 任务对LLM（通过ICL准确性衡量的）越困难，Ensemble SuperICL提升ICL性能的程度就越大，(2) 即使将弱小的SLMs组合在一起，也可能获得高性能。

结果（2）保持了ICL的“低成本”特性，同时从使用小型语言模型的优势中受益，结果（1）使得该方法对于需要领域专业知识进行 Token 的任务具有吸引力。

参考文献

[0]. Improving In-Context Learning with.

牛津大学提出 Ensemble SuperICL ，超越 BaselineEn在 自然语言理解任务中表现卓越 ！

1 Introduction

2 Ensemble Super In-Context Learning

3 Methods

4 Results and Discussion

5 Conclusion