备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
大型语言模型(LLMs)在各种任务上展现了令人瞩目的能力,但它们在特定领域的表现仍然有限。
虽然诸如检索增强生成和微调等方法可以解决这个问题,但它们需要大量的资源。而在语境中学习(ICL)是一种便宜且高效的选择,但无法与高级方法相媲美。作者提出了一种名为Ensemble SuperICL的新方法,通过利用多个微调过的专门领域的语言模型(SLMs)来增强ICL。Ensemble SuperICL在几个自然语言理解基准测试上实现了最先进(SoTA)的结果。
此外,作者在一个医学领域的 Token 任务上测试它,并展示了其实用性,使用在通用语言任务上微调的一般领域的SLMs,实现了比所有 Baseline 在大规模数据 Token 方面的优越准确性。
最后,作者进行了消除研究和敏感性分析,以阐明Ensemble SuperICL的潜在机制。作者的研究有助于满足LLM日益增长的需求,为实践者提供了一种廉价且有效的方法。
1 Introduction
语义学习(ICL)是一种有效的方法,可以将大型语言模型(LLM)调整到执行特定任务,而无需通过微调更新模型参数(Brown等人,2020年)。它涉及用少量的训练示例 Prompt LLM,并提供一个测试输入,使LLM能够从提供的上下文中推理出正确的输出。
尽管ICL是一种时间和成本效益高的方式,但它与更昂贵的优化和检索增强生成(RAG)相比,准确性较低。解决这个问题在两个趋势背景下显得尤为重要。首先,需要将LLM适配到特定任务或专业领域,例如在特定语料库(如医学或法律文件)上的问答。其次,日益增长的计算和数据 Bottleneck 正在创造对不需要大量计算和数据资源的方法的需求,这与RAG和优化不同(Thompson等人,2020)。改进ICL的性能可以为实践者提供在LLM中进行廉价但高度专业化的领域适配。
为了提高ICL性能,一系列研究致力于构建能够实现高稳定ICL性能的 Prompt 。在Xu等人和Yang等人的研究中,作者们提出了SuperICL,将微调的小语言模型(SLM)2的预测结果附加到ICL Prompt 中,结合专家模型的专业知识和LLM的一般语言能力。然而,SuperICL需要对目标数据集进行微调SLM,这需要大量的计算资源和高质量的数据。这抵消了ICL的主要优势,即低成本。此外,微调可能导致数据泄漏问题。
贡献
作者提出了一种名为Ensemble SuperICL的ICL方法,该方法使LLM能够利用多个现成的SLM的预测和置信度。作者在几个自然语言理解基准测试上测试Ensemble SuperICL,并表明它优于ICL、SLM和SuperICL Baseline 。
为了展示跨任务专业知识迁移的转移性,作者在一个医学标签任务上测试Ensemble SuperICL,并表明作者的方法可以比所有 Baseline 更准确地 Token 大规模的特定领域数据。
作者进行了结果验证的消融研究和敏感性分析。
2 Ensemble Super In-Context Learning
随着参数数量的增长,基于 Transformer 的语言模型开始展示在特定上下文中的学习能力,这使得它们能够执行它们未经训练就能完成的任务(Brown等人,2020年)。少样本 Prompt 利用了LLM的ICL能力,通过向LLM提供几个精心选择的示例(上下文示例)来实现(Dong等人,2022年)。
过去的研究既探索了在特定上下文中的示例组合,也探索了将SLM集成到ICL中。Khalifa等人(2023年)提出了示例组合,其中LLM将示例分成子集,为每个子集生成输出概率,并最终组合这些概率进行预测。Sun等人(2023年)使用SLM进行ICL的-近邻示例搜索。Shen等人(2024年)使用LLM作为控制器来访问许多专家模型,无论大小。
Wang等人(2024年)开发了一种算法,该算法使用一个小语言模型从一组标注数据中选择最佳示例。
最近,徐等人(2023)和杨等人(2023)提出了SuperICL和SuperContext,这两种方法都在增强ICL(增强式学习)典型场景中的上下文示例方面取得了进展,通过将SLM(序列到序列模型)的预测以及其信心评分(通过将SLM产生的对数概率应用 sigmoid 函数得到的)相结合。这些较小的模型提供特定任务的知识,充当具有通用语言能力的LLM(大型语言模型)的插件模型。
基于这些过去的工作,作者提出了 Ensemble SuperICL 方法,该方法利用 ICL 使 LLM 能够利用多个 SLM 的专家知识。Ensemble SuperICL 过程的流程图如图1 所示。Ensemble SuperICL 的第一步是选择在语境中的示例,其中每个示例都是输入和真实标签的一对。接下来,两个或多个在任务上或通用任务上进行微调的 SLM 产生 _ensemble super context_:Ensemble SuperICL 中的一个示例包括输入、这个在语境中的示例上来自两个到五个 SLM 的预测标签和置信度,以及真实标签。最后,将测试问题与其来自 SLM 的预测标签和置信度连接,并将其输入到 LLM 中。总之,LLM 使用构建的语境和测试问题,两者都增强了多个 SLM 的预测和置信度,以形成响应。Ensemble SuperICL 在 SST-2 数据集上的一个示例(在 1 shot 设置中,有两个 SLM)在附录 B 中展示。
这样的上下文构造背后的动机是,LLM将能够利用SLM的预测、其置信度分数和真实标签,从而三角定位正确的回答,并学习给定SLM的预测(及其置信度)的可靠性。
3 Methods
作者使用了五个数据集进行实验:四个自然语言理解(NLU)基准测试和一个特定领域的数据集。GLUE(General Language Understanding Evaluation)基准测试是一个用于评估自然语言理解系统(NLU)的资源集合(Wang等人,2019年)。作者使用了其中的四个GLUE数据集,以评估各种NLU能力:多体裁自然语言推理语料库(MNLI)、斯坦福情感树库(SST-2)、微软研究换句语料库(MRPC)和语言可接受性语料库(CoLA)(附录A)(Dolan和Brockett,2005年;Socher等人,2013年;Williams等人,2018年;Warstadt等人,2018年)。此外,医学多选题问答数据集(MedMCQA)包含超过183k的医学入学考试问题。每个问题都分配了一个21个医学主题之一,如手术、牙科和病理学。作者将模型任务为推理给定问题的主题。
集成超ICL模型。 作者使用Llama3-8b-Instruct作为LLM,并考虑了七个SLMs:MobileBERT, flan-t5-large, ELECTRA-large, DeBERTa-large, RoBERTa-large, BART-large,和T5-large(表1)。作者使用Hugging Face为每个数据集提供每个SLM的微调版本,除了MedMCQA,作者在那里重用了MNLI微调的SLMs。MNLI是微调SLMs的最受欢迎的数据集选择之一,为它们提供了可能具有迁移性的通用语言理解能力。作者在0, 8, 16, 24和32个示例的选择上运行了实验,并考虑了所有可能的SLMs组合(包括0、8、16、24和32个示例)。
Baseline 模型 作者考虑了三种 Baseline 模型。第一种是传统的在语境中的学习,包括8、16、24和32个示例。第二种是原始的SuperICL方法,它使用单个SLM。由于作者的方法需要使用多个小型语言模型(SLM),作者构建了一个第三种 Baseline 预测器:是SLM预测的一个简单多数投票。如果没有多数投票,如在只考虑了四个SLM的情况下,最后一个出现的预测将被使用。在考虑了几个多数投票预测器版本,包括一个由SLM置信度加权的版本,作者发现这种方法在各个数据集上平均获得了最高的准确性。这是因为性能不佳的SLM可以确信地是错误的。
构建上下文。对于每个数据集,作者从训练集中随机选择8、16、24或32个问题-答案对来用于上下文构建。为了保证公平比较和可重复性,作者在所有实验中使用同一数据集的上下文示例。
推理时间。作者将联合超上下文、测试输入和指令 Prompt 提供给LLM,以预测测试输入的标签(见附录C中具体 Prompt 设计)。为了进行公平的比较和可重复性,作者在分析中的LLM预测具有最高概率的 Token (贪心解码),而不是从输出分布中采样。所有实验都在两块NVIDIA A100 80GB GPU上运行。
4 Results and Discussion
Ensemble SuperICL outperforms nearly all baselines on each dataset
可以在表2中看到,Ensemble SuperICL在各个数据集上提高了ICL性能3到20个百分点,在更具挑战性的任务上取得了更大的改进,并在四个基准数据集(SST-2、MRPC和CoLA)中的三个上超过了所有 Baseline :SST-2、MRPC和CoLA。在MNLI上,Ensemble SuperICL超过了ICL和SuperICL Baseline ,但SLM多数投票 Baseline 略好一些。附录D和E中报告了包含所有少样本设置和SLM组合的500多个实验的结果。
集成SuperICL在MedMCQA标签任务上优于所有 Baseline 。请注意,所使用的SLM并未针对目标任务进行微调。这表明,针对通用推理任务微调的集成SLM可以在保留其低数据和计算需求的同时,在特定领域的任务上优于ICL。
令人惊讶的是,即使是性能较差的SLMs也在提升ICL性能方面发挥了作用。在CoLA实验中,作者包括了两个“弱”的SLMs,尽管它们在目标任务上进行了微调,但性能却不如ICL模型:MobileBERT和T5分别取得了52.78%和53.51%的准确率,而Llama3-8b-Instruct ICL取得了55.43%的准确率,然而,通过Ensemble SuperICL将MobileBERT和T5结合在一起,在所有少样本场景下,其性能都超过了ICL,最高准确率达到了62.21%。在MedMCQA中,ELECTRA-large的准确率非常低,为29.86%,而Llama3-8b-Instruct ICL取得了79.43%的准确率,然而,Ensemble SuperICL与ELECTRA-large结合在一起,在五个少样本场景中有三个的准确率超过了ICL,最高准确率达到了82.00%(见附录E中的表7)。这些结果表明,EnsembleSuperICL与“弱”的SLMs可能足以超越ICL性能。作者还证明了作者的结果在随机种子(附录G)下仍然有效。
Ablation study: all components of Ensemble SuperICL are significant
作者研究了三个组成部分对Ensemble SuperICL的最佳性能版本的影响:(a) 在上下文示例中的SLM预测;(b) 在上下文示例和测试输入中的SLM信心评分;(c) 测试输入中的SLM预测。ablation研究的结果呈现在表3中,表明所有组成部分对最佳性能都是必要的。
首先(1),作者在测试输入中仅保留SLM预测,从上下文示例中移除SLM预测,并从测试输入中移除SLM置信度。平均而言,这对性能影响最大,尤其是在MNLI和MedMCQA中,性能下降了约6个百分点。其次(2),作者在上下文示例和测试输入中保留SLM预测,但移除SLM置信度。这在对SST-2、MRPC和CoLA的性能影响最大,但在MNLI和MedMCQA中的影响最小。第三(3),作者在测试输入中保留SLM预测和置信度,但从上下文示例中移除两者。平均而言,这对性能的影响最小。
Limitations and future works
首先,Ensemble SuperICL 的最大局限性在于超参数的最佳配置(如在语境中的示例数量、SLM 数量以及选择 SLM 的方法)在不同的数据集上差异很大(见附录 F)。然而,无论超参数如何,Ensemble SuperICL 平均上都优于 ICL,这表明在没有审慎的超参数选择过程的情况下,它仍然可能有用。此外,本工作的范围仅限于文本分类任务。
Yang 等(2023年)在文本生成任务上展示了 SuperICL 的积极结果,这表明 Ensemble SuperICL 应该可以扩展到文本生成领域。因此,后续研究可以尝试在类似于 SQuAD 2.0、QNLI 和 QQP 的问题回答数据集上测试 Ensemble SuperICL。
同样,未来的工作可以扩大到医疗领域之外,以更好地评估 Ensemble SuperICL 的领域专业能力。
5 Conclusion
作者提出了Ensemble SuperICL,一种将小型语言模型(SLMs)集成以提高ICL分类准确率的同时保持其低时间、计算和数据要求的方法。Ensemble SuperICL在三个自然语言理解(NLU)基准测试以及一个医学分类任务上都超过了所有 Baseline ,显示出在特定领域分类任务上的应用前景。
两个结果进一步支持其用于实际应用的案例:
(1) 任务对LLM(通过ICL准确性衡量的)越困难,Ensemble SuperICL提升ICL性能的程度就越大,(2) 即使将弱小的SLMs组合在一起,也可能获得高性能。
结果(2)保持了ICL的“低成本”特性,同时从使用小型语言模型的优势中受益,结果(1)使得该方法对于需要领域专业知识进行 Token 的任务具有吸引力。
[0]. Improving In-Context Learning with.