ADELIE：教你如何训练一个与GPT4能力相当的7B信息抽取模型 - 文章 - 开发者社区

ADELIE：大型语言模型在信息抽取领域的精准对齐在翻译过程中，我首先确保原文的核心意义被准确传达，即“ADELIE”是一个关于大型语言模型在信息抽取任务上进行对齐的项目或方法。

发布时间：2024 年 05 月 08 日

知识图谱

ADELIE: Aligning Large Language Models on Information Extraction

大型语言模型在信息提取任务上往往力不从心，难以应对复杂的指令。这源于主流的对齐数据集忽视了信息提取任务的数据，导致模型与人类意图脱节。本文推出的 ADELIE，专为信息提取任务量身定制，能灵活应对封闭、开放及按需 IE 挑战。我们精心打造了 IEInstruct 对齐语料库，并通过指令调整训练出 ADELIE_SFT。随后，采用 DPO 优化目标，锻造出 ADELIE_DPO。实验证明，ADELIE 系列模型在开源领域独领风骚，不仅性能卓越，通用能力亦未见衰退。我们愿公开源码、数据与模型，以期推动研究的深入发展。

https://arxiv.org/abs/2405.05008

一、背景

大语言模型经过指令精调（Instruction Finetune）或者DPO（Direct Preference Optimization）等技术的优化后，在各个方面都得到了很大的进展。但是在信息提取（IE, Information Extraction）任务上，大语言模型的性能仍然有待提升。

为了提升LLM在IE任务上的性能，本文作者从三个方面做了尝试和探索：

• 提示工程：利用提示工程，不进行模型训练来提升LLM在信息提取任务上的效果
• 编码大模型（Code LLM）：编码大型语言模型（LLM）利用其理解结构化信息的能力来提升在信息提取（IE）任务上的表现。
• 多任务模型Finetune：通过在多个IE数据集上进行微调来提升模型解决IE任务时的泛化能力

这些方法并没有彻底解决LLM在IE任务的准确性问题。提示工程往往没有从根本上提升模型的能力；编码大模型和多任务Finetune往往在单一类型数据上Finetune，缺乏多样化的数据对齐，导致微调后的模型在IE任务上泛化能力受限。

针对以上问题，我们专门提出了ADELIE （Aligning large language moDELs on Information Extraction）模型，该模型专门针对IE任务做了优化对齐。

首先作者构建了丰富的数据集 IEInstruct，该数据集涵盖了83,585 个多样化的IE任务。该数据集包含多样化的指令和多种输出格式，并通过GPT3.5进行了扩展，类似Self-Instruct方法。另外，还利用多种增强技术，如添加注释，来进一步丰富指令集，并引入GPT4生成思维链解释，提升数据的深度和广度。

其次，ADELIE的SFT（指令精调）工作时基于LLAMA2模型，现实通过SFT来进行训练，然后使用DPO在另外一个数据集上级进行训练。

二、什么是信息提取任务？

信息提取（IE）任务传统上分为两大类：封闭型IE与开放型IE。

封闭型IE的任务是从非结构化文本中抽取结构化信息，这通常要求抽取的信息遵循一个预先设定的框架。它包含以下子任务：-（1）命名实体识别（NER），旨在识别文本中的实体，并将它们分类到框架预定义的类型中（Yadav和Bethard，2018）。-（2）关系分类（RC），它将文本中提及的两个实体间的关系归类为预设的类型（Han等人，2020）。-（3）关系提取（RE），目的是端到端地抽取实体及其相互关系（Zhong和Chen，2021）。-（4）事件检测（ED），它负责识别事件触发词并将其分类为预定类型（Wang等人，2020）。-（5）事件论元提取（EAE），目的是抽取事件的相关论元，如时间信息（Wang等人，2023c）。-（6）事件提取（EE），旨在以端到端的方式抽取事件及其论元（Peng等人，2023b）。-（7）事件关系提取（ERE），抽取事件之间的指代、时间顺序、因果和层级关系（Wang等人，2022b）。

开放型IE的目标是从文本中抽取n元关系元组，这一过程不依赖于任何预设的框架（Zhou等人，2022）。

在封闭型IE和开放型IE之外，Jiao等人（2023）提出了按需IE的概念，它旨在根据用户需求从非结构化文本中抽取特定信息，如水果的形状和口味，并将其整理成结构化的表格形式。按需IE更具有灵活性，并且更贴近用户在现实世界中的需求。本文全面覆盖了这些IE任务，目的是通过充分的对齐提升模型处理这些任务的能力。

如何构建训练数据集

训练数据集的构建主要由3个步骤组成：IE数据收集、输入构建、答案生成。

IE数据收集

首先收集多个IE数据集，包括封闭型IE（Xu等人，2023年）、开放型IE（Liu等人，2022年）和按需IE（Jiao等人，2023年），涵盖各种领域，如通用、金融和生物医学领域。为了使不同数据集之间的平衡，采用了按例混合法，并限定每个数据集的大小不超过5,000条（数据分布如下图）。

picture.image

输入构建

picture.image

为了更好地使LLM适应IE任务，我们构建了多样化的输入。如上图所示，输入主要由指令和输入文本两部分组成。指令通常包含三个部分：任务描述、模式描述和输出格式描述。模式描述仅用于封闭型IE任务，而开放型IE和按需IE则不涉及模式。部分输入还包含了若干示例，即输入输出样本，用以提升少量样本的上下文学习能力。

任务描述

对于每个IE任务，首先手工撰写了10个任务描述，随后利用GPT-3.5生成了20个额外的描述。为了增加生成描述的多样性，采用了迭代生成法，类似于Self-Instruct的方法，使用3个手工编写的描述和2个已生成的描述作为GPT-3.5生成新描述的提示。最终，手动审核了生成的描述，并排除了那些存在错误信息的描述。

框架描述

在封闭型信息提取任务中，从三个方面丰富了框架描述：-（1）随机Schema和抽样。随机调整框架中类别的顺序，并随机选取1至最大类别数的子集用于指令中，以避免模型在训练语料库中的框架上过拟合。-（2）整合指南。指南是对框架定义的阐释，有助于提升模型对框架定义的理解，增强其在未见任务上的零样本泛化能力。因此，在训练语料库中20%的数据中加入了指南信息，并为每个类别提供了若干示例。剩余数据不包含指南，以防模型记忆框架定义，同时增加数据多样性。-（3）用符号替代类别名称。随机用符号（如LABEL_1）替换类别名称，以防模型对特定类别名称过拟合，同时提升其上下文学习能力。

输出格式描述

LLM在信息提取任务中有时难以遵循规定的输出格式。为了提高模型遵循格式要求的能力，在指令中引入了多种输出格式描述，指导模型正确输出。具体来说，对于封闭型和开放型信息提取任务，主要有三种格式：

• （1）三元组格式，如关系提取中的（头部实体；关系；尾部实体）或（头部实体；尾部实体；关系）。
• （2）JSON格式，要求模型以JSON格式输出结果。
• （3）自然语言格式，没有特定格式要求，允许模型以自然语言形式输出。按需信息提取不涉及输出格式描述，因为其输出通常采用固定的Markdown格式。

少量样本示例

为了提升模型的少量样本上下文学习能力，在训练语料库中加入了少量样本示例。随机选取50%的训练数据，并在原始输入中随机添加1至8个示例。这些示例包括一段输入文本及其输出结果，且输出格式需符合指令中的规范。为防止模型对特定示例过拟合，对每个实例的示例进行随机抽样和洗牌。

答案构建

按照上文指令所规定的格式要求，构建了相应的答案输出。具体来说，对于封闭型和开放型信息提取（IE）任务，提供了三种输出格式：

• （1）三元组格式。将答案转换成序列化的三元组形式，并随机打乱多三元组输出的顺序，以减少可能的顺序偏差。
• （2）JSON格式。设计了一系列JSON格式，并将答案转换成相应的JSON数据结构。
• （3）自然语言格式。为每项任务手工编写了多个自然语言输出模板，并依据这些模板构建了相应的答案。至于按需IE任务，使用了数据集中的原始答案形式。

为了加深模型对信息提取任务流程的理解，在封闭型和开放型IE任务的子集中（占10%）增加了思维链（CoT）解释。为了产生高质量的CoT解释，将输入文本及其标准答案一并输入到GPT-4模型中：为每项任务抽取了1,000个实例，然后利用这些文本输入及其相应的答案来生成CoT解释。随机选择了200个实例来评估CoT解释的质量，结果表明GPT-4通常能够为答案生成有效且信息丰富的逐步思考过程。

三、模型训练

SFT训练阶段

在SFT训练阶段，为保持模型在对齐过程中的通用性能，采用了TULU 2所使用的通用对齐语料库。将IEInstruct（83,585个实例）与320,000个通用对齐语料库实例相结合，形成训练数据集。以LLAMA 2-7B（Touvron等人，2023年）作为基础模型，经过6,306步梯度更新，训练出ADELIE-SFT模型。

DPO训练阶段

SFT阶段结束后，继续采用DPO目标对ADELIESFT进行训练。

首先，构建了DPO训练所需的偏好对数据集，即包含优选答案和非优选答案的配对。DPO的原始训练目标是在SFT后从模型中在线采样偏好对，并进行人工标注。实际操作中，也有研究使用人工标注的离线偏好对进行训练，例如从其他更强大的模型中采样得到的。为了增加数据多样性，采用了在线数据和离线数据的混合方式。与以往需要人工标注的偏好对不同，信息提取（IE）任务中存在标准答案，因此可以自动构建偏好对。

直接使用模型的输出和原始的标准答案，避免了额外的人工标注偏好对的需要，这种方法类似于自我提升，大大减少了人工参与，节省了人力资源。

使用BLEU评分（Papineni等人，2002年）作为自动构建偏好对的依据。对ADELIE-SFT模型的输出进行5次采样，采样温度设定为1.0。若最高与最低BLEU得分之间的差异超过10%，则将相应的输出配对视为一个偏好对，其中BLEU得分较高的输出被认定为优选答案。将这类数据称为在线数据。

同时，也采用最低BLEU得分的输出作为非优选答案，标准答案作为优选答案，并将这类数据称为离线数据。

最终，我们了一个包含3,000对在线偏好对和7,000对离线偏好对的IEFeedback数据集。然后，利用DPO目标，对ADELIE-SFT模型进行了额外937步梯度更新的训练，最终得到了ADELIE-DPO模型。

四、效果测评

picture.image

在封闭信息抽取（Closed IE）数据集上的测试结果如上图。

-（1）ADELIESFT的表现显著超越了原版LLAMA 2，并领先于所有信息抽取领域的大型语言模型（LLMs）以及GPT-3.5，其性能甚至可与GPTModel CaRB ROBUST AVG的零射击性能相媲美。-（2）DPO进一步提升了性能。ADELIE-DPO在大多数数据集上的表现一致优于ADELIE-SFT。这表明，在有确切答案的抽取任务中，使用DPO进行进一步对齐也能提升模型性能。然而，DPO的性能提升非常有限，可能因为没有使用额外的人工标注偏好对。计划将使用人工标注偏好对来训练DPO作为未来的研究方向。-（3）在对齐过程中包含上下文示例是必要的。先前的研究仅关注Zero Shot能力，忽略了大型语言模型（LLMs）的Few Shot能力，导致在提供少量示例时没有显著提升，甚至出现了下降，例如GoLLIE的F1得分下降了4.3%。与此相反，ADELIE-SFT在Few Shot情况下的表现远超过了Zero Shot情况，这表明ADELIESFT具备闭环IE任务的Few Shot上下文学习能力。这证明了在对齐过程中包含上下文示例的有效性。

picture.image

在开放信息抽取（Open IE）数据集上的测试结果如上图。结果与封闭信息提取任务相似。ADELIE-SFT和ADELIE-DPO的性能明显优于GPT-3.5，特别是在具有普遍句法转换的鲁棒性开放IE基准ROBUST上，这证明了我们模型在开放IE任务上的鲁棒性。ADELIE 甚至超过了当前最先进的微调模型OpenIE6，显示了对齐训练的有效性。

picture.image

在按需信息抽取（On-demand IE）任务上的测试结果如上图。该任务采用两个评估指标：表头评估模型遵循指令的程度；表格内容评估抽取质量（Jiao等人，2023年）。发现ADELIE在表头得分上与GPT-4相当，这表明ADELIE更好地理解和遵循了用户的指令。这证明了对齐过程有效地使ADELIE与用户的指令和期望保持一致。

总体而言，ADELIE在所有信息抽取任务上都取得了卓越的成绩，特别是在Few Shot评估场景中，这展现了它们强大的Zero Shot和Few Shot泛化能力，以及我们对齐语料库IEInstruct和IEFeedback的有效性。

五、小仙女说

• 原文结尾有Prompt，大家可以参考
• 原文结尾有模型训练的参数细节，有兴趣的可以自行查阅

• 论文原文: https://arxiv.org/abs/2405.05008
• 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
• 加入社群，+v: iamxxn886