发布时间:2024 年 05 月 08 日
知识图谱
ADELIE: Aligning Large Language Models on Information Extraction
大型语言模型在信息提取任务上往往力不从心,难以应对复杂的指令。这源于主流的对齐数据集忽视了信息提取任务的数据,导致模型与人类意图脱节。本文推出的 ADELIE,专为信息提取任务量身定制,能灵活应对封闭、开放及按需 IE 挑战。我们精心打造了 IEInstruct 对齐语料库,并通过指令调整训练出 ADELIE_SFT。随后,采用 DPO 优化目标,锻造出 ADELIE_DPO。实验证明,ADELIE 系列模型在开源领域独领风骚,不仅性能卓越,通用能力亦未见衰退。我们愿公开源码、数据与模型,以期推动研究的深入发展。
一、背景
大语言模型经过指令精调(Instruction Finetune)或者DPO(Direct Preference Optimization)等技术的优化后,在各个方面都得到了很大的进展。但是在信息提取(IE, Information Extraction)任务上,大语言模型的性能仍然有待提升。
为了提升LLM在IE任务上的性能,本文作者从三个方面做了尝试和探索:
- • 提示工程:利用提示工程,不进行模型训练来提升LLM在信息提取任务上的效果
- • 编码大模型(Code LLM):编码大型语言模型(LLM)利用其理解结构化信息的能力来提升在信息提取(IE)任务上的表现。
- • 多任务模型Finetune:通过在多个IE数据集上进行微调来提升模型解决IE任务时的泛化能力
这些方法并没有彻底解决LLM在IE任务的准确性问题。提示工程往往没有从根本上提升模型的能力;编码大模型和多任务Finetune往往在单一类型数据上Finetune,缺乏多样化的数据对齐,导致微调后的模型在IE任务上泛化能力受限。
针对以上问题,我们专门提出了ADELIE (Aligning large language moDELs on Information Extraction)模型,该模型专门针对IE任务做了优化对齐。
首先作者构建了丰富的数据集 IEInstruct,该数据集涵盖了83,585 个多样化的IE任务。该数据集包含多样化的指令和多种输出格式,并通过GPT3.5进行了扩展,类似Self-Instruct方法。另外,还利用多种增强技术,如添加注释,来进一步丰富指令集,并引入GPT4生成思维链解释,提升数据的深度和广度。
其次,ADELIE的SFT(指令精调)工作时基于LLAMA2模型,现实通过SFT来进行训练,然后使用DPO在另外一个数据集上级进行训练。
二、什么是信息提取任务?
信息提取(IE)任务传统上分为两大类:封闭型IE与开放型IE。
封闭型IE的任务是从非结构化文本中抽取结构化信息,这通常要求抽取的信息遵循一个预先设定的框架。它包含以下子任务:-(1)命名实体识别(NER),旨在识别文本中的实体,并将它们分类到框架预定义的类型中(Yadav和Bethard,2018)。-(2)关系分类(RC),它将文本中提及的两个实体间的关系归类为预设的类型(Han等人,2020)。-(3)关系提取(RE),目的是端到端地抽取实体及其相互关系(Zhong和Chen,2021)。-(4)事件检测(ED),它负责识别事件触发词并将其分类为预定类型(Wang等人,2020)。-(5)事件论元提取(EAE),目的是抽取事件的相关论元,如时间信息(Wang等人,2023c)。-(6)事件提取(EE),旨在以端到端的方式抽取事件及其论元(Peng等人,2023b)。-(7)事件关系提取(ERE),抽取事件之间的指代、时间顺序、因果和层级关系(Wang等人,2022b)。
开放型IE的目标是从文本中抽取n元关系元组,这一过程不依赖于任何预设的框架(Zhou等人,2022)。
在封闭型IE和开放型IE之外,Jiao等人(2023)提出了按需IE的概念,它旨在根据用户需求从非结构化文本中抽取特定信息,如水果的形状和口味,并将其整理成结构化的表格形式。按需IE更具有灵活性,并且更贴近用户在现实世界中的需求。本文全面覆盖了这些IE任务,目的是通过充分的对齐提升模型处理这些任务的能力。
如何构建训练数据集
训练数据集的构建主要由3个步骤组成:IE数据收集、输入构建、答案生成。
IE数据收集
首先收集多个IE数据集,包括封闭型IE(Xu等人,2023年)、开放型IE(Liu等人,2022年)和按需IE(Jiao等人,2023年),涵盖各种领域,如通用、金融和生物医学领域。为了使不同数据集之间的平衡,采用了按例混合法,并限定每个数据集的大小不超过5,000条(数据分布如下图)。
输入构建
为了更好地使LLM适应IE任务,我们构建了多样化的输入。如上图所示,输入主要由指令和输入文本两部分组成。指令通常包含三个部分:任务描述、模式描述和输出格式描述。模式描述仅用于封闭型IE任务,而开放型IE和按需IE则不涉及模式。部分输入还包含了若干示例,即输入输出样本,用以提升少量样本的上下文学习能力。
任务描述
对于每个IE任务,首先手工撰写了10个任务描述,随后利用GPT-3.5生成了20个额外的描述。为了增加生成描述的多样性,采用了迭代生成法,类似于Self-Instruct的方法,使用3个手工编写的描述和2个已生成的描述作为GPT-3.5生成新描述的提示。最终,手动审核了生成的描述,并排除了那些存在错误信息的描述。
框架描述
在封闭型信息提取任务中,从三个方面丰富了框架描述:-(1)随机Schema和抽样。随机调整框架中类别的顺序,并随机选取1至最大类别数的子集用于指令中,以避免模型在训练语料库中的框架上过拟合。-(2)整合指南。指南是对框架定义的阐释,有助于提升模型对框架定义的理解,增强其在未见任务上的零样本泛化能力。因此,在训练语料库中20%的数据中加入了指南信息,并为每个类别提供了若干示例。剩余数据不包含指南,以防模型记忆框架定义,同时增加数据多样性。-(3)用符号替代类别名称。随机用符号(如LABEL_1)替换类别名称,以防模型对特定类别名称过拟合,同时提升其上下文学习能力。
输出格式描述
LLM在信息提取任务中有时难以遵循规定的输出格式。为了提高模型遵循格式要求的能力,在指令中引入了多种输出格式描述,指导模型正确输出。具体来说,对于封闭型和开放型信息提取任务,主要有三种格式:
- • (1)三元组格式,如关系提取中的(头部实体;关系;尾部实体)或(头部实体;尾部实体;关系)。
- • (2)JSON格式,要求模型以JSON格式输出结果。
- • (3)自然语言格式,没有特定格式要求,允许模型以自然语言形式输出。按需信息提取不涉及输出格式描述,因为其输出通常采用固定的Markdown格式。
少量样本示例
为了提升模型的少量样本上下文学习能力,在训练语料库中加入了少量样本示例。随机选取50%的训练数据,并在原始输入中随机添加1至8个示例。这些示例包括一段输入文本及其输出结果,且输出格式需符合指令中的规范。为防止模型对特定示例过拟合,对每个实例的示例进行随机抽样和洗牌。
答案构建
按照上文指令所规定的格式要求,构建了相应的答案输出。具体来说,对于封闭型和开放型信息提取(IE)任务,提供了三种输出格式:
- • (1)三元组格式。将答案转换成序列化的三元组形式,并随机打乱多三元组输出的顺序,以减少可能的顺序偏差。
- • (2)JSON格式。设计了一系列JSON格式,并将答案转换成相应的JSON数据结构。
- • (3)自然语言格式。为每项任务手工编写了多个自然语言输出模板,并依据这些模板构建了相应的答案。至于按需IE任务,使用了数据集中的原始答案形式。
为了加深模型对信息提取任务流程的理解,在封闭型和开放型IE任务的子集中(占10%)增加了思维链(CoT)解释。为了产生高质量的CoT解释,将输入文本及其标准答案一并输入到GPT-4模型中:为每项任务抽取了1,000个实例,然后利用这些文本输入及其相应的答案来生成CoT解释。随机选择了200个实例来评估CoT解释的质量,结果表明GPT-4通常能够为答案生成有效且信息丰富的逐步思考过程。
三、模型训练
SFT训练阶段
在SFT训练阶段,为保持模型在对齐过程中的通用性能,采用了TULU 2所使用的通用对齐语料库。将IEInstruct(83,585个实例)与320,000个通用对齐语料库实例相结合,形成训练数据集。以LLAMA 2-7B(Touvron等人,2023年)作为基础模型,经过6,306步梯度更新,训练出ADELIE-SFT模型。
DPO训练阶段
SFT阶段结束后,继续采用DPO目标对ADELIESFT进行训练。
首先,构建了DPO训练所需的偏好对数据集,即包含优选答案和非优选答案的配对。DPO的原始训练目标是在SFT后从模型中在线采样偏好对,并进行人工标注。实际操作中,也有研究使用人工标注的离线偏好对进行训练,例如从其他更强大的模型中采样得到的。为了增加数据多样性,采用了在线数据和离线数据的混合方式。与以往需要人工标注的偏好对不同,信息提取(IE)任务中存在标准答案,因此可以自动构建偏好对。
直接使用模型的输出和原始的标准答案,避免了额外的人工标注偏好对的需要,这种方法类似于自我提升,大大减少了人工参与,节省了人力资源。
使用BLEU评分(Papineni等人,2002年)作为自动构建偏好对的依据。对ADELIE-SFT模型的输出进行5次采样,采样温度设定为1.0。若最高与最低BLEU得分之间的差异超过10%,则将相应的输出配对视为一个偏好对,其中BLEU得分较高的输出被认定为优选答案。将这类数据称为在线数据。
同时,也采用最低BLEU得分的输出作为非优选答案,标准答案作为优选答案,并将这类数据称为离线数据。
最终,我们了一个包含3,000对在线偏好对和7,000对离线偏好对的IEFeedback数据集。然后,利用DPO目标,对ADELIE-SFT模型进行了额外937步梯度更新的训练,最终得到了ADELIE-DPO模型。
四、效果测评
在封闭信息抽取(Closed IE)数据集上的测试结果如上图。
-(1)ADELIESFT的表现显著超越了原版LLAMA 2,并领先于所有信息抽取领域的大型语言模型(LLMs)以及GPT-3.5,其性能甚至可与GPTModel CaRB ROBUST AVG的零射击性能相媲美。-(2)DPO进一步提升了性能。ADELIE-DPO在大多数数据集上的表现一致优于ADELIE-SFT。这表明,在有确切答案的抽取任务中,使用DPO进行进一步对齐也能提升模型性能。然而,DPO的性能提升非常有限,可能因为没有使用额外的人工标注偏好对。计划将使用人工标注偏好对来训练DPO作为未来的研究方向。-(3)在对齐过程中包含上下文示例是必要的。先前的研究仅关注Zero Shot能力,忽略了大型语言模型(LLMs)的Few Shot能力,导致在提供少量示例时没有显著提升,甚至出现了下降,例如GoLLIE的F1得分下降了4.3%。与此相反,ADELIE-SFT在Few Shot情况下的表现远超过了Zero Shot情况,这表明ADELIESFT具备闭环IE任务的Few Shot上下文学习能力。这证明了在对齐过程中包含上下文示例的有效性。
在开放信息抽取(Open IE)数据集上的测试结果如上图。结果与封闭信息提取任务相似。ADELIE-SFT和ADELIE-DPO的性能明显优于GPT-3.5,特别是在具有普遍句法转换的鲁棒性开放IE基准ROBUST上,这证明了我们模型在开放IE任务上的鲁棒性。ADELIE 甚至超过了当前最先进的微调模型OpenIE6,显示了对齐训练的有效性。
在按需信息抽取(On-demand IE)任务上的测试结果如上图。该任务采用两个评估指标:表头评估模型遵循指令的程度;表格内容评估抽取质量(Jiao等人,2023年)。发现ADELIE在表头得分上与GPT-4相当,这表明ADELIE更好地理解和遵循了用户的指令。这证明了对齐过程有效地使ADELIE与用户的指令和期望保持一致。
总体而言,ADELIE在所有信息抽取任务上都取得了卓越的成绩,特别是在Few Shot评估场景中,这展现了它们强大的Zero Shot和Few Shot泛化能力,以及我们对齐语料库IEInstruct和IEFeedback的有效性。
五、小仙女说
- • 原文结尾有Prompt,大家可以参考
- • 原文结尾有模型训练的参数细节,有兴趣的可以自行查阅
-
• 论文原文: https://arxiv.org/abs/2405.05008
-
• 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
-
• 加入社群,+v: iamxxn886