超越GPT-4,新方法在事实核查数据集上取得显著成效 !

大模型关系型数据库机器学习

备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

事实核实是新闻工作中对抗虚假信息的重要过程。为了帮助记者完成这一任务,计算方法通常需要将模型适应到特定领域并生成解释。

然而,大多数自动化事实核查方法都依赖于三分类数据集,这些数据集并不能准确反映实际中的虚假信息。

此外,事实核查解释通常基于证据的文本摘要生成,无法解决主张与证据之间的关系。为了解决这些问题,作者将自证明方法扩展到事实核实。

自证明是指模型生成解释或为其响应生成合理性的能力,这对于可靠的事实核查至关重要。

作者提出了一种标签自适应学习方法:首先,作者微调一个模型以学习带有标注标签的真相预测(第一步模型)。

然后,作者再次微调第一步模型以学习自证明,使用相同的数据和额外的标注解释。这种方法使模型比直接端到端自证明微调更能有效地适应新领域。

作者的结果表明,作者的标签自适应方法在PubHealth和AveriTec数据集上的真实度预测(Macro F1)提高了超过十个百分点,超过了GPT-4模型。

此外,为了应对解释标注的高成本,作者从三个大型语言模型(GPT-4-turbo、GPT-3.5-turbo和Llama-3-8B)中分别生成了64个合成解释,并很少样本微调第一步模型。

经过少量合成解释微调的模型与完全微调的自证明模型表现相当,展示了低预算学习的合成数据潜力。

作者的标签自适应自证明方法为未来使用不同 Token 方案的现实生活中可解释的事实核查提供了有前景的方向。

I Introduction

可解释的事实验证是现代自动化事实核查的关键。最近的事实核查数据集通常包含标注的说明以突出其重要性。然而,关于可解释事实核查方法的研究主要集中在文本摘要上,在这种情况下,作为摘要的解释并不能代表实际世界的事实核查解释,因为它们没有比较主张和证据之间的差异来得出结论。

自我合理化,即模型被训练为同时产生预测和自然语言解释,是自然语言推理(NLI)任务的主流可解释方法,并可以用于进一步提高事实验证解释[5]。然而,典型的自我合理化条件是目标数据集标签属于语言模型预训练[5,6]。

例如,考虑图1。它展示了在最近发布的事实核查数据集 AVeriTec[2]上不同方法的性能。该数据集包含四个标签,除了典型的三类标签(支持、不足以判断(NEI)、反驳),还包括一个新的类别“冲突(冲突证据)”。

在进行零样本学习T5-3B(绿色条形)时,使用NLI数据集预训练的模型在“支持”和“反驳”类上显示合理的结果,但在“NEI”类上表现不佳,在新型“冲突”类上完全失败。在图1中用橙色条形表示的自理性微调在T5-3B上,未能学习新类别,导致真实度预测性能较低。

picture.image

这个问题非常重要,因为大多数事实核查数据集(如FEVER[7])通常使用三个类别来 Token 声明的真实性:支持(SUPPORT)、反驳(REFUTE)和NEI(没有足够的信息),这与NLI(蕴涵、矛盾和中立)标签相当。

然而,许多实际的事实核查数据集通常采用不同的 Token 方案,类别数量在2-27个类别之间变化[8](在某些情况下)。随着 Token 方案从NLI任务转向,直接在预先在NLIdatasets上训练的模型上应用自证理由的方法在事实核查中表现不佳。

在这个背景下,作者提出了一种标签自适应自证方法,以解决事实验证/检查中的 Token 漂移挑战。作者首先微调一个预训练模型,学习具有不同标签的分类任务;然后,作者再次微调它,使用标签和解释进行微调,以学习自我证明(解释)任务。作者的结果表明,两步法显著优于直接学习自我证明,在AVeriTec数据集上的性能提高了20个百分点以上(图1)。这种方法还实现了与最先进方法相比的最佳结果。

总的来说,作者在这篇论文中的贡献有两点:

  1. 作者提出了一种针对事实核查领域的2步自证法。
  2. 作者提出了一种通过LLM为步骤2自证理由生成少量合成解释的方法,以防缺少标注的解释。在这种情况下,模型的性能与整个数据集相当。

II Related Work

本文介绍了文献中可用的可解释事实核查数据集,并阐述了迄今为止最原则的方法来处理这个问题。

Explainable Fact-checking Datasets

事实上,可解释性在事实核查领域是一个重要的研究热点;然而,这个任务的数据集还相当有限。LIAR-PLUS [9] 是第一个通过扩展 LIAR [10] 数据集并从中提取政治事实核查文章的论证来构建的数据集。Kotonya 等人 [1] 构建了一个名为 PubHealth 的大型数据集,该数据集包含了来自各种事实核查网站的健康主题的论点。e-FEVER [11] 是一个基于 FEVER [7] 的数据集,其中合成的解释是由 GPT-3 生成的。

更近期的数据集是 AVeriTec [2],该数据集由 Schlichtkrull 等人 [2] 发布,其中论点也是从实际事实核查网站中提取的。与先前的解释数据集不同,AVeriTec 的解释是由人类编写的,这些解释以问题的形式和答案的方式,对检索到的证据进行推理。

Explainable Fact-checking Methods

摘要生成对于解释生成一直是一种受欢迎的方法,因为大多数解释数据集的标注解释都采用了摘要证据的形式。Atanasova等人[3]首次提出了一种基于LIAR-PLUS数据集的提取式摘要方法。他们通过从原始事实检查判词评论中选择重要句子来生成事实核查解释。

Kotonya等人[1]使用联合提取式-抽象式摘要方法,根据他们的PubHealth数据集,生成人类可理解的解释。Russo等人[4]对比了提取式和抽象式方法,并表明在执行提取式方法之前,生成抽象式方法能获得最佳结果。然而,摘要方法的问题在于,摘要无法在论点和证据之间建立清晰的联系,以得出结论。

另一种生成解释的方法是通过 Prompt 大型语言模型(LLMs)。张等人[12]提出了一种 Prompt 方法(HiSS)来生成中间推理步骤和最终预测,使用GPT-3.5。

推理步骤由分解的子论点、针对每个子论点的问题和答案组成。Zarharan等人[13]在PubHealth数据集上测试了LLMs的零/少样本能力,他们发现参数高效的Mixtral-7B微调优于GPT-4模型。使用LLMs的主要问题是其预训练数据的透明度不足,可能导致数据污染,即测试数据可能在预训练期间被看到,从而导致不可靠的表现。

III Methodology

如图1所示,在新增标签的情况下,仅直接微调的自我合理化方法失效。

因此,作者采用逐步适应的方法,逐步将模型适应到新的领域和类别。作者的方法基于T5-3B模型,因为其大小与许多开源大型语言模型相当,而自我合理化已在T5模型上得到了良好的表现[5, 6, 14]。

Label-Adaptive Self-rationalization Learning

图2说明了作者的提出方法。

它包括两个步骤:

在第一步中,模型仅根据提供的标签适应新类别;

在第二步中,模型学习带有标签和附加解释的自证明任务。以下是作者对此的详细描述:

picture.image

给定数据集,其中每个样本,分别表示论点、证据、标签和解释,作者执行两个步骤。

Step-1: Label Adaptation. 作者首先对T5模型进行适应和微调,以生成真实性标签 。给定输入 , 作者遵循与T5用于NLI任务预训练时相同的标准 Prompt 模板("claims"和"evidence"分别映射为"hypothesis"和"premise" ,因为T5更熟悉这些词),如图2中第一行所示。

Step-2: 自我合理化 。在微调了真实性预测任务后的模型之后,作者现在在步骤-1之后再次微调产生的T5模型,并添加金解释。如图2的第二行所示,作者将编码器 Prompt 更改为添加词 "explain",而在解码器 Prompt 中,作者添加了一个分隔词 "explanation",灵感来自[5]。

为了模拟一个具有有限标注解释的 realistic 场景,作者利用大型语言模型(LLMs)生成 few-shot 合成解释。

具体而言,作者使用 GPT-3.5-turbo-0125、GPT-4-turbo 和 Llama-3-8B-Instruct 三个模型来评估这个任务。

Data Processing and Label Mapping

作者在两个带有解释标注的数据集上进行了实验:AveriTeC [2] 和 PubMedHealth [1]。作者选择这些数据集,因为它们更好地代表了现实世界的事实核查场景,并具有4类标注。

AveriTeC数据集包含来自50家事实核查组织的申述。它独特之处在于,AveriTeC中的证据由从在线网站检索的问题和答案组成。

公共卫生: 这些数据集包含来自健康(生物医学)领域的陈述,这些陈述是从事实核查和新闻审查网站中提取的。证据包括事实核查文章或新闻评论的全文,平均长度超过600个词,明显长于AveriTeC的120个词的平均长度。事实核查的准确性解释通过事实核查理由或新闻摘要提供。

作者将不同模型的文本标签映射为表1中的内容。具体而言,对于T5,作者将标签与预训练期间使用的NLI任务命名方案对齐。在AveriTeC中的 "Conflicting evidence" 标签,作者将其等同于PubHealth中的 "MIXTURE" 类,对于GPT/Llama模型,它表示 "部分真且部分假"。

picture.image

表2展示了每个数据集的数据统计信息;作者删除了包含空声明的实例。两个数据集具有非常不平衡的类别,具有较少的"NEI (不足证据)"和"mixture"类数据。

picture.image

IV Experimental setup

Implementation Details

在每个微调实验中,作者在不使用验证集的情况下,从最后一个epoch(50)中选择最佳模型。对于AveriTec,作者使用批量大小为4,最大输入长度为512。

对于PubHealth,由于证据的长度,作者使用批量大小为2,最大输入长度为1024。所有实验都基于NVIDIA A100 GPU。对于GPT-4的零样本基准,作者将温度设置为0.7,最大输出长度为200。

Evaluation Metrics

为了评估真实性和解释质量,作者首先从生成的文本中提取标签和解释,使用分隔符 "explanation:"。对于真实性预测,作者根据准确性和宏观F1分数评估性能。

对于解释,作者同时使用参考指标(ROUGE分数和METEOR)和无参考指标。后者在测试数据集中缺乏参考解释进行比较的实际场景中至关重要。具体来说,作者使用了以下无参考指标:

Auto-J [15]: 该指标是基于LLaMA-2-13B-chat模型进行微调,针对不同用户 Query 生成的LLM响应进行判断而得到的模型。它支持单人和双人评价。作者用于单参考无评价。评价输出包括文本分析和1-10之间的总体质量评分。

老虎分数(TigerScore):另一种基于模型的指标,用于为文本生成任务提供可解释的评估,该指标遵循指示进行操作。它输出一个从0到-无穷大的整体错误分数,以及每个检测到的错误的详细位置和类型分析。作者在评估中使用了TIGERScore-13B模型。

对于无参考指标,输入必须使用基于指令的 Prompt 格式。作者的指令类似于用于生成合成解释的LLM的指令。作者根据真实标签评估解释。

V Results and Discussions

作者在对比 Baseline 方法的基础上,提出了关于真实性和解释生成的结果,以及在少样本合成LLM-解释上的微调结果。

Veracity Prediction Performance

表3展示了在不同 Baseline 模型和作者的2-R模型上的真实性预测结果。如预期,0-L(在T5-3B上的零样本)无法预测两个数据集的"mixture"类别。对于AVeriTeC,作者的2-R模型与GPT-4相当,具有最佳准确率85.2%,同时是一个更小的模型。对于PubHealth,1-L模型表现最好,而2-R模型在生成解释后略微下降(2%)的Macro F1。两种模型都优于更大的 Baseline 模型(Mixtral-7B和GPT-4)。

对于两个数据集,2-R模型与1-R模型相比,提高了10个百分点以上的Macro F1,表明让模型先学习真实性任务对适应新领域和新类别有很大帮助。具体而言,1-R模型在预测"neutral"和"mixture"类别时存在困难,但通过作者的标签适应方法(2-R),模型在这些类别的预测上显著改善。

picture.image

Generated Explanation Quality

作者在表4 中展示了生成的解释质量评估。对于这两个数据集,GPT-4 在参考指标上获得了最高的分数,表明 GPT-4 的推理能力,尽管它倾向于冗长(平均上拥有最长的解释)。作者的 2-R 方法在 ROUGE 得分上最高,超过了 Baseline 。对于 AVeriTec 数据集,2-R 模型生成的解释比 1-R 模型更好,这一点由所有指标证实。

对于 PubHealth 数据集,两个模型得分非常相似,且均具有最高的 ROUGEs 和 METEOR 分数。总的来说,结果表明微调模型生成的解释与参考解释的关联更好,因为训练数据遵循相似的模式。

picture.image

总体而言,作者的2-R方法在真实性和参考得分方面都取得了最高的预测性能,超越了预训练模型和其他最先进的 Baseline 。

Results from Synthetic Few-shot Explanations

为了证明作者两步方法在数据稀缺场景下的潜力,作者在少样本微调的步骤2中进行测试。作者选择每个类别16个样本(总共64个样本)来 Prompt LLM生成合成解释。

这些样本及其生成的解释随后用于微调1-L模型。为了获得稳健的结果,作者选择具有三个不同随机种子的小样本样本,并报告平均值和标准差。表5和VI显示了真实性和解释生成的结果。

picture.image

真实值预测结果表明,尽管Step-2在数据量非常少的情况下仍然取得了远优于端到端自推理模型(1-R)的性能,并且在全数据集微调的2-R模型方面表现相当。

在解释质量方面,无参考指标表明,最佳解释来自2-R(GPT-3.5),与最佳值具有相似的自动J分数,并在少样本模型中具有最低的TigerScore。

令人惊讶的是,2-R(GPT-4) 模型在表现上不如 2-R(GPT-3.5) 和 2-R(Llama-3-8B),这与表4 中的情况相反,表4 中 GPT-4 模型生成的解释要好得多。作者推测,当生成的文本较长(2-R(GPT-4) 模型的解释几乎是其他模型解释的两倍)时,它可能更为详细,但也更容易出现错误。

作者在图VII)中展示了PubMedath数据集中不同模型生成的解释示例。观察到解释越长,模型倾向于胡说八道并出现更多错误。因此,GPT-3.5和Llama-3-8B生成的解释更好,因为它们具有较短的解释,从而不太可能出现错误。这一差距尤其体现在TigerScore(表4)中,该指标衡量了解释中的错误数量。

VI Conclusions, Limitations and future work

作者提出了一个有效的两步方法,用于联合事实验证和解释生成,并使用自我证明。作者的结果表明,具有标签预测步骤显著帮助模型适应新类别并表现更好。

作者的T5-3B方法在大型模型中脱颖而出,包括Mixtral-7B和GPT-4。作者进一步利用LLM生成少样本合成解释来微调作者的T5-3B模型,并使其在仅针对整个数据集的端到端自我证明模型中表现更好。作者还表明,当从GPT-4的解释中学习时,T5-3B模型在生成较长解释时存在困难。

作者的工作仍然存在一些局限性。

  1. 当使用生成模型进行分类时,标签的命名是一个影响性能的因素,因为不同的模型在预训练过程中可能有自己格式化标签的方式。
  2. 作者使用相同的指令为不同的LLM模型,但可能存在其他指令可以帮助它们生成更准确的解释。
  3. 作者的方法基于编码器-解码器架构,因此它可能不能推广到解码器仅有的架构模型。
  4. 作者的解释评估基于自动指标,尽管它们与人类相关性良好,但它们并没有专门设计来评估事实验证的生成解释。

未来的工作Future work可能主要集中在研究哪些模型/指令可以为较小的模型生成更好的合成解释,以便其学习。

此外,测试该方法在多语言模型和数据集上的应用也是一项有前途的尝试。

参考文献

[0]. Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation.

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论