写在前面
大家好,我是刘聪NLP。
春节放假也要记得学习呦!今天给大家带来一篇事件抽取数据增强方法,全名为《Mask-then-Fill: A Flexible and Effective Data Augmentation Framework for Event Extraction》,即一种灵活有效的事件抽取数据增强框架-Mask-then-Fill。
介绍
事件抽取,即从非机构化文本中抽取指定的事件的触发词及其事件要素,为了减轻人工标注,常采用数据增强方法,对原有数据进行扩充,在有限的数据内,尽可能提高模型的效果及泛化性。目前,自然语言处理的数据增强方法主要分为两类:(1) 修改原有训练数据样本 ;(2) 生成+采样 。而事件抽取任务需要在保持事件结构(触发器和参数)不变的情况下增加训练数据,因此“生成+采样”的方法并不适用,本论文主要采用“修改原有训练数据样本”方法进行数据增强。如图1所示,现有对事件抽取进行数据增强的方法主要包括:(1) 回译 ;(2) 同义词替换 ;(3) BERT换词 。但,同义词替换和回译方法缺乏语义多样性,只能生成语义相似的样本;而基于BERT的方法只能替换单词,不能改变语法,不能生成包含各种表达式的样本。
为了解决数据增强多样性的问题,该论文提出了“掩码-填充”方法,在保持原事件结构不变的情况下生成更多样化的数据。首先定义两种类型文本片段:(1)事件相关片段(触发词和事件要素);(2) 附加片段 。然后随机掩码一个附件片段,最后采用微调后的T5模型进行文本填充。
并且引入 亲和度(Affinity)和多样性(Diversity) 两个指标进行进一步研究,发现Mask-then-Fill方法增强的数据具有更好的多样性和更少的分布变化,在多样性和分布相似性之间实现了良好的平衡。
Mask-then-Fill Framework
掩码-填充框架如图2所示,文本主要包括事件相关片段(带颜色内容)和附加片段(带下划线内容),框架的核心是在不引入新的事件前提下,重写整个附属片段。给定一个长度为的句子,首先将一个附加片段定义为一组不包含事件触发词和事件要素的非重叠片段,然后用[MASK]标记替换其中一个附加片段,获取不完整句子。
训练[MASK]填充模型,采用预训练T5模型在Gigaword数据(与事件抽取数据集ACE2005领域相似)上进行微调。训练数据集构建如下: (1)随机获取一个文本片段长度为,的长度为;(2)将原始文本切割成个片段;(3)随机选择一个文本片段来替换为[MASK]符号。 替换的跨度被用作目标,在填充数据上对T5模型进行微调,得到最终模型。
训练完成后,使用填充模型对不完整句子进行预测,生成预测的跨度,最终将中的[MASK]标记替换成预测的跨度获取一个增强的样本。该论文使用Top-K解码产生大量的增强样本池。
Experimental Setup
采用ACE2005数据集上进行对比实验,从训练集中随机抽取1000、4000和8000个样本来模拟低资源设置,创建小型、中型和大型训练集。并在数据增强时,仅对训练数据集进行数据增强,开发集和测试集保持不变。
在Text2Event模型和Text2Event模型两个具有代表性的事件抽取模型上进行实验,并对比与同义词替换、回译、BERT模型三种数据增强方法之间的差异。
Results and Analysis
如表1所示,整体上Mask-then-Fill方法最优。
总结
该框架的主要优点在于可以将文本中任意长度的片段替换为可变长度的片段,而现有的方法只能替换单个单词或固定长度的片段。
请多多关注知乎「刘聪NLP」,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。
往期推荐:
- AAAI2023 | 基于统一语义匹配的通用信息抽取框架-USM
- IJCAI2022 | DictBert:采用对比学习的字典描述知识增强的预训练语言模型
- 中文NER数据集整理
- ACL2022|NoisyTune:微调前加入少量噪音可能会有意想不到的效果
- ACL2022论文分类汇总-Prompt、句子表征、检索排序&摘要
- 总结|Prompt在NER场景的应用
- NAACL2022-Prompt相关论文&对Prompt的看法
- PolyLoss:一种将分类损失函数加入泰勒展开式的损失函数
- PERT:一种基于乱序语言模型的预训练模型
- DiffCSE:结合句子间差异的无监督句子嵌入对比学习方法
- PairSCL:句子对级别的有监督对比学习方法
- OpenAI:基于对比学习的预训练文本&代码表征技术
- SNCSE:一种基于软负例的无监督句向量对比学习方法
- SimCSE论文精读
