备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
自然语言处理(NLP)是一个充满活力且跨学科的领域,它整合了计算机科学、语言学、社会科学等领域的知识传统。尽管NLP已经确立了自己的存在,但其研究内容的定义仍然存在争议。在本工作中,作者通过研究论文来定量调查NLP的内容。
为此,作者提出了一种分类法,并引入了一个名为的数据集,该数据集包含近2000篇研究论文的摘要,这些摘要经过专家级标注,以识别科学贡献并按照这种分类法对其进行分类。
作者还提出了一种新的任务,用于自动识别这些元素,并为该任务在作者的数据集上训练了一个强大的基准。作者呈现了该任务的结果,并将作者的模型应用于约29万篇NLP研究论文,以分析它们的贡献,有助于理解NLP研究的本质。
作者的发现表明,自20世纪90年代以来,机器学习在NLP中的参与度上升,与此同时,对增加关于语言或人的知识的关注度下降;再次,在2020年之后,对语言和人的关注度出现了复苏。
作者希望这项工作能引发作者社区规范的讨论,并激发作者努力塑造未来的工作。
1 Introduction
将研究领域进行分类有许多益处,其中包括将科学家聚集到一个有凝聚力的感兴趣领域进行进步。虽然通常会对科学领域进行一些广泛的描述,但学科的性质是动态和多维的,并且会随时间变化。
自然语言处理(NLP)在这方面特别有趣,不仅因为其跨学科性质,吸取了计算机科学、语言学、社会科学等领域的思想和技术,而且还因为诸如“什么是自然语言处理研究?
这样的基本问题存在争议。它是研究和发展使机器具有应对和生成语言能力算法的学科吗?它是使用计算方法研究自然语言的学科吗?
它涵盖了计算和语言交叉领域所有的研究吗?还是说它只是更狭窄的东西?一种引人注目的回答“什么是自然语言处理研究?毕竟,当前已发表的研究论文是该领域及其性质的最佳指示器,无论该领域最初是如何定义或理解的。
深入了解特定研究项目的本质,是通过作者阐述他们的贡献来实现的。这些贡献是指归因于作者的新科学成就。
简而言之,科学贡献可分为两类:
i) 增加人类知识的贡献,例如发现DNA结构;
ii) 创造新的、有用的工艺品,例如通用聊天系统如ChatGPT。当作者在科学论文中呈现他们的作品时,他们会描述他们对研究界的贡献。作者将贡献陈述定义为对这些贡献的描述。
在本文中,作者提出了一种自动提取、分类和定量分析领域研究论文中的贡献陈述的方法,这种方法可以为作者揭示该领域的本质。此外,这种努力还能实现对领域的历史(纵向)分析(Kuhn,1970),并有助于研究行人在科学论文迅速增长的背景下识别新兴趋势并保持当前。
作者通过检查1974年至2024年间发表的28,937篇自然语言处理(NLP)论文,来具体而实证地探讨这个观点。具体而言,作者:
介绍一种在自然语言处理(NLP)论文中常见的贡献类型分类(SS 3.1)。
创建一个名为 dataset_NLPContributions 的数据集,包含1,995篇NLP研究论文,其中包含手动标注的贡献声明和贡献类型,来源于其摘要(SS 3.2)。
提出一个新任务,自动从NLP论文中提取并分类贡献声明为贡献类型(SS 4.1)。
最后,针对自然语言处理(NLP)研究的本质以及多年来它如何变化提出一些初步问题(SS 5)。
2 Related Work
观点与主张摘要 在这个领域,研究行人已经探索了自动化方法来捕捉多样化的观点和分析不同的主张角度(Chen等人,2019年)。这包括对关键点分析的日益关注(Bar-Haim等人,2021年)。以前的工作提出了基于神经网络和图的声称摘要方法,用于从报纸报道和在线讨论中进行声称摘要(Zhao等人,2022年;Inacio和Pardo,2021年)。一些研究关注从学术文档中提取主张,特别是在生物医学领域。
虽然研究论文中的主张为支持假设或研究问题提供了声明,但贡献呈现了新的元素(知识和作品),这些作品是论文引入给其领域的。在本工作中,作者探索了从自然语言处理研究论文中提取和分析贡献声明的方法。
自然语言处理科学计量学 与此同时,自然语言处理(NLP)科学计量学近年来取得了显著的进步,研究行人努力了解NLP研究的全景及其演变(Mingers和Leydesdorff,2015;Chen和Song,2019)。NLP科学计量学的一个重要研究方向是研究趋势和模式分析。这些研究利用文献计量技术(Wahle等,2022)、合著者分析(Mohammad,2020)和主题模型(Jurgens等,2018)来了解该领域的动态,识别具有影响力的论文、新兴主题和研究轨迹。
文本挖掘和深度学习技术也在NLP科学计量学中得到应用,从研究论文中提取信息,创建结构化数据集,并使主题之间的互动得以详细分析。尽管在从科学论文中提取语义关系以及研究领域的主题演变方面进行了一些努力,但关于其贡献的知识还相对较少。
虽然NLP科学计量学主要关注元数据,但忽略了论文的丰富内容,但作者的研究更深入地分析了研究论文内容。
语义内容结构 。研究行人已研究结构化语义内容建模以提高科学文档搜索。D'Souza和Auer(2020)提出了一个标注方案,以识别科学文档中的信息单元,重点关注与预定义的NLP任务相关的艺术作品,如模型、数据集或 Baseline 。在这个基础上,D'Souza等人(2021)采用了这个标注方案,构建了一个知识图,将这些艺术作品信息单元在NLP任务之间进行连接。此外,研究行人还应用深度学习方法来自动提取这些信息单元。
值得注意的是,这些单元不一定来自它们所提取的论文中的新颖贡献。与这些努力不同,作者的工作通过识别和分类研究论文中的贡献声明,将其扩展到特定NLP任务之外,拓宽了范围。此外,作者的方法涵盖了扩展知识的贡献,以及引入新的艺术作品。
引用目的分析 。大量研究关注于理解引用的目的并发展分类系统。虽然引用目的信号了引用的目的,例如提供背景信息或进行比较,但贡献不同,因为它们呈现了研究论文为该领域引入的新增内容。
然而,引用目的可能间接反映了从引用论文的角度来看的论文的贡献;
作者的重点是作者在他们自己的工作中自己阐述的贡献。
3NLPContributions: A Corpus of Contribution Statements
作者开发了一种用于NLP研究论文中的各种类型的贡献的分类法。使用这种分类法,作者对NLP研究论文摘要中的贡献声明进行标注。
作者选择论文摘要作为标注的语料库,因为摘要位于论文的开头,通常包含贡献声明。此外,摘要能够有效地概括论文,提供理解贡献的上下文,使其成为特别适合进行贡献标注的文本段落。
对整篇论文进行标注将极大地增加标注工作量,使得摘要成为更高效、更有效的选择。
Taxonomy of Contributions
在自然语言处理(NLP)研究中,贡献可以广泛地分为两大类。作者称之为“作品”,它涵盖了开发新的或创新资源。自然语言处理研究大量利用机器学习的工具,这些工具依赖于新的方法或模型、数据集,以及它们所催生的新任务,所有这些都被认为是重要的贡献。
因此,作品贡献被归类为三个子类型:新方法(a-methods)、新数据集(a-datasets)和新任务(a-tasks),每个子类型都由它为该领域带来的特定资源来区分。
作者将第二类称为丰富了领域的知识贡献,这些贡献带来了新的洞察或知识。根据它们为领域增添了哪些知识,作者进一步将它们分为五个子类别:关于方法的(k-method)知识,关于数据集的(k-dataset)知识,关于任务的(k-task)知识,关于语言的(k-language)知识,以及关于人的(k-people)知识。这种子分类也反映了自然语言处理研究中的重要元素。
在表3中,作者详细描述了每种类别和子类别的信息,并列举了来自自然语言处理研究论文的贡献声明示例。虽然作者承认可能存在其他分类法,但作者指出,作者提出的分类法与ACL'23征稿启事2一致,该启事寻求提交分析(从而增加_知识_)或引入新资源(从而增加_成果_)的论文。
Curation
数据准备 。作者从1974年至2024年2月发表在ACL Anthology下的1,995篇论文中汇编了一篇论文摘要语料库,使用S2ORC(Lo等人,2019年)这一大型论文集合来支持研究。作者随机选择了这些论文,确保了每一年至少有五篇论文被选中。被选中的论文发表在与“ACL事件”相关的期刊和会议上,而研讨会论文被排除在外。此外,作者从汇编语料库中检索了每篇被选中论文的元数据(即唯一ID、标题、作者、出版 venues 和日期)。
标注 。主要标注者是本文的作者之一,他在自然语言处理领域有六年经验。此外,一位拥有四年研究经验的博士生也参与了标注工作。作者开发了一种标注方案,用于识别和分类自然语言处理研究论文中的贡献声明。作者遵循Liakata等人(2010)的面向本体的标注指南。标注者之间进行了定期会议,以根据需要完善指南(Klie等人,2024)。
本文中,两名标注员共对100篇论文进行了标注,确保了1980年至2024年每个十年都有论文被覆盖。作者对这100篇论文的标注员达成的一致性进行了评估。随后,高级标注员根据指南对另外1895篇论文的摘要进行了标注。
一致性 作者通过比较两个标注者在相同贡献标签下的100篇论文的贡献声明来衡量标注者之间的相互一致性(IAA)。所有标注均在Label Studio(Tkachenko等人,2020-2022)中完成。表1显示了平均Fleiss' kappa值为0.71,与学术文档类似(Yang和Li,2018;Lauscher等人,2022)。此外,作者还观察到在95%置信水平上,kappa的误差范围在0.60(下界)至0.82(上界)之间。
Statistics
作者突出了作者数据集的三个方面:首先,数据集包括来自ACL Anthology(包含1995篇论文)的摘要和元数据,其中平均每个摘要标注为贡献声明(每个摘要平均2.95句;平均每个摘要包含5.42句),总共5890个标注贡献声明。其次,作者在表2中展示了这些声明上的标签分布。最后,作者指出有57.6%的贡献声明获得了多个标签。在图1中,作者通过Pointwise Mutual Information(PMI)分数展示了不同标签的共现情况。作者观察到标签_k-people_和_k-task_之间存在高度共现,这可能是因为作者经常解释NLP任务如何产生关于人类或社会的洞察。作者将数据集按论文 Level 划分为训练-验证-测试(70-15-15)的划分,以保持实验的一致性并防止信息泄露。
4 Identifying Contribution Statements and Contribution Types
作者提出了一个新任务,即自动检测和分类NLP研究论文中的贡献声明。作者使用NLPContributions并评估多个模型在该任务上的性能。
Task Definition
该任务涉及两个步骤:检测贡献声明并随后对其进行分类。作者将其建模为多标签分类的多类扩展,即对于一个声明,目标是为其分配类型和子类型,如果满足贡献条件,否则分配Null。正式地,给定一个声明和一个包含个标签的集合,任务是预测与相关联的这些标签的子集,其中,如果与相关联,否则为。
Methods
在作者的研究中,作者探索了两种方法。第一种方法涉及利用预训练的语言模型(PLMs),进一步通过NLPContributions的训练划分进行微调。第二种方法使用大型语言模型(LLMs),并利用 Prompt 技术进行作者的任务(参见附录C的 Prompt 详细信息)。作者使用二元相关性(Read等人,2011年)进行作者的任务,将每个标签视为独立的二分类问题。这通过不依赖先前的标签组合来避免过拟合,允许在不影响模型其他部分的情况下灵活修改标签集。
作者从BERT(Devlin等人,2019年)和RoBERTa(Liu等人,2019年)开始研究,这两款都是一款通用的预训练语言模型。然后,作者进一步使用了BiomedBERT(Gu等人,2021年)和SciBERT(Beltagy等人,2019年),这两款都是在科学文本上进行预训练的模型。此外,作者还尝试了Flan-T5(Chung等人,2022年),这款模型是在1836个微调任务上进行预训练的。作者还实现了一个随机 Baseline ,它将标签分配给具有均匀随机概率的句子。
通过 Prompt 的方式处理任务,作者使用指令遵循的大型语言模型GPT-3.5-Turbo(OpenAI,2023)和GPT-4-Turbo(OpenAI,2023),这些模型是通过强化学习从人类反馈(RLHF)进行微调的。此外,作者还使用开源的LaMA-3-8B模型(Meta,2023),该模型在公开可用的域中集成了超过15万亿个 Token 。
Training and Evaluation
在微调预训练语言模型时,作者在不同的epoch(1,2,3,4,5)和learning rate(1.0×10^-4,5.0×10^-4,1.0×10^-5)上进行网格搜索,批量大小为32。对于 Prompt ,作者从一个零样本设置开始,逐渐过渡到五个样本,同时尊重模型的上下文长度限制。作者重复每个实验三次,观察到所有模型之间的方差小于0.02。
参考Uma等人(2021年)的研究,在进行多标签分类时,作者采用基于标签的评估方法(宏平均精确度、召回率和F1得分),该方法针对每个标签进行评估,然后将所有标签的得分进行汇总。作者避免使用基于标签集的评估方法,也称为精确匹配度度量,因为这种方法无法有效地考虑多标签的稀疏特性,通常会遗漏细微的标签变化。
Results and Discussion
表4展示了结果。作者观察到SciBERT在与其他微调预训练语言模型相比表现出色,这可能是因为其预训练于S2ORC数据集,这是一个学术文档的集合。此外,作者还注意到GPT-4-Turbo的性能与微调的SciBERT相当。因此,出于可持续性和成本效益考虑,作者选择使用SciBERT进行后续分析。作者测试了五个不同的 Prompt 变体,并将最有效的记录在表7(附录C)中。作者还发现,当 Prompt 包含标题或全文摘要时,LLM性能会降低,这可能是因为标题可能无法准确代表贡献,而LLM是针对固定上下文长度的数据进行优化的。所有报告的结果在统计学上具有显著性(McNemar的p<0.001)。
NLPContributions-Auto: A corpus of Auto-Identified Contribution Statements
作者将经过微调的SciBERT模型应用于ACL文库中的论文摘要,并根据预定义的分类法对它们进行分类。作者称这个语料库为NLPContributions-Auto。这个语料库可以用于NLP论文的各种研究目的,包括高效的语义搜索和要点分析等。在下面的部分,作者将使用这个语料库探讨各种NLP研究趋势。
具体来说,作者使用S2ORC从1974年至2024年2月间(见附录B中的详细信息)属于"ACL会议或期刊"类别的28,937篇论文的摘要。作者从这些论文的"anthology.bib"中收集了这些论文的元数据。
5 Analyzing the Nature of NLP
作者考察了自然语言处理研究贡献(SS 5.1)的趋势,它们对期刊(SS 5.2)的影响,以及引用次数(SS 5.3)。
Contributions in NLP Research Papers and Evolution
Q1.NLP研究中的不同贡献类型的分布情况如何?为了研究NLP研究中的贡献广度,作者首先检查了NLPContributions-Auto中的贡献类型。值得注意的是,尽管NLP论文不在ACL文集中发表,但它仍然是NLP论文的最大单一来源集合。此外,文集中严格的同行评审过程确保了高质量,使其成为作者研究的可靠来源。作者识别出每篇论文摘要中的独特类型和子类型,并在整个数据集中汇总这些标签。
结果. 图2显示,关于人的知识(占44.9%)的贡献比任务和方法(占55.1%)的贡献要少。在artifact类型的贡献中,约89%的论文引入了新的方法,在所有artifact类别中最高,其次是任务,最后是数据集。
虽然一些研究行人认为自然语言处理(NLP)研究对人类或社会更具相关性(Schoper,1992),但作者的观察显示,NLP研究的重要关注点在于任务和方法的知识,特别是涉及机器学习的方面。此外,作者的发现与Pramanick等人(2023)的观点相吻合,他们通过因果实体分析指出,新方法和任务是推动NLP研究的驱动力。
Q2. 随着时间推移,自然语言处理研究论文中的贡献类型分布有何变化?为了研究自然语言处理研究性质随时间的变化,作者使用与前一个问题中描述的相同方法来检查年度贡献标签的分布。
结果 图2(a)显示了从上世纪90年代到2020年,人们对语言或人类的贡献显著减少(约下降40%)。图2(b)显示了在这段时间内提出新方法的文章数量增加。然而,在2020年之后,人们对语言和人类的贡献出现了复苏。
20世纪90年代初,自然语言处理(NLP)领域发生了一个转变,这一转变与统计模型的出现(Brown等人,1993年)、Penn数据集的发布(Marcus等人,1993年)以及EMNLP会议的成立(Morgan等人,2000年)密切相关。尽管最近的研究行人对新的方法或模型(如 Transformer 或LLM)的讨论越来越多,但作者的研究结果表明,转向贡献方法或模型的发展在20世纪90年代初就已经开始。那个时代为开发继续塑造NLP研究的新方法奠定了基础。研究行人对社会语言学和NLP在社会科学中的应用的兴趣增加,可以解释为新的知识贡献的复苏。
Contributions and Venues
Q3. 会议如何影响在这些会议上发表的NLP研究论文所做出的贡献类型? 每个会议都保持其对所接受工作的独特期望,例如特定主题的专注度、期望的完善程度以及所进行的实验的性质。为了研究这些会议如何影响在这些会议上发表的论文中的贡献,作者研究了不同会议上的论文摘要中贡献声明的独特类型和进一步子类型的数量,以该会议发表的论文数量进行归一化。
作者发现,大多数会议(如ACL、EMNLP、NAACL等)在其发表的论文中,关于贡献类型的分布大致相同:约68%是artifacts(任务:71%,方法:89%,数据集:42%),以及69%是knowledge(任务:94%,方法:77%,行人:44%,数据集:65%,语言:61%)。然而,EMNLP在artifact-method贡献方面明显高于其他会议,反映了其对实证方法的重视。相比之下,CL期刊在语言或行人方面的贡献相对较多,而在机器学习方面的贡献较少。作者在附录C中的图6中展示了各会议的统计数据。
Q4.不同时间跨度的AI论文中贡献类型的演变如何?作者假设,随着一个领域的发展,会出现影响整体研究方向的潜在社区规范,从而导致不同场所贡献类型的更均匀分布。为了验证这个假设,作者将分析每个场所论文摘要中记录的具体贡献类型及其子类型的演变过程。
结果 。在作者分析的会议中,CL是最早的期刊,而ACL是最早的会议。有趣的是,作者在ACL上首先观察到关于人和语言知识的贡献下降,然后逐渐出现在CL上。这种类似的贡献分布趋势也体现在与ACL相符的新兴会议中。这些会议贡献类型的时间分布如图7(附录C)所示。为了确定这些会议是否越来越反映ACL的贡献分布,作者来研究下一个问题。
其他会议在研究贡献方面是否越来越类似于ACL会议?ACL会议是ACL活动中的最大规模和最有声望的,它发表了这些会议约30.3%的论文。鉴于其显赫的地位,有趣的是研究其他会议是否逐渐开始在时间上反映出ACL会议所特征的贡献类型的分布。作者使用Jensen-Shannon差异[1]来比较这些会议的论文和同一年度ACL会议的论文中类型和子类型的贡献分布,其中接近1的值表示相似的分布。
结果 。图4显示,随着时间的推移,会议在论文类型贡献的分布上越来越与ACL会议相似。例如,最初专注于实证发现的EMNLP会议,现在与ACL越来越相似。同样,新设立的AACL和Findings与ACL的贡献模式高度一致。
这一趋势倾向于证实作者的假设,即随着时间的推移,跨会议的通用出版规范已经出现,导致自然语言处理研究更加制度化。另一方面,这也可能是一种损失,即不同的场地没有独特的特性,而是推崇和重视不同种类的工作。
论文期刊是否比会议论文展示更多的贡献类型?不同的出版渠道对允许的页面数量有不同的约束,而期刊通常比自然语言处理会议更为宽松。为了研究期刊论文是否利用额外的空间包括更广泛的贡献类型,作者每年分析了各种渠道的平均每篇论文独特贡献数量。
结果 。图5显示,会议和期刊在其摘要中的独特贡献类型平均数量相似,但这个数字随着时间的推移正在增加。然而,作者观察到, venues 中摘要的平均长度在时间上没有显著变化(图8,附录C)。这些结果表明,NLP 应用正在日益成熟和扩展。
Contributions and Citation Impact
Q7.不同类型的研究贡献是否有不同的引用影响力?自然语言处理领域的研究生态系统需要各种贡献类型。因此,各种贡献类型的引用数量存在显著差异可能会降低某些类型贡献的工作积极性。因此,通过这个问题,作者追踪了不同贡献类型的引用影响力。作者针对每种贡献类型从具有该类型贡献声明的论文中计算了平均和中间引用次数。为了确保对引用轨迹有意义的评估,作者关注了至少有五年出版历史的论文(Anderson等人,2012)。为此,作者从ACL'18中选择了352篇论文来研究同时发表的实验论文的引用影响力。
结果 。表5显示,介绍新数据集的论文受到显著较高的引用。此外,提出新方法的论文比提出新任务的论文受到更多引用。通过分析增加方法或数据集知识的论文比增加关于人或语言知识的论文受到更多引用,这表明社区对技术进步的兴趣超过了社会语言学研究。值得注意的是,尽管与关注增加人际知识相比,语言贡献论文的数量更多,但语言贡献论文往往受到较少的引用。对ACL'17的277篇论文(表9,附录C)进行进一步分析也显示出类似的趋势。
重要的是要认识到,引文受到的影响因素不仅仅是贡献类型。作者的目标并不是确定所有可能的引文数量影响因素,也不是找出最具影响力的因素。然而,为创建新数据集的论文获得高引文可能反映了数据集在NLP研究中的重要性,尤其是在训练和评估模型方面 - 这是现代NLP的常见做法。
6 Concluding Discussion
在本文中,作者提出了一种观点,即自动提取、分类和定量分析领域研究论文中的贡献陈述,可以为作者提供该领域本质的关键见解。
首先,作者建立了一个贡献的分类法,并开发了一个系统性的框架,用于自动提取、分类和分析自然语言处理(NLP)研究论文中的贡献陈述。
作者的分析表明,尽管NLP与语言学和社会学内在相关,但自20世纪90年代以来,关注语言和人的研究兴趣已经减弱,而主要使用机器学习工具的方法贡献则上升。值得注意的是,方法贡献的增加不一定意味着对语言或人的关注减少;这些领域可以同时扩展。
此外,自2020年以来,社会语言学的研究兴趣复兴,以及NLP在社会科学中的应用,表明研究重点的拓宽。
另外,尽管NLP领域最初创建了各种出版物以解决不同类型的研究问题(例如EMNLP用于实证调查),但这些出版物之间的区别随着时间的推移逐渐消失,表明该领域正在变得更加统一。