PEG模型-基于渐进学习的鲁棒检索模型

火山方舟向量数据库大模型

写在前面

今天给大家来一个腾讯优图的基于渐进学习的鲁棒检索模型-PEG模型,原文《Towards Robust Text Retrieval with Progressive Learning》。目前在MTEB**「中文检索」** 评测榜单第二,开源模型第一。

picture.image MTEB中文检索评测榜单


          
Paper:https://arxiv.org/abs/2311.11691  
HF:https://huggingface.co/TownsWu/PEG  

      

PEG是一个基于渐进式学习策略的鲁棒文本检索模型,在文本检索和重排任务上取得了较好的效果。通过PEG可以获得抗噪的文本embedding,为构建检索增强的LLM系统奠定了坚实的基础。PEG的优势主要体现上以下三个方面:

  • 大规模的训练数据,通过收集开源数据以及自行构建,最终收集了1.1亿的高质量训练样本对,构建了一个跨领域和任务的大规模训练数据集。
  • 超大in-batch负样本(80K)以实现有效对比学习。
  • 关注难样本挖掘,并通过根据样本在不同训练阶段的学习难度逐步赋予自适应权重引入课程策略。

背景

信息(知识)检索是自然语言处理的一个至关重要的方面,在大型语言模型(LLM)的背景下,其重要性更加凸显。采用检索模型来融入外部知识,这对于提高LLM生成答案的准确性和有效性至关重要。大多数现有方法基于密集段落检索(dense passage retrieval ,DPR)实现检索模型。其步骤由文本编码和文本匹配组成,其中任何现成的语言模型的编码器都用于将查询和一组文档映射到嵌入空间中的表示,然后测量查询和文档片段之间的相似性以匹配最相关的候选项。

在文本编码领域,对比学习(contrastive learning,CL)已成为训练嵌入(embedding)最直观有效的方法之一。这种方法旨在最小化相似的正样本对之间的距离,同时最大化不相似的负样本对之间的距离。鉴于收集大规模标注语料的高昂成本,训练过程通常分为两个阶段:

  • 任务无关的无监督预训练:通过在输出层采用随机增强(如 dropout)生成两个高度相似但非完全相同的副本。然后在这两个相似样本作为正样本,同时将batch中的其余样本与当前样本配对作为负样本进行CL以优化embedding。
  • 任务相关的有监督微调:利用人工标的正负样本对进行CL训练。通常,每个query只与一个passage正相关,而batch中的所有其余passage被认为是负相关的。

基于对比学习的embedding学习相关的一个挑战是,表示能力与负样本的质量和数量紧密相关。高质量的数据不足、负样本的数量太少可能无法有效地迫使模型识别出高度相似样本之间微妙的差异,从而阻碍了其实现有效区分的能力。然而简单的扩大批次大小,借此引入更多的负样本对,可能会增加引入更多假阴性样本的风险。如果不进行干预来对抗噪声,单个批次中的大部分噪声不可避免地会降低嵌入的有效性。其次,对所有负样本赋予同等的权重,而忽略了学习简单负样本和困难负样本的不同难度。在训练早期由于难负样本的存在可能导致模型收敛困难,而在训练后期对大多数简单负样本过度拟合最终会导致次优收敛。

方法

首先,收集了超过1.1亿条数据,涵盖广泛的领域,如常识、金融、旅游、医学等。这些数据包含了各种形式,包括针对短文本检索定制的问答以及用于优化长文本检索的机器阅读理解。

picture.image 数据集概述

其次,对于每个查询,从数据集中提取了1到5个难样本。首先进行离线检索,从数据集中获得每个查询的前5个最相似负样本(除正样本外)。然后,利用一个大语言模型进行进一步清洗和精炼。如果LLM认为负样本与查询高度相似,则会过滤掉该负样本。

此外,通过利用大量计算资源,能够在单个batch中容纳多达84,000个负样本。根据训练过程不同阶段的学习难度,逐步为不同的负样本赋予不同的权重,从而促进学习过程。

picture.image PEG的流程

自适应渐进式学习策略:picture.image

结果

在文本检索任务和文本重排序任务上对PEG模型进行了详尽的对比实验与消融实验。实验结果表明,PEG模型在C-MTEB检索任务,C-MTEB重排任务,以及DuReader检索任务上均取得了较好的效果,并表现出对噪声的鲁棒性。

picture.image

写在最后

大模型时代,RAG是快速落地的主要手段,而向量表征、长短匹配(Q-D匹配)成为了必不可少的一环。

欢迎多多关注公众号「NLP工作站」,欢迎加入交流群,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。

PS:新书已出《ChatGPT原理与实战》,欢迎购买。

往期推荐:

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
DevOps 在字节移动研发中的探索和实践
在日益复杂的APP工程架构下,如何保证APP能高效开发,保障团队效能和工程质量?本次将结合字节内部应用的事件案例,介绍DevOps团队对移动研发效能建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论