【LLM & RAG】英伟达“ChatQA 2”训练策略概述

向量数据库增长营销办公安全

训练ChatQA 2模型的策略

为了构建能够处理长上下文并具备RAG能力的模型,训练过程设计为三个阶段:

1.1 扩展上下文窗口至128K

初始步骤是将基础模型Llama3-70B的上下文窗口从8K扩展至128K token。这一扩展是通过持续预训练实现的,使用了参照SlimPajama数据集的方法,生成了100亿个token的序列,每个序列长度达到128K。这一策略不仅增加了模型处理长文本的能力,同时也为后续的微调阶段奠定了基础。

1.2 基于长上下文数据的模型微调

picture.image ChatQA 1流程

微调过程分为三个阶段,前两个阶段遵循ChatQA 1的训练方式 (在第一阶段,对预训练的LLM模型在高质量的128K指令遵循数据集进行有监督微调(SFT),以提高模型遵循指令的能力。在第二阶段,通过上下文增强的指令微调,进一步增强模型在给定上下文中的对话式QA能力)。然而,鉴于这些数据集的上下文长度相对较短,最大仅为4K token,因此,为了提升模型处理更长上下文的能力,构建了一个专门的长上下文微调(SFT)数据集

长SFT数据集的构成:

  1. 小于32k的SFT数据序列 :利用现有的长上下文数据集,如LongAlpaca12k、Open Orca中的GPT-4样本,以及Long Data Collections中的资源,这些数据集为模型提供了丰富的长文本处理经验。
  2. 32k至128k的序列长度 :鉴于收集此类长文本样本的挑战性,研究团队转而采用合成数据集。特别是,他们利用NarrativeQA数据集,该数据集包含了真实的摘要和与之语义相关的段落。通过将这些段落整合,并在其中随机插入摘要,模拟了真实的长文档环境,为QA对提供了上下文

1.3 长上下文检索器与长上下文LLM的结合

1.3.1 当前RAG流程的局限性

  • 上下文碎片化:在使用top-k块状检索时,较短的文本块会增加上下文的碎片化 ,这可能对生成准确答案产生影响。
  • 检索效率问题:较小的top-k值可能导致检索回召率较低,而较大的k值则可能引入过多不相关上下文,影响生成质量。

如下表:picture.image

1.3.2 长上下文检索器的引入

为了解决上述问题,论文提出使用最新的长上下文检索器。这些检索器能够支持数千个token的上下文,从而减少上下文碎片化,并提高检索效率。论文中使用的是E5-mistral 嵌入模型作为检索器。

picture.image

上表的结论:

  • 随着上下文窗口中总token数的增加,模型的性能也随之提高。具体来说,他们对比了从3000到12000个token的不同设置,结果表明,更多的token通常能够带来更好的结果。这表明,长上下文的能力对于理解复杂的文本信息至关重要。
  • 6000个token在上下文窗口中提供了一个良好的折中方案。在这个token数下,模型能够以合理的计算成本实现较高的性能。当总token数固定为6000时,较大的分块大小(例如1200个token的块)能够带来更优的性能。这可能是因为较大的分块能够减少上下文的碎片化,使得模型能够更有效地理解和利用长文本信息。

评测结果

  1. 大海捞针评测(图显示全绿picture.image
  2. 超过100K token的长文本处理能力评估

picture.image

  1. 32K token内的中等长度文本处理能力评估

picture.image

  1. 4K token内的短文本处理能力评估

picture.image

  1. RAG与长上下文

picture.image

参考文献

往期相关

【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路

【RAG】GraphRAG开源:查询聚焦摘要的图RAG方法

【RAG】FoRAG:面向网络增强型长形式问答的事实性优化RAG

【RAG】Dense X Retrivel:合适的检索粒度对RAG的重要性(浅看命题粒度的定义及分解方法)

【RAG】RAG性能提升之路-RAPTOR:一种构建递归文档树的增强检索方法

【RAG】浅尝基于多头注意力机制思想设计的Multi-Head RAG(多头RAG)

【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路

【LLM & RAG】RAFT:垂域知识微调LLM提升RAG表现

【LLM & RAG】GritLM:统一嵌入和生成的大语言模型浅谈

【LLM问答】两阶段的对话式问答模型ChatQA思路和兼看两阶段的RAG知识问答引擎QAnything

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
高性能存储虚拟化方案 NVMe over Fabric 在火山引擎的演进
在云计算中,虚拟化存储扮演着重要角色,其中 iSCSI 协议在业界开放、流行多年。近年来,拥有更优性能的 NVMe over Fabrics 协议也得到了发展。本次分享介绍了 NVMe over Fabrics 在云原生和虚拟化方向的演进工作和成果。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论