ChatQA:构建 GPT-4 级别的多轮对话 QA 模型 - 文章 - 开发者社区


        
          
https://arxiv.org/pdf/2401.10225.pdf

picture.image

这篇文章介绍了ChatQA模型系列，旨在构建能够达到GPT-4水平的对话式问答（Conversational QA）模型。ChatQA模型通过一种两阶段指令调整（instruction tuning）方法、增强的检索器（retriever）用于对话式问答中的检索增强生成（RAG），以及精心的数据筛选过程来显著提升大型语言模型（LLMs）在零次对话式问答任务中的表现。以下是文章中提到的主要贡献和算法原理：

两阶段指令调整方法 ：

第一阶段（Stage-1）：监督微调（Supervised Fine-tuning） ：在预训练的LLM基础上，使用指令遵循和对话数据集进行监督微调。这使得模型能够更好地遵循指令，作为对话代理。
第二阶段（Stage-2）：上下文增强指令调整（Context-Enhanced Instruction Tuning） ：在第一阶段的基础上，进一步微调模型，以增强其在给定上下文中的对话式问答能力。这包括将上下文化的单轮问答和对话式问答数据集整合到指令调整混合数据中。

检索器的微调（Retriever Fine-tuning） ：

对于对话式问答中的检索，文章提出了在多轮问答数据集上微调密集检索器的方法。这种方法提供了GPT-3.5-turbo相当的结果，同时大幅降低了部署成本。

数据筛选和构建 ：

创建了人类注释的对话式问答（HumanAnnotatedConvQA）数据集，仅包含7k对话。这些对话是通过让标注者同时扮演好奇的用户和代理来回答用户的问题来构建的。
合成数据生成：使用GPT-3.5-turbo生成合成对话式问答（SyntheticConvQA）数据集，以增强模型的对话式问答能力。

处理“无法回答”的情况 ：

在指令调整中加入少量“无法回答”的样本，引导模型在必要时生成“无法回答”的输出，从而大幅减少幻觉（hallucination）。

实验设置 ：

在10个对话式问答数据集上进行了全面的实验研究，包括需要检索的长文档数据集和包含表格的数据集。

结果：

ChatQA-70B模型在10个对话式问答数据集的平均分数上超过了GPT-4，而没有依赖于任何来自OpenAI GPT模型的合成数据。

文章的算法原理主要集中在通过两阶段的指令调整和检索器微调来提升对话式问答模型的性能，同时通过精心的数据构建和筛选来确保模型能够在各种对话场景中提供准确的回答。