发布时间:2024 年 06 月 22 日
这几天在筛选LLM相关论文的时候,发现本周RAG论文扎堆出现,趁着周六晚的时间简单罗列下,后面有时间再一篇一篇精读给大家。
PlanRAG
先规划、再检索的检索增强策略
本文开发了迭代计划后检索增强生成技术(PlanRAG),该技术先制定决策计划,再进行数据分析查询。实验表明,PlanRAG在两个场景中分别超越了现有技术15.8%和7.4%。相关代码和基准已公开于https://github.com/myeon9h/PlanRAG。
原文链接:https://arxiv.org/abs/2406.12430
RichRAG
一种新的RAG框架,有效提升回答的全面性
Retrieval-augmented generation (RAG) 技术有效解决了大型语言模型中的静态知识和幻觉问题。然而,现有研究多聚焦于用户意图明确、答案简洁的问题场景,而忽视了用户常提出的广泛、开放式查询,他们期望得到涵盖多方面的丰富长篇答案。为此,提出了RichRAG框架,它通过子模块探索器识别问题潜在子方面,利用综合检索器构建相关外部文档候选池,并借助生成式列表排序器精选出前k个最有价值的文档,以满足生成器的偏好,从而产出丰富全面的回答。排序器训练结合了监督微调与强化学习,确保文档覆盖全面且与LLM偏好对齐。实验证明,RichRAG能高效提供令用户满意的全面回答。
原文链接:https://arxiv.org/abs/2406.12566
Multi-Meta-RAG
通过LLM提取的元数据优化数据库过滤,提升RAG对复杂多步查询的响应能力
检索增强生成(RAG)技术使大型语言模型(LLMs)能够从外部知识库中提取相关信息,并解答未曾接触过的文档集合上的查询。然而,传统RAG在应对需跨多个证据元素进行检索与推理的多跳问题时显得力不从心。为此,推出了Multi-Meta-RAG这一创新方法,它利用LLM提取的元数据进行精准的数据库筛选,从而优化了从多源中挑选出与问题紧密相关的文档的过程。实验表明,Multi-Meta-RAG在MultiHop-RAG基准测试中显著提升了性能。相关代码已公开于https://github.com/mxpoliakov/Multi-Meta-RAG。
原文链接:https://arxiv.org/abs/2406.13213
R^2AG
融合检索信息的增强生成技术
检索增强生成(RAG)已广泛应用于各种情境,旨在通过外部文档增强大型语言模型(LLMs)的能力。然而,由于训练目标和架构的不同,LLMs与检索器之间存在语义鸿沟,导致LLMs在生成过程中被动接受并需辨别检索器提供的文档 。为此,本文创新性地提出了R²AG框架,通过整合检索信息来弥合这一鸿沟。R²AG巧妙地利用检索器的细微特征,并通过R²-Former捕捉这些信息,进而设计了一种检索感知的提示策略,将这些信息融入LLMs的生成过程。特别地,R²AG在LLMs和检索器固定的低资源环境下表现出色。通过跨五个数据集的广泛实验,R²AG展现了其有效性、鲁棒性和效率。分析表明,检索信息如同锚点,助力LLMs在生成中填补语义鸿沟。
原文链接:https://arxiv.org/abs/2406.13249
InstructRAG
借助显式去噪技术,指导检索增强生成过程
检索增强生成(RAG)展现出提升语言模型准确性和事实性的潜力,但检索器的不完善或数据集的噪声可能引入误导性信息,影响生成质量。现有方法虽能直接预测答案,但去噪过程难以解释和验证。为此,提出InstructRAG,通过让模型自我解释如何从检索文档中得出正确答案,实现显式去噪学习。这种方法无需额外监督,简化了验证过程,并显著提升了生成准确性。实验证明,InstructRAG在多个知识密集型任务中超越了现有方法,平均提升了8.3%。此外,它展现出良好的扩展性和强大的泛化能力,即使在域外数据集上也能有效去噪。
原文链接:https://arxiv.org/abs/2406.13629
SynCheck
实时忠实度监控,确保检索增强生成的可靠性
检索增强型语言模型(RALMs)在处理知识密集型任务时表现出色,但其生成的内容可能包含无根据的信息或与检索上下文矛盾,引发信任危机。为此,提出了SynCheck,一种轻量级监控工具,它通过分析序列可能性、不确定性、上下文影响及语义对齐等解码动态,实时识别不忠实句子。SynCheck通过整合互补信号,实现了对忠实性错误的快速准确检测,AUROC提升至0.85,超越了现有最佳方法4%。在此基础上,我们开发了FOD,一种以忠实性为核心的解码策略,它利用束搜索优化长格式生成任务,实证显示,FOD在忠实性上较传统方法提升了超过10%。
原文链接:https://arxiv.org/abs/2406.13692
FoRAG
优化事实性的检索增强生成技术,专为网络增强的长篇问答设计
Retrieval Augmented Generation (RAG) 因其利用搜索引擎提升长篇问答(LFQA)质量的能力而在 QA 任务中广受欢迎。尽管有多种开源方法和网络增强的商业系统如 Bing Chat 出现,但生成长篇答案的事实性和逻辑清晰度两大难题仍未解决 。本文通过系统研究网络增强的 LFQA 中的答案生成来应对这些挑战。
首先提出了一种提纲增强的生成器,确保多方面答案生成逻辑清晰,并为此建立了两个数据集。
接着,开发了一种基于双重细粒度 RLHF 框架的事实性优化方法,该框架在不同粒度级别上进行自动评估和奖励建模。
不仅包含了传统的细粒度 RLHF 方法,还通过广泛实验证明了其优越性,尤其是在英语和中文基准测试中。特别地,应用我们的方法于 Llama2-7B-chat 后,得到的 FoRAG-L-7B 模型在连贯性、有用性和事实性三个指标上超越了 WebGPT-175B,且参数数量仅为后者的 1/24。我们的数据集和模型已公开,以促进研究的可复现性:https://huggingface.co/forag。
原文链接:https://arxiv.org/abs/2406.13779
StackRAG Agent
基于StackOverflow打造的 RAG 程序员神器
开发者常为寻找问题答案而耗时,Stack Overflow与大型语言模型(LLMs)如ChatGPT成为他们的得力助手。但单独使用各有短板:搜索答案费时费力,而LLMs可能给出不靠谱的答案。为此,我们推出了StackRAG,这一基于LLMs的检索增强生成工具,巧妙融合了Stack Overflow的知识与LLMs的生成能力,确保答案的准确性与相关性。初步测试表明,StackRAG生成的答案既准确又实用。
原文链接:https://arxiv.org/abs/2406.13840
MIRAGE
基于模型内部机制的答案归属,助力可信检索增强生成
在问答领域,确保模型答案的可验证性是检索增强生成(RAG)面临的一项基本挑战。近期,自我引用提示 被提出,旨在让大型语言模型(LLMs)在提供答案时附带引用支持文档。但这些模型往往难以遵循特定格式,错误引用不存在的来源,且未能准确反映其在生成过程中的上下文使用。为此,开发了MIRAGE——一种基于模型内部解释的RAG解释方法,它利用模型内部信息实现忠实的答案归属。MIRAGE能识别上下文敏感的答案标记,并通过显著性分析将其与预测中起作用的检索文档关联。在多语言抽取式QA数据集上测试了这一方法,结果显示与人类答案归属高度一致。在开放式QA任务中,MIRAGE不仅在引用质量和效率上与自我引用相媲美,还允许对归属参数进行更精细的调整。定性评估证实了MIRAGE归属的忠实性,并展示了模型内部在RAG答案归属中的巨大潜力。
原文链接:https://arxiv.org/abs/2406.13663
-
• 论文原文: https://arxiv.org/abs/2406.11424
-
• 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
-
• 加入社群,+v: iamxxn886
-
• 最新论文订阅体验:公众号号菜单回复 1
-
• 最新论文订阅新人:公众号号菜单回复 2