LRP4RAG:利用层级相关性传播技术,精准检测检索增强生成模型中的幻觉现象。
发布时间:2024 年 08 月 29 日
人工智能
LRP4RAG: Detecting Hallucinations in Retrieval-Augmented Generation via Layer-wise Relevance Propagation
RAG 技术虽能减轻 LLM 中的幻觉问题,但知识提取的不完整和理解不足仍可能导致生成无关或矛盾的回应。为此,我们提出 LRP4RAG 方法,利用 LRP 算法检测 RAG 中的幻觉。通过计算输入与输出的相关性,并对其进行精细处理和分类,LRP4RAG 能有效识别幻觉。实验结果显示,该方法性能优于现有技术,为 RAG 幻觉检测开辟了新途径。
如遇无法添加,请加微信 iamxxn886
数据驱动型检索增强模型的统计框架
发布时间:2024 年 08 月 27 日
机器学习
问答系统
A Statistical Framework for Data-dependent Retrieval-Augmented Models
现代机器学习系统正日益通过融入更多相关信息来提升输入实例的预测质量。尽管这类检索增强模型备受关注,但其核心特性和训练机制仍待深入探究。为此,我们构建了一个统计框架,该框架包含两个关键组件:一是{\em 检索器},它依据数据依赖的度量标准从庞大数据集中筛选出相关信息;二是{\em 预测器},它结合原始输入与检索所得信息做出精准预测。我们设计了一套端到端训练流程,并探讨了其与现有训练策略的关联。同时,我们为检索增强模型设定了风险上限,并剖析了检索器与预测器对整体性能的贡献。通过在开放域问答任务中的实证研究,我们验证了所提训练方法的实效性,并总结了统计分析的关键洞见,凸显了检索增强在此类任务中的重要性。
仅靠 Text2SQL 远远不够,我们需要通过 TAG 来实现 AI 与数据库的真正融合。
发布时间:2024 年 08 月 26 日
数据库
人工智能
Text2SQL is Not Enough: Unifying AI and Databases with TAG
AI 系统通过自然语言查询数据库,潜力巨大。它们结合了语言模型的推理能力与数据管理系统的计算优势,使用户能自由查询自定义数据。但现有技术与评估标准未能充分挖掘这一潜力。Text2SQL 和 RAG 方法各自局限,前者仅处理关系代数可表达的问题,后者则限于点查找能解答的简单查询。为此,我们推出了表增强生成(TAG),一个全新的通用框架,旨在探索语言模型与数据库间更广泛的交互,并开辟了新的研究领域。我们创建了 TAG 基准测试,结果显示传统方法仅能正确回答不到 20%的查询,凸显了深入研究的迫切需求。基准代码已公开于https://github.com/TAG-Research/TAG-Bench。
主动检索增强生成技术在时间序列分析中的应用
发布时间:2024 年 08 月 18 日
人工智能
时间序列分析
Agentic Retrieval-Augmented Generation for Time Series Analysis
时间序列建模在众多领域中不可或缺,但其复杂性在于时空依赖和历史数据到预测结果的分布变化。为此,我们创新性地引入了基于代理的检索增强生成(RAG)框架,用于时间序列分析。该框架采用层级多代理结构,主代理负责调度各专业子代理,并根据用户需求分派任务。子代理则运用经微调的小型语言模型(SLMs),针对特定时间序列任务,结合指令微调与直接偏好优化技术,从共享提示库中提取蕴含历史模式与趋势的精华信息,以精准预测新数据。我们的模块化多代理 RAG 方法不仅灵活高效,更在各大时间序列任务中超越传统定制方法,刷新了性能标杆。
揭秘大规模语言模型中的 RAG 噪声:是潘多拉的盒子还是阿拉丁的神灯?本研究通过全面分析,深入探讨了 RAG 噪声在其中的角色。
发布时间:2024 年 08 月 24 日
人工智能
Pandora's Box or Aladdin's Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
RAG 已成为解决 LLM 幻觉问题的关键方法。本文从语言学角度定义了七种噪声类型,并创建了 NoiserBench 评估框架。实证评估显示,噪声可分为有益和有害两类。有益噪声能提升模型性能,而有害噪声则相反。这一发现有助于开发更健壮、适应性强的 RAG 解决方案,并减轻多样化检索场景中的幻觉问题。
检索增强生成技术与数据驱动的“白板”方法相结合,共同助力时间知识图谱的预测任务。
发布时间:2024 年 08 月 18 日
数据分析
人工智能
Retrieval-Augmented Generation Meets Data-Driven Tabula Rasa Approach for Temporal Knowledge Graph Forecasting
面对预训练大型语言模型(如 OpenAI ChatGPT 和 Google Gemini)在事实回忆、幻觉、偏见及时间知识图谱预测中的数据泄露挑战,我们推出了 sLA-tKGF,一种小规模语言助手,通过 RAG 辅助和定制训练,从零开始有效预测 tKG。该框架整合历史数据、网络搜索及 PLLMs 文本,构建知识融合提示,深入理解历史实体关系,为小规模模型提供精准的未来事件预测,同时减少幻觉和分布偏移问题。实证研究显示,该框架在基准数据集上表现卓越,提供可信且可解释的 tKG 预测,同时降低计算需求。
元知识在增强检索型大型语言模型中的应用
发布时间:2024 年 08 月 16 日
信息技术
人工智能
Meta Knowledge for Retrieval Augmented Large Language Models
RAG 技术通过增强 LLM 的上下文相关信息,提升了其处理时效性和领域特定问题的能力,但构建高效综合多样化文档信息的 RAG 系统仍具挑战。我们创新性地将传统“检索-阅读”流程升级为“准备-重写-检索-阅读”框架,通过生成元数据和合成问答,以及引入元知识摘要,实现了对知识库的专家级理解。研究显示,增强查询在性能上显著超越传统 RAG 方法,且元知识查询进一步提升了检索和答案质量。该方法成本低廉,适应性强,为 RAG 流程的性能提升开辟了新路径。
大型语言模型:下一代密集检索的坚实基石——全面实证探究
发布时间:2024 年 08 月 22 日
LLM应用
人工智能
信息检索
Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment
BERT 和 T5 等预训练语言模型在密集检索中扮演着关键角色,但它们的泛化能力和领域准确性提升有限。近期研究采用大型语言模型(LLM)作为检索器,取得了显著成果。尽管如此,LLM 相较于传统检索器的优势及其配置(如参数规模、预训练时长和对齐策略)对检索性能的影响尚不明确。本研究针对多种检索任务进行了深入分析,包括领域精度、数据效率、零样本泛化等,并评估了 15 种以上模型。研究显示,更大规模的模型和更长时间的预训练能持续提升领域精度和数据效率,同时在零样本泛化等方面展现出巨大潜力。这些发现突显了 LLM 在密集检索中的多面性和高效性,为该领域的未来发展提供了重要启示。
RAGLAB:一款模块化、研究导向的统一框架,专为增强检索生成设计。
发布时间:2024 年 08 月 21 日
人工智能
开源软件
RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation
大型语言模型 (LLM) 在对话、推理和知识保留方面表现出色,但仍面临幻觉和知识实时更新等挑战。为解决这些问题,研究者采用检索增强生成 (RAG) 技术,但 RAG 的发展受限于缺乏算法比较和开源工具的透明度。为此,我们推出 RAGLAB,一个模块化、研究导向的开源库,重现 6 种算法并构建全面研究生态。借助 RAGLAB,我们在 10 个基准上公平对比 6 种算法,助力研究人员高效评估和创新算法。
利用 RAG 和 LLM 进行少量样本上下文学习,实现基于证据的事实核查
发布时间:2024 年 08 月 21 日
社交媒体
信息安全
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs
社交媒体上的错误信息泛滥,使得在线声明的事实核查变得至关重要。手动验证每条声明极为困难,因此我们设计了一个自动化系统来应对这一挑战。该系统利用 Averitec 数据集评估声明的真实性,并提供支持证据。通过 Retrieve and Generate (RAG) 流程,我们从知识库中提取相关证据,结合声明输入 LLM 进行分类。此外,我们还评估了 LLM 的少量样本 In-Context Learning (ICL) 能力。我们的系统在 'Averitec' 评分上比基线提升了 22%,所有代码将在 GitHub 上公开。
PermitQA:风电场选址与许可领域中检索增强生成的评估基准
发布时间:2024 年 08 月 21 日
PermitQA: A Benchmark for Retrieval Augmented Generation in Wind Siting and Permitting domain
在 NLP 和文本生成的快速发展领域,RAG 通过利用用户指定数据库中的信息,为提升生成文本的质量和可靠性开辟了新途径。为了评估和比较不同 RAG 配置的性能,基准测试至关重要。本文中,我们提出了一种基于人机协作的自动问答生成框架,用于创建领域相关的 RAG 基准。作为案例研究,我们介绍了 PermitQA,这是首个针对风电场选址和许可领域的基准,涵盖了多个与风能环境影响相关的科学文档。我们的框架通过多样化的评估指标和多层次复杂度的问题类型,系统地评估了 RAG 的性能,并展示了不同模型在此基准上的表现。
多跳问答中的分层检索增强生成模型与重新思考机制
发布时间:2024 年 08 月 20 日
问答系统
信息检索
Hierarchical Retrieval-Augmented Generation Model with Rethink for Multi-hop Question Answering
多跳问答(QA)系统需整合多条信息进行复杂推理,但现有系统常遇过时信息、上下文限制及准确性与数量间的权衡难题。为此,我们创新提出 HiRAG 框架,含分解、定义、检索、过滤、总结五大模块,并采用分层检索策略,融合文档级稀疏与块级密集检索优势。同时,我们改进单候选检索法,并构建索引与档案维基语料库,以应对知识过时与不足。实验显示,HiRAG 在多数据集上超越前沿模型,其代码已公开于 GitHub。
有目的地阅读
发布时间:2024 年 08 月 20 日
人工智能
Reading with Intent
RAG 系统通过整合外部信息源,如维基百科和开放互联网,来提升知识语言模型的能力。然而,这些系统在处理人类交流的复杂性,尤其是讽刺,方面遇到了挑战。本文通过生成讽刺段落并测试其对 RAG 系统性能的影响,引入了一个提示系统来增强模型对讽刺的理解和响应生成能力,并通过消融研究验证了方法的有效性,显著提升了 RAG 系统处理讽刺内容的能力。
LegalBench-RAG:法律领域检索增强生成基准
发布时间:2024 年 08 月 19 日
人工智能
LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain
RAG 系统在 AI 法律应用中展现出巨大潜力,但现有基准如 LegalBench 主要评估 LLM 的生成能力,忽略了检索环节的评估。为此,我们推出了 LegalBench-RAG,首个专注于法律领域 RAG 系统检索性能的基准。该基准强调从法律文档中精准提取关键文本片段,避免因检索大量不精确信息而超出上下文限制,从而降低处理成本和延迟,并防止 LLM 遗忘或产生错误信息。此外,精准检索有助于 LLM 为最终用户生成准确引用。LegalBench-RAG 数据集包含 6,858 个由法律专家人工标注的查询-答案对,覆盖超过 7900 万字符,并提供轻量级版本 LegalBench-RAG-mini 以支持快速实验。该基准的推出为提升法律领域 RAG 系统性能提供了关键工具,其数据集已在 GitHub 公开发布。
利用主题嵌入提升文档检索效率
发布时间:2024 年 08 月 19 日
信息技术
文档检索
Enhanced document retrieval with topic embeddings
随着检索增强生成(RAG)的兴起,文档检索系统再次成为焦点。RAG 架构相较于仅依赖 LLM 的应用,幻觉率更低。但检索机制的准确性仍是提升效率的关键瓶颈。特别是在语料库中包含多个相关但不同主题的文档时,检索性能往往不尽如人意。为此,我们创新性地提出了一种考虑文档主题信息的向量化方法,并在 RAG 框架下进行了评估。同时,本文还探讨了评估 RAG 系统所面临的挑战,直击当前问题的核心。
优化藏族旅游 LLM:提升准确性与个性化体验
发布时间:2024 年 08 月 21 日
文化旅游
旅游业
RAG-Optimized Tibetan Tourism LLMs: Enhancing Accuracy and Personalization
随着社会经济的进步,旅游业已成为满足人们精神需求的关键途径,为行业带来新机遇。然而,现有大型语言模型在个性化推荐和内容生成方面存在局限,有时甚至产生误导性信息。为此,我们提出基于检索增强生成技术的西藏旅游模型优化方案,通过构建详尽的旅游观点数据库并运用向量化技术,大幅提升检索精准度。RAG 技术的引入有效消除了内容生成中的幻觉现象,使模型在内容流畅性、准确性和相关性上均有显著提升。这项研究不仅展示了 RAG 技术在文化旅游信息处理和数据分析中的应用潜力,更为智能文化旅游服务系统的构建提供了坚实的理论与技术支撑。
- • 论文原文: https://arxiv.org/abs/2408.12003
- • 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- • 加入社群,+v: iamxxn886
- • 点击公众号菜单加入讨论