发布时间:2025 年 02 月 28 日
RAG
添加请注明RAG
如遇无法添加,请+ vx: iamxxn886
一、为什么需要混合检索技术?
1.1 大语言模型的"幻觉"困境
大语言模型(LLM, Large Language Model)虽然在文本生成和理解方面表现出色,但存在一个致命缺陷——会产生"幻觉"(Hallucination),即生成看似合理但实际错误或无依据的内容。
1.2 检索增强生成的技术革新
检索增强生成(RAG, Retrieval-Augmented Generation)技术应运而生,它通过结合外部知识库为 LLM 提供事实依据。传统 RAG 系统主要采用两种检索方式:稀疏检索(如 BM25 算法)和稠密检索(如 Sentence Transformers)。
- • BM25 算法基于关键词匹配,就像使用传统图书馆目录卡检索书籍,虽然效率高但无法理解"心脏病"和"心肌梗塞"是同义词。
- • Sentence Transformers 等稠密检索方法虽然能理解语义关联,但对"COVID-19"这类专业术语的精确匹配效果欠佳,就像能理解病症描述却找不到准确的医学术语。这两种方法单独使用时都存在明显局限,无法完全满足复杂场景的需求。
1.3 混合检索的破局之道
研究团队提出的 Hybrid-RRF 技术创造性地融合了两种检索方式的优势。
- • 首先通过查询扩展(QE, Query Expansion)解决"词汇鸿沟"问题,例如将"汽车"扩展为"汽车、机动车、车辆"等同义词。
- • 其次采用动态权重调节机制,像智能调节器一样根据查询特性自动优化检索策略——对专业性强的问题偏向关键词检索,对开放性问题偏向语义检索。
- • 最后通过互逆排序融合(RRF, Reciprocal Rank Fusion)算法实现结果最优整合,类似于学术论文评审时综合多位专家的意见。
这种混合方法在 HaluBench 基准测试中展现出显著优势,将幻觉率降低到传统方法的 1/3 以下。
二、混合检索核心技术解析
2.1 三阶段混合架构
混合检索系统采用三阶段处理流程(如图 1 所示),通过分层处理显著提升检索质量。这种架构的设计灵感来源于信息检索领域对精确率和召回率的平衡需求,其核心创新点在于将传统的关键词搜索与现代语义搜索技术有机结合。
2.1.1 查询扩展模块
查询扩展(Query Expansion, QE)模块使用 WordNet 语义网络自动丰富原始查询词。例如对于查询词"car",系统会扩展为["automobile", "vehicle"]等语义相近词汇。这种扩展有效解决了词汇鸿沟问题(lexical chasm),即用户查询用词与文档专业术语之间的不匹配现象。实验数据显示,该模块能使相关文档覆盖率提升 41%,这主要得益于扩展后的查询能覆盖更多文档中的同义表达。
技术实现上,系统通过 NLTK 工具包从 WordNet 获取每个查询词的前 2 个最相关同义词。这种受限扩展策略既保证了查询意图的完整性,又避免了无关词汇引入带来的噪声。例如医学查询"myocardial infarction"可能扩展为["heart attack", "cardiac infarction"],而不会引入不相关的血管类术语。
2.1.2 动态权重调节
系统独创的查询特异性评分(Query Specificity Score, S(q'))算法实现了检索策略的智能适配。该评分通过计算查询词的平均 TF-IDF 值来量化查询的专业程度:
基于此评分,系统动态分配稀疏检索(RetS)和稠密检索(RetD)的权重:
当处理专业查询(如医学术语"EGFR mutation")时,系统会赋予 BM25 稀疏检索更高权重(约 0.7),因为这类查询需要精确匹配专业术语。
而对于通用查询(如"如何学习编程"),则侧重稠密检索(权重约 0.8),以捕捉语义层面的相关性。
2.1.3 互逆排序融合
系统采用改进的加权互逆排序融合(Weighted Reciprocal Rank Fusion, WRRF)算法整合两种检索结果。
其核心公式为:
其中 ε=0.00001 用于防止除零错误。
该算法巧妙地将动态权重与排名信息结合:
- • 1)在两个检索器中都排名靠前的文档会获得更高分数
- • 2)专业查询中 BM25 的匹配结果具有更大影响力
- • 3)通用查询中语义相似的结果更具优势
例如对于查询"新能源汽车政策",某政策文件在 BM25 排名第 2,向量检索排名第 3,假设权重分配为 0.4:0.6,则其 WRRF 得分为:(0.4/(2+0.00001)) + (0.6/(3+0.00001)) ≈ 0.33,这个加权分数将决定文档在最终结果中的排序位置。
2.2 其他细节
系统使用 sentence-transformers/all-mpnet-base-v2 模型生成稠密向量,该模型能有效捕捉长文档的语义信息。
对于稀疏检索,采用经过优化的 BM25 实现,其词频-逆文档频率计算针对专业语料进行了参数调优。
实验表明,这种组合在 HaluBench 数据集上取得了 0.915 的 NDCG@3 得分,比单一检索方法提升约 17%。
本项目目前已经开源:https://anonymous.4open.science/r/HybridRAG\_for\_Hallucinations-884F/
- 效果评估与行业应用
3.1 基准测试结果
在 HaluBench 数据集(包含 13,867 个样本)上的测试表明,混合检索方法 Hybrid-RRF 显著优于传统的稀疏检索(BM25)和稠密检索(Sentence Transformers)。具体性能对比如下:
- • 检索精度 :Hybrid-RRF 的 MAP@3(Mean Average Precision,平均精度均值)达到 0.897,比稀疏检索(0.724)和稠密检索(0.768)分别提升 23.9%和 16.8%;NDCG@3(归一化折损累积增益)为 0.915,同样领先于其他方法。
- • 幻觉抑制 :Hybrid-RRF 将幻觉率降低 73%,效果远超稀疏检索(31%)和稠密检索(52%)。例如,在医疗问答场景中,模型因检索到更准确的药品说明书而减少错误配伍结论。
技术原理上,Hybrid-RRF 通过动态加权融合稀疏检索的关键词匹配能力(如 BM25 的精确术语匹配)和稠密检索的语义理解能力(如 Sentence-BERT 的上下文编码)。
3.2 跨领域性能
在专业领域的测试中,Hybrid-RRF 展现出更强的适应性:
-
- 医疗领域(PubMedQA) 准确率达 92%,比基线提升 19%。例如在 COVID-19 相关查询中,通过融合 WHO 报告(稀疏检索)和科研论文语义分析(稠密检索),上下文充足率提升 55%。
-
- 金融领域(FinanceBench) 术语检索拒绝率降低 68%。在"LIBOR 利率计算"类问题中,混合检索同时匹配法规条文(精确术语)和行业分析报告(语义关联),避免单一检索模式的局限性。
领域优势源于两方面机制:
- • 专业术语处理 :BM25 确保法规条款等精确匹配,如金融领域的"SEC Form 10-K"。
- • 概念关联扩展 :语义检索捕捉同义表述,如医疗中"心肌梗死"与"heart attack"的关联。
- • 论文原文: https://arxiv.org/abs/2504.05324
- • 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- • 加入社群,+v: iamxxn886
- • 点击公众号菜单加入讨论