发布时间:2025 年 02 月 12 日
RAG
QA-Expand: Multi-Question Answer Generation for Enhanced Query Expansion in Information Retrieval
查询扩展在信息检索领域被广泛应用,通过为查询添加额外的上下文信息来提升搜索效果。尽管基于 LLM 的方法能够通过多个提示生成伪相关内容和扩展项,但这些方法往往产生重复且范围狭窄的扩展,缺乏多样化的背景信息,难以检索到所有相关结果。本文提出了一种新颖且有效的查询扩展框架——QA-Expand。该框架首先从初始查询生成多个相关问题,随后为这些问题生成对应的伪答案作为替代文档。通过反馈模型进一步优化和筛选这些答案,确保仅保留最有价值的补充信息。在 BEIR 和 TREC 等基准测试中的大量实验证明,与现有最优方法相比,QA-Expand 将检索性能提升了高达 13%,为应对现代检索挑战提供了有力的解决方案。
添加请注明RAG
如遇无法添加,请+ vx: iamxxn886
一、查询扩展的困境与突破
在搜索引擎与智能问答系统领域,精准把握用户查询意图始终是亟待攻克的关键难题。传统查询扩展方法存在明显局限,就如同只会依赖同义词词典的图书管理员,虽然能够增添检索关键词,但难以洞悉问题蕴含的深层语义。
传统查询扩展方法具体涵盖以下几种:
- • Q2D :借助少量示例提示来生成伪文档,随后利用这些生成的伪文档对查询进行扩展,以此拓宽检索范围,期望获取更多相关结果。
- • Q2C :运用思维链(CoT)提示,引导查询发生重写,通过改变查询的表述方式,尝试挖掘不同角度的信息,提升检索的精准度和全面性。
- • GenQREnsemble :采用零示例指令释义的方式生成多组关键词,然后将这些关键词组与初始查询进行拼接,整合后的查询内容有望涵盖更多潜在相关信息,增强检索效果。
- • GenQRFusion :针对每个初始查询以及每组关键词的组合分别进行文档检索,之后对所得到的排序结果进行融合,通过综合考量不同组合的检索情况,提升整体检索性能,力求呈现更贴合用户需求的结果。
然而,当大语言模型(LLM)取得突破性进展后,开发者们却遭遇了新的难题 —— 生成的扩展内容往往重复且单一。这种情况就如同使用不同颜色的笔反复描绘同一幅简笔画,无论怎样涂抹,都无法完整、立体地呈现出用户信息需求的全貌,极大地限制了搜索引擎和智能问答系统对用户真实意图的理解深度与广度,影响了用户体验与系统性能的进一步提升。
二、QA-Expand 的创新架构
QA-Expand 的突破性设计如同为查询请求装上了"多棱镜"。其核心创新在于将单点查询分解为多维问题矩阵,具体实现分为三个关键阶段:
1. 问题矩阵生成器
使用 LLM 从不同角度解构原始查询(提示词如下)。例如对于"图像识别模型优化方法",系统会自动生成:
- • 卷积神经网络结构改进有哪些新思路?
- • 如何通过数据增强提升模型泛化能力?
- • 轻量化部署中的模型压缩技术对比 每个问题都像探照灯的一束光线,从不同方向照亮信息盲区。
2. 伪答案生成引擎
每个问题会触发独立的答案生成流程,提示词如上。生成的伪答案可能不完全准确可能包含一些无效或不相关的答案。
3. 反馈过滤机制
通过大语言模型确保只有最相关和最有信息量的伪答案被用于查询扩展:
- • 使用LLM对生成的伪答案进行评估。
- • 反馈模型会检查每个伪答案的相关性和正确性。
- • 任何被认为不相关或过于模糊的伪答案都会被移除或重写。
- • 最终保留的伪答案集合将用于增强查询。
三、效果如何
QA-Expand在稀疏和密集检索设置中均显著优于基线方法。QA-Expand在BEIR基准数据集上的平均nDCG@10得分比最佳基线方法提高了13%。
例如,在Webis数据集上,QA-Expand的nDCG@10得分达到了0.3919,显著高于Q2D的0.3679和Q2C的0.3546。在TREC数据集上,QA-Expand在nDCG@10和R@1000指标上也表现出色,平均得分分别为0.5000和0.5402,显著优于其他方法。
此外,在融合检索场景中,QA-Expand通过筛选高质量的伪答案,显著提升了检索性能。与传统的GenQRFusion方法相比,QA-Expand在RRF设置下的平均得分提高了约5%。
消融研究与分析
为了评估反馈模块的有效性,在BEIR基准和TREC数据集上进行了消融研究。
结果表明,包含反馈模块的QA-Expand框架在平均得分上优于不包含反馈模块的版本。
例如,在BEIR数据集上,包含反馈模块的QA-Expand平均得分为0.5302,而不包含反馈模块的版本得分为0.5266。在TREC数据集上,包含反馈模块的版本在nDCG@10和R@1000指标上也表现出更好的性能。
反馈模块不仅提升了整体性能,还增强了模型的鲁棒性。在没有反馈模块的情况下,性能波动较大,且容易受到低质量伪答案的干扰。相比之下,包含反馈模块的QA-Expand能够稳定地维持优越的检索效果,这证明了动态选择高质量扩展的重要性。
综上所述,QA-Expand通过生成多样化的问答对并利用反馈模块进行筛选,显著提升了查询扩展的效果,从而在信息检索任务中表现出色。
- • 论文原文: https://arxiv.org/abs/2502.08557
- • 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- • 加入社群,+v: iamxxn886
- • 点击公众号菜单加入讨论