发布时间:2025 年 02 月 17 日
RAG
Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control
添加请注明RAG
如遇无法添加,请+ vx: iamxxn886
一、为什么需要灵活检索增强生成技术?
1.1 大语言模型的幻觉问题
大语言模型(LLM, Large Language Model)在生成回答时,常常会出现“幻觉”现象,即生成看似合理但实际错误的内容。这种现象在模型训练数据之外的知识领域尤为常见,例如最新事件或小众知识。举个例子,如果你问一个 LLM“2023 年诺贝尔物理学奖得主是谁?”,而模型的训练数据截止到 2022 年,它可能会生成一个看似合理但实际上是错误的答案。这种现象不仅影响用户体验,还可能导致严重的后果,尤其是在医疗、法律等高风险领域。
1.2 现有检索增强生成(RAG)的局限性
现有的检索增强生成(RAG, Retrieval-Augmented Generation)技术通过引入外部知识检索来缓解幻觉问题。然而,这些技术往往缺乏灵活性,要么过度检索导致算力浪费,要么在需要多步推理时检索不足,导致回答不完整或错误。例如,在回答“谁是电话发明者出生时的美国总统?”这样的复杂问题时,现有的 RAG 可能只进行一次检索,而实际上需要多次检索和推理才能得出正确答案。这种不灵活的检索策略不仅增加了计算成本,还可能导致回答不准确。
1.3 用户需求的多样性
不同的应用场景对检索策略的需求不同。例如,医疗研究可能更注重准确性,而客服聊天机器人则更注重响应速度和成本效率。现有的自适应 RAG 技术无法满足这种多样化的需求。比如,一个医疗研究系统可能需要尽可能多的外部知识来确保回答的准确性,而一个电商客服系统则更希望快速响应,即使这意味着偶尔会生成不完美的答案。因此,开发一种能够根据用户需求动态调整检索策略的技术显得尤为重要。
二、灵活检索增强生成技术解析
2.1 核心技术原理
Flare-Aug(Flexible Adaptive Retrieval-Augmented Generation,灵活自适应检索增强生成)框架通过引入两个分类器来实现用户可控的检索策略调整。
- • 成本优化分类器 ,它的目标是选择最低成本的检索策略,同时确保回答的正确性。例如,在处理简单的查询时,系统可以直接从模型内部的知识库中获取答案,而无需进行外部检索,从而节省计算资源。
- • 可靠性优化分类器 ,它专注于确保回答的稳定性和准确性,特别适用于高风险领域,如医疗或金融。比如,在回答关于最新药物副作用的问题时,系统会优先选择多步检索策略,以确保信息的全面性和准确性。
这两个分类器的结合使得 Flare-Aug 能够根据查询的复杂度和用户的需求,动态调整检索策略,既避免了不必要的检索开销,又保证了回答的可靠性。
2.2 用户可控参数 α
用户可以通过调整参数 α(取值范围为 0 到 1)来平衡成本和准确性。
- • 当 α=0 时,系统完全依赖成本优化分类器,优先选择最低成本的检索策略。例如,在回答“法国的首都是哪里?”这种简单问题时,系统会直接使用模型内部的知识,而无需进行外部检索。
- • 当 α=1 时,系统则完全依赖可靠性优化分类器,优先选择高准确性的检索策略,即使这意味着更高的计算成本。例如,在回答“2023 年诺贝尔物理学奖得主是谁?”这种需要最新信息的问题时,系统会进行多步检索以确保答案的准确性。
这种设计使得用户可以根据具体需求灵活调整检索策略。例如,在实时聊天机器人中,用户可能更倾向于快速响应,因此可以将 α 设置为较低值;而在医疗诊断系统中,用户可能更关注答案的准确性,因此可以将 α 设置为较高值。
三、效果评估
3.1 主要结果
上图展示了在不同 α 值下的准确性和检索成本。
随着用户可控参数 α 的增加,准确性和成本均呈现上升趋势,使用户能够根据其偏好的准确性和效率之间的权衡轻松调整检索策略。
3.1.1 不同 α 值下的准确性
无检索策略的准确性最低,Flan-T5 模型的准确性低于 0.2,而 GPT-4o 系列模型的性能相对较高(GPT-4o Mini 约为 0.43,GPT-4o 约为 0.53)。
应用单步检索显著提高了准确性,特别是对于 Flan-T5 模型,其准确性提升至约 0.39。然而,GPT-4o 模型的性能提升相对较小,因为这些模型已经具备强大的参数知识存储和高级推理能力。相比之下,Flan-T5 模型从检索中获益更多,因为它们在没有外部信息的情况下回答查询的能力较弱。
自适应 RAG 的准确性介于单步检索和多步检索之间。同时,我们的 α 可控方法实现了介于单步检索和多步检索之间的准确性水平,使用户能够根据不同的应用需求定制检索策略。
Flare-Aug 在 Flan-T5-XL、Flan-T5-XXL 和 GPT-4o Mini 上甚至能够超越多步检索,展示了其在基于查询复杂性优化检索决策方面的有效性。
3.1.2 不同 α 值下的成本
与准确性趋势类似,检索成本随着 α 的增加而单调上升,使用户能够根据其成本限制调整检索支出。
对于 Flan-T5 模型,最小检索成本(即设置 α=0)接近单步检索,表明这些模型需要一定量的检索来正确回答查询。相比之下,对于 GPT-4o 模型,最小成本更接近无检索,因为这些模型具备更强的参数知识和推理能力,使其能够在没有检索的情况下正确回答更大比例的查询。
这种情况说明了成本优化分类器的适应性,是特定于 LLM 的,并自动调整不同模型的检索需求——为 Flan-T5 模型检索更多,而为 GPT-4o 模型检索更少。
此外,虽然随着 α 的增加,实现了与多步检索相当或更高的准确性,但其检索成本始终低于多步检索。因此,与多步检索相比,在不牺牲准确性的情况下显著降低了检索开销。
3.1.3 准确性-成本权衡
上图展示了 Flare-Aug 在不同 α 值下的准确性-成本曲线。对于 Flan-T5 XL、Flan-T5 XXL 和 GPT-4o Mini,自适应 RAG 位于 Flare-Aug 权衡曲线的右下侧,表明 Flare-Aug 在准确性和成本效率方面始终优于自适应 RAG。
3.2 设置 α 的实用性
为了进一步展示 Flare-Aug 的实用性,提供了两种简单直观的策略,可用于设置 α:
- • 增量调整 :由于 α 随着成本和准确性的增加而单调增加,用户可以从初始 α 开始,并根据观察到的检索成本和响应质量进行微调。如果检索成本超出预算,他们可以降低 α;如果响应质量不令人满意,他们可以增加 α。
- • 基于验证集的估计 :用户可以通过检查验证集上的准确性-成本权衡直接估计合适的 α,从而选择与其期望的检索成本和准确性平衡相符的值。
通过这些策略,用户可以灵活地调整 α,以实现最佳的准确性和成本平衡,从而满足其特定应用需求。
四、项目地址
Flare-Aug 的开源代码已经发布在 GitHub 上:https://github.com/JinyanSu1/Flare-Aug。
- • 论文原文: https://arxiv.org/abs/2502.12145
- • 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- • 加入社群,+v: iamxxn886
- • 点击公众号菜单加入讨论