EDC²-RAG：利用聚类和压缩技术提升RAG准确性

发布时间：2025 年 04 月 04 日

RAG

该框架不仅能够有效挖掘潜在的跨文档关系，还能同时去除无关信息和冗余内容。我基于 GPT-3.5 构建的方法在多个常用的知识问答和幻觉检测数据集上进行了验证。实验结果表明，该方法在各种场景和实验设置下均实现了性能的显著提升，展现出强大的鲁棒性和广泛的适用性。

https://arxiv.org/abs/2504.03165

picture.image

添加请注明RAG

如遇无法添加，请+ vx: iamxxn886

一、为什么需要高效动态聚类文档压缩技术？

1.1 大语言模型的挑战与检索增强生成（RAG）的兴起

近年来，大语言模型（Large Language Models, LLMs）在自然语言处理任务中表现出色，比如问答、代码生成甚至医疗诊断。然而，LLMs 面临两大挑战： 知识更新成本高 和 幻觉问题（即生成误导性内容） 。

为了解决这些问题，检索增强生成（Retrieval-Augmented Generation, RAG）应运而生。RAG 通过结合检索与生成，使 LLMs 能够访问外部知识，减少幻觉并提高可靠性。比如，当 LLMs 需要回答一个复杂的历史问题时，RAG 可以从外部知识库中检索相关文档，帮助模型生成更准确的答案。

然而，现有的 RAG 方法在处理检索内容中的噪声、重复和冗余时效果有限。例如，检索到的文档可能包含大量与查询无关的信息，或者多个文档之间内容高度相似，导致 LLMs 在生成答案时效率低下，甚至可能引入错误信息。

1.2 现有 RAG 方法的局限性

当前 RAG 框架主要 基于查询与候选文档的相似性进行检索 ，忽略了文档之间的细粒度关系。这导致检索结果中可能存在大量 冗余和噪声 ，影响 LLMs 的推理质量。例如，当检索到的文档包含多个重复的段落时，LLMs 可能会重复生成相同的信息，浪费计算资源。

此外，基于知识图的 RAG 方法虽然提高了检索灵活性，但未能有效解决内容冗余和冲突问题。 知识图的构建和维护成本高昂 ，且在处理大规模文档时效率较低。例如，当面对数百万个实体时，构建一个完整的知识图不仅耗时，还可能导致检索效率下降。

1.3 高效动态聚类文档压缩技术的必要性

为了解决上述问题，清华大学的研究团队提出了一种 高效动态聚类文档压缩框架 （Efficient Dynamic Clustering-based document Compression, EDC²-RAG ）。该技术通过 聚类和压缩 技术，利用文档之间的潜在关系，减少噪声和冗余，从而提升 RAG 系统的性能和鲁棒性。例如，EDC²-RAG 可以 将相似的文档聚类在一起 ，并通过 LLMs 生成简洁的摘要 ，确保最终输入到模型中的信息既相关又高效。

通过这种方式，EDC²-RAG 不仅减少了 LLMs 的计算负担，还提高了生成答案的准确性和一致性。实验表明，EDC²-RAG 在多个数据集上均取得了显著的性能提升，尤其是在处理噪声和冗余内容时表现出色。这种技术为大语言模型的进一步应用提供了新的方向，特别是在需要处理大规模外部知识的场景中。

二、高效动态聚类文档压缩技术是什么？

2.1 技术核心：动态聚类与压缩

picture.image

EDC²-RAG（Efficient Dynamic Clustering-based document Compression for Retrieval-Augmented Generation）的核心思想是通过动态聚类将语义相似的文档分组，然后使用大语言模型（LLM, Large Language Model）进行压缩，提取关键信息。具体步骤如下：

文档编码 ：首先，将文档转换为向量表示。这一步类似于我们平时用搜索引擎时，输入的查询会被转化为计算机能理解的数字形式。通过这种方式，文档的内容被编码为高维向量，便于后续的相似性计算。

动态聚类 ：基于文档与查询的相似性，将文档分组为多个簇。与传统的静态聚类方法不同，动态聚类能够根据查询动态调整簇的大小和数量。比如，当你搜索“人工智能”时，系统会自动将与“机器学习”和“深度学习”相关的文档归为一组，而将与“自然语言处理”相关的文档归为另一组。这种方法确保了检索结果的 相关性和信息密度 。

picture.image

压缩：使用大语言模型对每个簇进行查询感知的压缩，去除冗余信息。举个例子，如果你搜索“人工智能的历史”，系统会从相关文档中提取出 关键事件和时间节点 ，而不是把所有细节都呈现给你。这样既节省了时间，又提高了信息的精准度。

生成：将压缩后的内容整合到提示中，生成最终响应。这一步就像是把筛选后的信息打包成一个简洁的答案，直接呈现给用户。

2.2 动态聚类的优势

与传统的静态聚类方法相比，动态聚类有以下几个显著优势：

• 灵活性 ：动态聚类能够根据查询动态调整簇的大小和数量，确保检索结果的相关性和信息密度。比如，当你搜索“人工智能的应用”时，系统会自动将与“医疗”、“金融”、“自动驾驶”等不同领域的应用文档分组，而不是将所有文档混在一起。
• 减少冗余 ：通过动态聚类，系统能够将相似的文档归为一组，避免重复信息的出现。比如，如果你搜索“深度学习框架”，系统会自动将关于“TensorFlow”和“PyTorch”的文档归为一组，而不是分别呈现多个重复的文档。
• 提高推理效率 ：动态聚类减少了文档的数量，使得大语言模型在生成答案时更加高效。比如，当你搜索“人工智能的未来趋势”时，系统会从相关文档中提取出关键趋势，而不是让模型处理大量冗余信息。

2.3 开源资源

EDC²-RAG 的代码和数据集已开源，地址为：https://github.com/Tsinghua-dhy/EDC-2-RAG。

高效动态聚类文档压缩技术效果如何？

3.1 实验设置与数据集

为了验证 EDC²-RAG（Efficient Dynamic Clustering-based Compression for Retrieval-Augmented Generation）的有效性，研究团队在多个数据集上进行了实验，包括知识问答（KQA）数据集和幻觉检测数据集。实验使用了 GPT-3.5 作为基础模型，评估了在不同噪声和冗余率下的性能表现。这些数据集涵盖了开放域问答和幻觉检测任务，能够全面测试模型的鲁棒性和适用性。

3.2 知识问答数据集上的表现

picture.image

在 TriviaQA 和 WebQ 数据集上，EDC²-RAG 在不同 Top-k 设置下均表现出色。例如，在 WebQ 数据集上，EDC²-RAG 的平均 F1 得分比标准 RAG 方法提高了 0.48，显示出其在处理多样化上下文中的优势。

EDC²-RAG 在 TriviaQA 数据集上的平均 F1 得分为 93.81，略高于标准 RAG 方法的 93.78，而 Raw Compression 方法的得分则下降了 0.49。这表明 EDC²-RAG 在处理冗余和噪声时能够有效保留关键信息，从而提升问答系统的性能。

3.3 噪声与冗余处理能力

picture.image

在噪声和冗余率较高的场景下，EDC²-RAG 表现出更强的鲁棒性。例如，在 40%噪声率下，EDC²-RAG 在 TriviaQA 数据集上的 F1 得分比标准 RAG 方法提高了 0.76。在 WebQ 数据集上，EDC²-RAG 在高噪声率下的平均 F1 得分为 88.22，比标准 RAG 方法高出 0.48。这些结果表明，EDC²-RAG 能够有效处理噪声和冗余，确保在复杂环境下仍能提供高质量的答案。

picture.image

3.4 幻觉检测数据集上的表现

picture.image

在 FELM、WikiBio GPT-3 和 HaluEval 数据集上，EDC²-RAG 在平衡准确率上均优于现有方法。例如，在 FELM 数据集上，EDC²-RAG 在 Top-10 设置下的准确率达到了 64.03，比标准 RAG 方法提高了 6.61。在 WikiBio GPT-3 数据集上，EDC²-RAG 的平衡准确率比 CEG 方法提高了 0.45。这些结果证明了 EDC²-RAG 在减少幻觉和提升模型可靠性方面的有效性。

3.5 动态聚类的关键作用

picture.image

通过对比动态聚类与随机聚类和平均聚类的效果，研究发现动态聚类在噪声率较高的情况下仍能保持稳定的性能。例如，在 WebQ 数据集上，动态聚类方法的平均 F1 得分为 87.25，而随机聚类和平均聚类方法的得分分别为 86.69 和 86.78。这表明动态聚类在文档压缩中具有不可替代的作用，能够有效减少冗余和噪声，提升模型的整体性能。

总结来说，EDC²-RAG 在多个数据集上均表现出色，尤其是在处理噪声和冗余方面展现了强大的鲁棒性。动态聚类技术的引入进一步提升了模型的性能，使其在复杂环境下仍能保持高效和准确。

• 论文原文: https://arxiv.org/abs/2504.03165
• 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
• 加入社群，+v: iamxxn886
• 点击公众号菜单加入讨论

picture.image