RAG（检索增强生成）架构与原理：告别LLM“幻觉”的秘密武器 - 文章 - 开发者社区

字数 4576，阅读大约需 23 分钟

写在前面的话

RAG是什么？如果你还不清楚或是一知半解，不要紧，如果看完这篇文章，你还不会，算我输！

在人工智能飞速发展的今天，大型语言模型（LLM）以其强大的文本生成能力，正在深刻改变我们与信息交互的方式。然而，LLM也并非完美无缺，它们有时会面临“幻觉”（Hallucination）问题，即生成听起来合理但实际上不准确或不真实的内容。此外，LLM的知识通常停留在其训练数据的时间点，难以获取实时更新的信息或特定领域的专业知识。为了解决这些挑战，检索增强生成（Retrieval Augmented Generation，简称RAG）技术应运而生，它将传统的信息检索能力与LLM的生成能力相结合，为构建更准确、可靠和实时的AI应用提供了强大的解决方案。

本文力争通过本文讲透RAG原理、开源应用、及代码示例，我们一起努力，时间不会辜负每个努力的人，加油！

什么是RAG？

检索增强生成（Retrieval Augmented Generation，简称RAG）是一种优化大型语言模型（LLM）输出的技术。它通过在生成响应之前，从外部权威知识库中检索相关信息，并将其作为上下文提供给LLM，从而提高LLM回答的准确性、可靠性和时效性，同时有效缓解LLM可能出现的“幻觉”问题。

RAG的工作原理

RAG的工作流程通常分为两个主要阶段：检索阶段 和生成阶段 。

1. 检索阶段 (Retrieval Phase)

在检索阶段，RAG模型会根据用户的查询（Query）或问题，从预先构建的知识库中检索出最相关的文档或信息片段。这个阶段的关键步骤包括：

• 数据准备与索引 (Data Preparation & Indexing) ：

• 数据摄取 (Data Ingestion) ：从各种数据源（如文档、数据库、网页等）收集原始数据。
• 文本分块 (Text Chunking) ：将长文本分割成更小的、有意义的片段（chunks）。这有助于提高检索的粒度，并确保每个片段都能被有效地嵌入。
• 嵌入 (Embedding) ：使用嵌入模型（Embedding Model）将文本片段转换为高维向量（embeddings）。这些向量能够捕捉文本的语义信息，使得语义相似的文本在向量空间中距离更近。
• 向量存储 (Vector Storage) ：将生成的向量存储到向量数据库（Vector Database）中。向量数据库针对高效的相似性搜索进行了优化。

• 查询处理与相似性搜索 (Query Processing & Similarity Search) ：

• 当用户提出查询时，同样的嵌入模型会将查询转换为向量。
• 然后，这个查询向量会在向量数据库中进行相似性搜索，找出与查询向量最接近（即语义最相关）的文本片段。
• 检索到的文本片段将作为后续生成阶段的上下文信息。

2. 生成阶段 (Generation Phase)

在生成阶段，大型语言模型（LLM）会利用检索阶段获得的上下文信息，结合原始的用户查询，生成最终的回答。这个阶段包括：

• 上下文整合 (Context Integration) ：将检索到的相关文本片段与原始用户查询一起，构建成一个增强的提示（Prompt）。这个提示通常会明确指示LLM基于提供的上下文进行回答。
• LLM生成 (LLM Generation) ：LLM接收增强后的提示，并根据其内部知识和提供的外部上下文信息生成回答。由于LLM现在有了额外的、相关且权威的信息作为参考，它能够生成更准确、更少“幻觉”的回答。

RAG如何解决LLM的“幻觉”问题？

大型语言模型在训练过程中可能会“编造”信息，即产生“幻觉”（Hallucination），给出听起来合理但实际上不准确或不真实的内容。RAG通过以下方式有效缓解这一问题：

引入外部知识源 ：RAG的核心在于将LLM的知识范围扩展到其训练数据之外的实时或特定领域的数据。这意味着LLM不再仅仅依赖其内部参数中固化的知识，而是可以访问和利用最新的、经过验证的信息。

提供事实依据 ：通过检索阶段，RAG为LLM提供了生成回答所需的事实依据。LLM被“锚定”在这些检索到的信息上，从而减少了其“自由发挥”和产生不准确信息的可能性。

可追溯性 ：RAG系统通常可以指出其回答所依据的原始文档或信息来源，这大大增加了回答的可信度和可追溯性。用户可以验证信息的真实性，这对于需要高准确性的应用场景（如医疗、法律、金融）至关重要。

实时性与更新 ：LLM的训练数据通常是静态的，无法及时反映最新信息。RAG通过连接到可实时更新的知识库，确保LLM能够访问到最新的数据，从而避免因信息过时而产生的错误。

RAG的优势

• 提高准确性 ：通过提供外部事实依据，显著减少LLM的幻觉，提高回答的准确性。
• 增强可靠性 ：答案基于可验证的外部知识，增加了系统的可靠性和可信度。
• 降低成本 ：无需对LLM进行昂贵的再训练或微调，即可使其适应新数据或特定领域知识。
• 实时性 ：能够利用最新信息，解决LLM知识滞后的问题。
• 可解释性 ：可以追溯答案的来源，提高系统的透明度。

RAG的挑战

• 检索质量 ：检索到的信息质量直接影响生成结果。不相关的或低质量的检索结果可能导致生成内容不佳。
• 分块策略 ：如何有效地将文档分块，既能保留上下文，又能适应LLM的输入限制，是一个挑战。
• 向量数据库选择与管理 ：选择合适的向量数据库，并进行有效的索引和管理，需要专业知识。
• 多模态RAG ：处理图片、视频等非文本数据，并进行有效检索和生成，是未来的发展方向和挑战。

RAG整体架构图

模型服务层

知识库层

RAG核心系统

用户交互层

用户查询

查询处理

查询向量化

向量相似性搜索

检索相关文档

上下文整合

LLM生成回答

回答后处理

原始文档

文档预处理

文本分块

向量嵌入

向量数据库

嵌入模型Embedding Model

大语言模型LLM

最终回答

RAG工作流程图

用户提问

检索阶段

查询向量化

向量数据库检索

获取相关文档片段

生成阶段

构建增强提示

LLM生成回答

返回最终回答

RAG数据处理流程图

原始数据

数据摄取

文档预处理

文本分块

文本嵌入

向量数据库存储

向量索引

主流开源RAG实现方案

随着RAG技术的日益成熟，许多优秀的开源框架和库应运而生，极大地降低了RAG应用的开发门槛。这些框架通常提供了一系列模块化的组件，涵盖了RAG工作流的各个环节，从数据加载、文本处理、向量嵌入到检索和LLM集成。以下是目前最受欢迎的几个开源RAG框架：

1. LangChain

LangChain是一个功能强大的框架，旨在帮助开发者构建端到端的LLM应用。它提供了丰富的模块和工具，使得RAG的实现变得简单高效。LangChain的核心概念包括：

• 模型（Models） ：支持各种LLM和聊天模型。
• 提示（Prompts） ：用于构建和管理LLM的输入提示。
• 索引（Indexes） ：用于结构化文档，以便LLM可以与它们交互。这包括文档加载器、文本分割器、向量存储和检索器。
• 链（Chains） ：将多个组件组合在一起，形成一个完整的应用逻辑，例如检索问答链。
• 代理（Agents） ：允许LLM根据工具的描述自主决定采取哪些行动。

LangChain的优势在于其高度的模块化和灵活性，开发者可以根据自己的需求选择和组合不同的组件。它支持与多种向量数据库（如Chroma、FAISS、Pinecone等）和嵌入模型（如OpenAI Embeddings、Hugging Face Embeddings等）的集成。

2. LlamaIndex

LlamaIndex（原名GPT Index）是一个专注于将外部数据源连接到LLM的框架。它提供了一套全面的工具，用于数据摄取、索引构建、查询和检索。LlamaIndex的特点在于其对数据源的广泛支持和灵活的索引策略，能够帮助开发者轻松地为LLM构建定制化的知识库。

LlamaIndex的主要组件包括：

• 数据连接器（Data Connectors） ：用于从各种数据源（如文件、数据库、API等）加载数据。
• 文档（Documents） ：表示加载的数据。
• 节点（Nodes） ：文档的原子单位，通常是文本块或结构化数据。
• 索引（Indexes） ：将节点组织成可查询的结构，例如向量索引、树索引、列表索引等。
• 查询引擎（Query Engines） ：用于接收用户查询，通过索引检索相关信息，并将其传递给LLM生成回答。

LlamaIndex在处理非结构化数据和构建复杂知识图谱方面表现出色，是构建高级RAG应用的理想选择。

3. Dify

Dify是一个开源的LLM应用开发平台，它融合了Backend-as-a-Service和LLMOps的理念，旨在简化生成式AI应用的开发和运营。Dify提供了可视化的Prompt编排、RAG管道、Agent工作流、数据集管理等功能，使得开发者可以快速构建和部署生产级的RAG应用。其RAG功能特点包括：

• 可视化RAG管道 ：Dify将RAG管道的各个环节可视化，提供友好的用户界面，方便用户管理知识库、文档和数据源。
• 多种数据源支持 ：支持从多种数据源摄取数据，并进行文本分块、嵌入和向量存储。
• Agentic AI工作流 ：支持构建Agentic AI应用，结合RAG能力，实现更复杂的任务和决策。
• 易于集成 ：提供丰富的API和SDK，方便将RAG能力集成到现有应用中。

Dify适用于希望通过低代码/无代码方式快速构建和管理RAG应用的团队和个人。

4. FastGPT

FastGPT是一个基于LLM的知识库问答系统，提供开箱即用的数据处理、模型调用、RAG检索和可视化AI工作流编排能力。它旨在帮助用户快速构建专属的AI知识库和智能问答系统。FastGPT的RAG功能特点包括：

• 开箱即用 ：提供数据处理、模型调用、RAG检索等一站式能力，简化RAG应用的开发流程。
• 可视化工作流 ：通过Flow可视化编排，用户可以自由组合各种功能节点，实现复杂的问答场景。
• 知识库管理 ：支持多种知识库创建方式，包括手动输入、QA拆分、直接分段和CSV导入等，方便用户管理和优化知识库内容。
• API集成 ：提供OpenAPI功能，方便开发者将FastGPT的RAG能力集成到自己的应用中。

FastGPT适用于需要快速构建和部署基于知识库的智能问答系统，并希望通过可视化界面进行管理的场景。

5. Haystack

Haystack是Deepset公司开发的一个开源NLP框架，专注于构建生产级的搜索系统和问答系统。它提供了灵活的管道（Pipelines）机制，允许开发者组合不同的组件来构建RAG应用。Haystack的组件包括：

• 文档存储（Document Stores） ：用于存储文档，支持多种后端（如Elasticsearch、FAISS、Pinecone等）。
• 检索器（Retrievers） ：用于从文档存储中检索相关文档，支持BM25、DPR、Embedding Retriever等多种检索算法。
• 阅读器（Readers） ：用于从检索到的文档中提取精确的答案。
• 生成器（Generators） ：用于生成自然语言回答。

Haystack的优势在于其强大的搜索能力和对生产环境的优化，适合构建高性能的RAG系统。

6. RAGFlow

RAGFlow是一个端到端的开源RAG引擎，旨在提供一站式的RAG解决方案。它特别强调深度文档理解能力，能够有效地处理各种格式的文档，并从中提取高质量的信息。RAGFlow的特点包括：

• 智能文档解析 ：支持OCR、表格识别、图片理解等功能，能够从复杂文档中准确提取内容。
• 多种分块策略 ：提供多种文本分块模板，并支持可视化编辑，方便用户根据文档特性进行优化。
• 内置向量数据库 ：简化了部署和管理。
• 用户友好的界面 ：提供了Web界面，方便用户进行文档管理、知识库构建和问答测试。

RAGFlow适用于需要处理大量复杂文档，并希望快速构建RAG应用的场景。

这些开源框架为开发者提供了丰富的工具和灵活的选项，使得RAG技术的应用变得更加便捷和高效。在实际项目中，开发者可以根据具体需求和技术栈选择最适合的框架进行开发。

代码示例

为了更好地理解RAG的实际应用，我们将通过LangChain和LlamaIndex这两个主流框架，展示如何构建一个简单的RAG系统。请注意，以下代码示例需要您配置OpenAI API Key才能运行。

LangChain RAG示例

首先，确保您已安装LangChain和OpenAI库：


 
 
 
 
   
pip install langchain langchain-community langchain-openai

然后，创建一个名为langchain\_rag\_example.py的文件，并将以下代码复制进去。请将YOUR\_OPENAI\_API\_KEY替换为您的实际OpenAI API Key。


 
 
 
 
   
import os  
from langchain\_community.document\_loaders import TextLoader  
from langchain\_community.embeddings import OpenAIEmbeddings  
from langchain\_community.vectorstores import Chroma  
from langchain.text\_splitter import CharacterTextSplitter  
from langchain.chains import RetrievalQA  
from langchain\_community.llms import OpenAI  
  
# 设置OpenAI API Key  
# os.environ["OPENAI\_API\_KEY"] = "YOUR\_OPENAI\_API\_KEY"  
  
# 1. 加载文档  
# 为了演示方便，这里直接创建一个data.txt文件  
withopen("data.txt", "w", encoding="utf-8") as f:  
    f.write("RAG（Retrieval Augmented Generation）是一种优化大型语言模型（LLM）输出的技术。它通过在生成响应之前，从外部权威知识库中检索相关信息，并将其作为上下文提供给LLM，从而提高LLM回答的准确性、可靠性和时效性，同时有效缓解LLM可能出现的“幻觉”问题。RAG的工作流程通常分为两个主要阶段：检索阶段和生成阶段。检索阶段包括数据准备与索引、查询处理与相似性搜索。生成阶段包括上下文整合和LLM生成。LangChain和LlamaIndex是流行的RAG开源框架。")  
  
loader = TextLoader("data.txt", encoding="utf-8")  
documents = loader.load()  
  
# 2. 分割文本  
text\_splitter = CharacterTextSplitter(chunk\_size=100, chunk\_overlap=0)  
texts = text\_splitter.split\_documents(documents)  
  
# 3. 创建嵌入并存储到向量数据库  
# 注意：这里需要有效的OpenAI API Key  
embeddings = OpenAIEmbeddings()  
db = Chroma.from\_documents(texts, embeddings)  
  
# 4. 创建检索器  
retriever = db.as\_retriever()  
  
# 5. 创建RAG链  
qa = RetrievalQA.from\_chain\_type(llm=OpenAI(), chain\_type="stuff", retriever=retriever)  
  
# 6. 提问  
query = "RAG的工作流程是怎样的？"  
print(qa.run(query))  
  
query = "RAG解决了LLM的什么问题？"  
print(qa.run(query))

运行此脚本，您将看到RAG系统根据提供的文档内容回答问题。

LlamaIndex RAG示例

首先，确保您已安装LlamaIndex和OpenAI库：


 
 
 
 
   
pip install llama-index openai

然后，创建一个名为llama\_index\_rag\_example.py的文件，并将以下代码复制进去。请将YOUR\_OPENAI\_API\_KEY替换为您的实际OpenAI API Key。


 
 
 
 
   
import os  
from llama\_index.core import VectorStoreIndex, SimpleDirectoryReader  
from llama\_index.embeddings.openai import OpenAIEmbedding  
from llama\_index.llms.openai import OpenAI  
  
# 设置OpenAI API Key  
# os.environ["OPENAI\_API\_KEY"] = "YOUR\_OPENAI\_API\_KEY"  
  
# 1. 加载文档  
# 确保data.txt文件存在，内容与LangChain示例相同  
documents = SimpleDirectoryReader(input\_files=["data.txt"]).load\_data()  
  
# 2. 创建嵌入模型和LLM  
embed\_model = OpenAIEmbedding()  
llm = OpenAI()  
  
# 3. 创建索引并存储到向量数据库 (默认使用内存中的SimpleVectorStore)  
index = VectorStoreIndex.from\_documents(documents, embed\_model=embed\_model)  
  
# 4. 创建查询引擎  
query\_engine = index.as\_query\_engine(llm=llm)  
  
# 5. 提问  
query = "RAG的工作流程是怎样的？"  
response = query\_engine.query(query)  
print(response)  
  
query = "RAG解决了LLM的什么问题？"  
response = query\_engine.query(query)  
print(response)

运行此脚本，您将看到LlamaIndex系统根据提供的文档内容回答问题。

最后的总结

RAG技术通过将外部知识检索与大型语言模型相结合，为解决LLM的“幻觉”问题和知识滞后性提供了有效的途径。它不仅提高了LLM回答的准确性和可靠性，还降低了模型训练和维护的成本。随着RAG技术的不断发展和完善，以及更多开源框架的涌现，RAG将在未来的AI应用中扮演越来越重要的角色，为各行各业带来更智能、更可靠的解决方案。

希望本文能帮助您对RAG技术有一个全面的了解，并为您的实践提供有益的参考。

picture.image

喜欢就点击关注
我哦～