一种RAG半结构化数据解析和向量化方法，支持html,pdf,xlsx,docx,xml等 - 文章 - 开发者社区

大型语言模型（LLMs）在专业领域如环境科学、医疗和法律中具有显著优势，因为它们能够处理和从大量 非结构化文本 中提取洞察力。同时，LLMs面临的挑战包括生成“ 幻觉 ”（hallucinations），即创建事实上错误但看似合理的信息，这在专业领域尤为突出，例如： 在生态环境管理领域 。检索增强生成（ RAG ）方法对于LLMs应用至关重要，它结合了外部数据库的能力，提高了模型提供准确、特定上下文信息的能力。

因此，提出了一种新方法， 用于解析和向量化半结构化数据 ，以增强LLMs中的RAG功能。

通过将不同数据格式转换为.docx，实现了高效的解析和结构化数据提取。
使用Pinecone构建向量数据库，与LLMs无缝集成，提供准确、上下文特定的响应，特别是在环境管理和废水处理操作中。

半结构化数据的解析和向量化处理框架

picture.image

数据准备 (Data Preparation)

收集包括书籍、报告、学术文章和数据表在内的多种来源的数据，这些数据主要是半结构化数据，包括 .html、pdf、xml、docx、xlsx 等格式。

自动解析和分割 (Automated Parsing and Splitting)

使用基于深度学习的对象检测系统 detectron2 进行分区功能，将.docx文件分割为多个元素，如标题、文本、图像、表格、页眉和页脚。

分块 (Chunking)

使用 Unstructured Core Library 中的chunk_by_title函数，将文档系统地分割成不同的子部分，将标题作为部分标记。

向量数据库构建 (Vector Database construction)

利用OpenAI的“text-embedding-ada-002”模型通过API生成与特定内容对应的嵌入向量，并将数据存储在Pinecone的向量数据库中。

picture.image

选择了中文和英文的学术论文各一篇，以及每种语言的书籍一本，以评估本研究中使用的方法和RAG技术的效能。

picture.image

使用GPT-4对选定文档进行zero-shot问答测试，评估了使用本研究中构建的向量知识库增强LLMs领域专业知识的效果。LLMs输出的 精确度和可靠性 有显著提高。

picture.image


          
https://arxiv.org/pdf/2405.03989
          
A Method for Parsing and Vectorization of Semi-structuredData used in Retrieval Augmented Generation
          
https://github.com/linancn/TianGong-AI-Unstructure
          
https://unstructured-io.github.io/unstructured/