一种RAG半结构化数据解析和向量化方法,支持html,pdf,xlsx,docx,xml等

大型语言模型(LLMs)在专业领域如环境科学、医疗和法律中具有显著优势,因为它们能够处理和从大量 非结构化文本 中提取洞察力。 同时,LLMs面临的挑战包括生成“ 幻觉 ”(hallucinations),即创建事实上错误但看似合理的信息,这在专业领域尤为突出,例如: 在生态环境管理领域 。 检索增强生成( RAG )方法对于LLMs应用至关重要,它结合了外部数据库 的能力,提高了模型提供准确、特定上下文信息的能力。

因此,提出了一种新方法, 用于解析和向量化半结构化数据 ,以增强LLMs中的RAG功能。

  • 通过将不同数据格式转换为.docx,实现了高效的解析和结构化数据提取。
  • 使用Pinecone构建向量数据库,与LLMs无缝集成,提供准确、上下文特定的响应,特别是在环境管理和废水处理操作中。

半结构化数据的解析和向量化处理框架

picture.image

数据准备 (Data Preparation)

收集包括书籍、报告、学术文章和数据表在内的多种来源的数据,这些数据主要是半结构化数据,包括 .html、pdf、xml、docx、xlsx 等格式。

自动解析和分割 (Automated Parsing and Splitting)

使用基于深度学习的对象检测系统 detectron2 进行分区功能,将.docx文件分割为多个元素,如标题、文本、图像、表格、页眉和页脚。

分块 (Chunking)

使用 Unstructured Core Library 中的chunk_by_title函数,将文档系统地分割成不同的子部分,将标题作为部分标记。

向量数据库构建 (Vector Database construction)

利用OpenAI的“text-embedding-ada-002”模型通过API生成与特定内容对应的嵌入向量,并将数据存储在Pinecone的向量数据库中。

picture.image picture.image picture.image

picture.image

  • 选择了中文和英文的学术论文各一篇,以及每种语言的书籍一本,以评估本研究中使用的方法和RAG技术的效能。

picture.image

  • 使用GPT-4对选定文档进行zero-shot问答测试,评估了使用本研究中构建的向量知识库增强LLMs领域专业知识的效果。LLMs输出的 精确度和可靠性 有显著提高。

picture.image

picture.image

picture.image


          
https://arxiv.org/pdf/2405.03989
          
A Method for Parsing and Vectorization of Semi-structuredData used in Retrieval Augmented Generation
          
https://github.com/linancn/TianGong-AI-Unstructure
          
https://unstructured-io.github.io/unstructured/
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
评论
未登录
暂无评论