大型语言模型(LLMs)在专业领域如环境科学、医疗和法律中具有显著优势,因为它们能够处理和从大量 非结构化文本 中提取洞察力。 同时,LLMs面临的挑战包括生成“ 幻觉 ”(hallucinations),即创建事实上错误但看似合理的信息,这在专业领域尤为突出,例如: 在生态环境管理领域 。 检索增强生成( RAG )方法对于LLMs应用至关重要,它结合了外部数据库 的能力,提高了模型提供准确、特定上下文信息的能力。
因此,提出了一种新方法, 用于解析和向量化半结构化数据 ,以增强LLMs中的RAG功能。
- 通过将不同数据格式转换为.docx,实现了高效的解析和结构化数据提取。
- 使用Pinecone构建向量数据库,与LLMs无缝集成,提供准确、上下文特定的响应,特别是在环境管理和废水处理操作中。
半结构化数据的解析和向量化处理框架
数据准备 (Data Preparation)
收集包括书籍、报告、学术文章和数据表在内的多种来源的数据,这些数据主要是半结构化数据,包括 .html、pdf、xml、docx、xlsx 等格式。
自动解析和分割 (Automated Parsing and Splitting)
使用基于深度学习的对象检测系统 detectron2 进行分区功能,将.docx文件分割为多个元素,如标题、文本、图像、表格、页眉和页脚。
分块 (Chunking)
使用 Unstructured Core Library 中的chunk_by_title函数,将文档系统地分割成不同的子部分,将标题作为部分标记。
向量数据库构建 (Vector Database construction)
利用OpenAI的“text-embedding-ada-002”模型通过API生成与特定内容对应的嵌入向量,并将数据存储在Pinecone的向量数据库中。
- 选择了中文和英文的学术论文各一篇,以及每种语言的书籍一本,以评估本研究中使用的方法和RAG技术的效能。
- 使用GPT-4对选定文档进行zero-shot问答测试,评估了使用本研究中构建的向量知识库增强LLMs领域专业知识的效果。LLMs输出的 精确度和可靠性 有显著提高。
https://arxiv.org/pdf/2405.03989
A Method for Parsing and Vectorization of Semi-structuredData used in Retrieval Augmented Generation
https://github.com/linancn/TianGong-AI-Unstructure
https://unstructured-io.github.io/unstructured/
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
