上一篇《一文搞懂!RAGFlow 入门教程与安装部署全流程》讲了RAGFlow的基本信息、部署、模型设置和聊天,本次我们讲解RAGFlow的知识库和嵌入网站方法。
一、知识库
路径:菜单 知识库--》创建知识库
点击“确定”,完成初步的创建,进入详情页面。
1、配置
- PDF解析器:有2种解析器,DeepDoc使用视觉模型进行 PDF 布局分析,以更好地识别文档结构,找到标题、文本块、图像和表格的位置。 如果选择 Naive 选项,则只能获取 PDF 的纯文本。请注意该功能只适用于 PDF 文档,对其他文档不生效。
- 嵌入模型:选择已设置好的嵌入模型。
- 切片方法:有非常多的方法供选择,可根据实际场景选择合适的方法。比如我们可使用General,Q&A,Paper(专门处理pdf)等方法。
- 建议文本块大小:建议的生成文本块的 token 数阈值。如果切分得到的小文本段 token 数达不到这一阈值就会不断与之后的文本段合并,直至再合并下一个文本段会超过这一阈值为止,此时产生一个最终文本块。如果系统在切分文本段时始终没有遇到文本分段标识符,即便文本段 token 数已经超过这一阈值,系统也不会生成新文本块。
- 文本分段标识符:支持多字符作为分隔符,多字符用 `` 分隔符包裹。若配置成:\n
##; 系统将首先使用换行符、两个#号以及分号先对文本进行分割,随后再对分得的小文本块按照「建议文本块大小」设定的大小进行拼装。在设置文本分段标识符前请确保理解上述文本分段切片机制。比如,我们在整理文本时,每条知识之间都使用换行符分隔。
点击“保存”后跳转到数据集界面。
2、数据集
添加数据集,上传本地文件,可选择多个文件。
操作过程:
-
上传完后,还需要手动点击解析。
-
解析是一个比较耗时的操作,数据量越大时间越长,所以需要一个文件解析完后,再点击另一个文件解析。
-
解析好后,会保存到其向量数据库。
3、示例
我们分别创建了3个知识库,论文-PDF、GPT报错-QA和中医诊断 。
(1)《论文-PDF》的文件是《Attention Is All You Need》论文,pdf格式;知识库的配置如下:
(2)GPT报错-QA 是Excel文档,里面就是QA问答,如下格式。
知识库配置如下:切片方法选择 Q&A
(3) 中医诊断是txt文本格式的数据,以换行符分隔,数据如下:
知识库的配置如下:
二、聊天对话
1、绑定知识库
新建对话助理的方法请看上一篇文章,只要将知识库与创建好的知识库关联上即可。
2、聊天对话
进行对话会有如下回答,可以看到答案都是在知识库里存在的数据;并且会显示是从哪个文档里获取到的。
三、嵌入网站
RAGFlow还提供了网页iframe嵌入和 API调用这2种形式,方便外部系统接入RAGFlow 。
1、设置API Key
路径:头像--》API-->API Key
创建新密钥,会自动创建Token。
2、嵌入网站
路径:菜单- 聊天--》点击某一个聊天助理--》嵌入网站
可以看到“全屏嵌入”和“部分嵌入”,前者是iframe形式,后者的API形式的调用,API接口文档:https://ragflow.io/docs/dev/http\_api\_reference#create-session-with-chat-assistant 。
RAG进阶:Embedding Models嵌入式模型原理和选型指南
RAG 落地必备的 1 个开源 AI 原生向量数据库 —Chroma
