详解:RAGFlow知识库管理和嵌入网站的方法全攻略

向量数据库大模型数据库

上一篇《一文搞懂!RAGFlow 入门教程与安装部署全流程》讲了RAGFlow的基本信息、部署、模型设置和聊天,本次我们讲解RAGFlow的知识库和嵌入网站方法。

picture.image

一、知识库

路径:菜单 知识库--》创建知识库

picture.image

点击“确定”,完成初步的创建,进入详情页面。

picture.image

1、配置

picture.image

  • PDF解析器:有2种解析器,DeepDoc使用视觉模型进行 PDF 布局分析,以更好地识别文档结构,找到标题、文本块、图像和表格的位置。 如果选择 Naive 选项,则只能获取 PDF 的纯文本。请注意该功能只适用于 PDF 文档,对其他文档不生效。
  • 嵌入模型:选择已设置好的嵌入模型。
  • 切片方法:有非常多的方法供选择,可根据实际场景选择合适的方法。比如我们可使用General,Q&A,Paper(专门处理pdf)等方法。
  • 建议文本块大小:建议的生成文本块的 token 数阈值。如果切分得到的小文本段 token 数达不到这一阈值就会不断与之后的文本段合并,直至再合并下一个文本段会超过这一阈值为止,此时产生一个最终文本块。如果系统在切分文本段时始终没有遇到文本分段标识符,即便文本段 token 数已经超过这一阈值,系统也不会生成新文本块。
  • 文本分段标识符:支持多字符作为分隔符,多字符用 `` 分隔符包裹。若配置成:\n##; 系统将首先使用换行符、两个#号以及分号先对文本进行分割,随后再对分得的小文本块按照「建议文本块大小」设定的大小进行拼装。在设置文本分段标识符前请确保理解上述文本分段切片机制。比如,我们在整理文本时,每条知识之间都使用换行符分隔。

点击“保存”后跳转到数据集界面。

2、数据集

添加数据集,上传本地文件,可选择多个文件。

picture.image

picture.image

操作过程:

  1. 上传完后,还需要手动点击解析。

  2. 解析是一个比较耗时的操作,数据量越大时间越长,所以需要一个文件解析完后,再点击另一个文件解析。

  3. 解析好后,会保存到其向量数据库。

3、示例

我们分别创建了3个知识库,论文-PDF、GPT报错-QA和中医诊断 。

picture.image

(1)《论文-PDF》的文件是《Attention Is All You Need》论文,pdf格式;知识库的配置如下:

picture.image

(2)GPT报错-QA 是Excel文档,里面就是QA问答,如下格式。

picture.image

知识库配置如下:切片方法选择 Q&A

picture.image

(3) 中医诊断是txt文本格式的数据,以换行符分隔,数据如下:

picture.image

知识库的配置如下:

picture.image

二、聊天对话

1、绑定知识库

新建对话助理的方法请看上一篇文章,只要将知识库与创建好的知识库关联上即可。

picture.image

2、聊天对话

进行对话会有如下回答,可以看到答案都是在知识库里存在的数据;并且会显示是从哪个文档里获取到的。

picture.image

三、嵌入网站

RAGFlow还提供了网页iframe嵌入和 API调用这2种形式,方便外部系统接入RAGFlow 。

1、设置API Key

路径:头像--》API-->API Key

创建新密钥,会自动创建Token。

picture.image

2、嵌入网站

路径:菜单- 聊天--》点击某一个聊天助理--》嵌入网站

picture.image

picture.image

可以看到“全屏嵌入”和“部分嵌入”,前者是iframe形式,后者的API形式的调用,API接口文档:https://ragflow.io/docs/dev/http\_api\_reference#create-session-with-chat-assistant

picture.image

LlamaIndex入门指南和RAG原理

RAG进阶:Embedding Models嵌入式模型原理和选型指南

RAG 落地必备的 1 个开源 AI 原生向量数据库 —Chroma

RAG落地实战之文本切分4种策略全解析

速看!最新版 Dify 连接 Ollama 与 vLLM 全攻略

一文搞懂!RAGFlow 入门教程与安装部署全流程

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论