实操Deepseek接入个人知识库

向量数据库大模型机器学习

picture.image

向AI转型的程序员都关注公众号 机器学习AI算法工程

为什么要尝试给DeepSeek添加本地知识库呢?或许在我们OA系统中会出现一个AI小助手,我们会问它差旅费报销流程怎么走、合同流程怎么走、负责某某业务的同事的联系方式等等。当然,这应该是最简单的应用场景。时代变了!以前需要找好多个部门的专业人士了解的信息,未来用AI工具就能快速获取,并且是提炼总结后的内容。要实现这些功能,必然需要提供相关的资料内容,这就得有一个知识库。

一、Cherry-Studio版接入

先说明下文中的这种方式一般

适合用于个人使用

,企业内要使用,建议使用Docker+Dify去部署使用。

  要接入本地模型的话,需要先下载和部署好本地模型, 这个是本地部署Deepseek的教程:

本地部署 DeepSeek:小白也能轻松搞定!

如果你有API key的话也可以调在线模型,或者你本地电脑下载了其他模型的话,也可以进行切换对应模型

  • 下载安装Cherry-Studio

  部署完本地Deepseek后就使用Cherry-Studio进行创建知识库,首先先下载Cherry-Studio,官网地址:https://cherry-ai.com/

  下载好后进行安装Cherry-Studio。

  • 下载嵌入模型BGE-M3

  进入Ollama官网:https://ollama.com/search,点击Models后输入 BGE

搜索

picture.image

  

选择进入BGE后,点击复制下载命令

picture.image

  

打开CMD终端命令,粘贴下载命令,回车下载

picture.image

picture.image

  • 配置CherryStudio

  

打开CherryStudio客户端,点击设置-->打开Ollama-->选择模型

picture.image

  

将Deepseek和BGE模型添加进去

picture.image

  • 添加本地知识库

  

添加知识库,嵌入模型有多个的话自己选择一个好用的就可以,这里示例是BGE-M3

picture.image

  

将自己的本地文件添加到知识库中,这里除了可以添加文件,还可以设置本地的文件目录或者网址、网站、笔记等作为知识库的来源。

picture.image

  

添加好本地知识库后,开始提问,我这里的测试知识库文件是txt的,内容也很少,提问小李的电话是多少。

picture.image

picture.image

   选好知识库后一定要 变亮 了才是选择上了,亮了后就回车提问。

picture.image

  

根据我的提问,模型从本地知识库中检索回答出来了正确答案。

picture.image

  

到了这里可能会有人很兴奋,立马心血来潮就想建立一个自己的私有知识库,等等,先别急,我再给你看下另外一个测试效果。

这里我是用的信息管理工程师的官方教材,比如:这里信息化政策法规和标准规范6个要素,我就针对这个提问。

picture.image

  

这里我已经上传好了本地文件

picture.image

  

提问:信息化政策法规和标准规范6个要素是什么?

picture.image

picture.image

  发现回答的和本地知识库的没有一点关联性。看到这里很多人很失望,但是原因是什么呢?

  不是大模型不行,而是我们部署的 大模型参数太低 ,比如我这个测试的大模型就是最小的1.5B的,所以它的智商就在那里。我看了网上其他一些人的测试,如果要效果比较好的,就需要32B或者70B的效果就会好很多,但是也不要期待值过高,本地版始终很难和Deepseek官方版那么流畅和智能,即使你是用的671B的也是一样,因为这个还是需要专业人士不断地进行一些针对性的调优和校正。

  当然如果是个人或者企业在资源充足以及要求隐私性比较强的情况下还是可以在本地部署一个32B以上的进行使用的,一些简单的需求它还是可以处理的,如果是671B全参数完整版,那还是很厉害的。还有Cherry-Studio这个工具还集成了很多其他的AI模型,如果你有API key的话也可以调在线模型,或者你本地电脑下载了其他模型的话,也可以进行切换对应模型,具体功能大家可以自己摸索。

二.

AnythingLLM 版接入

AnythingLLM是一个全栈应用程序,您可以使用现成的商业大语言模型或流行的开源大语言模型,再结合向量数据库解决方案构建一个私有ChatGPT,不再受制于人:您可以本地运行,也可以远程托管,并能够与您提供的任何文档智能聊天。AnythingLLM将您的文档划分为称为 workspaces (工作区)的对象。工作区的功能类似于线程,同时增加了文档的容器化。工作区可以共享文档,但工作区之间的内容不会互相干扰或污染,因此您可以保持每个工作区的上下文清晰。

AnythingLLM在它的 官网 (https://anythingllm.com/) 上下载对应的系统版本安装即可。表面上看它是一个桌面应用程序,实际是可以部署到自己服务器上作为一个BS应用来使用。

Ollama

AnythingLLM支持多种大语言模型,因为前一段时间在本地安装了Ollama部署了deepseek R1的14b版本。

完整过程

打开AnythingLLM,左边是工作区列表,右边则是对话窗口。知识库的应用是以工作区为维度进行的,要创建本地知识库就需要先创建一个工作区,点击右侧“+新工作区”按钮,输入工作区名称,工作区的创建就完成了,主分享一下工作区设置。在新建的工作区右侧有一个设置按钮(齿轮),然后进入到如下界面:

picture.image

补一下坑:在启动AnythingLLM前,先完成Ollama的安装启动,并且运行自己喜欢的模型,否则AnythingLLM工作区配置上无法自动读取到聊天模型列表。配置完成后一定记得点一下保存按钮。

接下来就是知识投喂了,也就是怎么向知识库中添加资料。AnythingLLM的资料管理主要有两个途径:一是上传相关的文档,主要支持文本文件、csv以及音频文件等;二是直接添加URL。资料上传的入口在工作区右侧有一个上传按钮,点击后会出现资料管理的界面:

picture.image

资料添加后还需要移动到工作区

picture.image

点击保存并嵌入

picture.image

还没完,下图中的图钉按钮要点一下。

picture.image

然后就可以开始聊天了。点击工作区下方的聊天记录或“New Thread”按钮,在右侧的对话框中输入我们的需求来进行验证。

我先测试了一下PDF内容查询,由于电脑配置比较低,14b有点卡,切换到1.5b试了试,效果居然还可以!结果如下:

picture.image

再测试了一下网页内容,确实能读取到相关信息,上传的URL是npm上我自己的一个package,它不仅能做介绍、抄示例代码,居然还添油加醋的讲了一段:

picture.image

至此简单的本地知识库体验就完成了,虽然这还达不到真正投入使用要求,但也许未来我们可以用这种方式做一个团队知识管理工具,将公司技术沉淀与AI代码编码能力相结合。

机器学习算法AI大数据技术

搜索公众号添加: datanlp

picture.image

长按图片,识别二维码

阅读过本文的人还看了以下文章:

实时语义分割ENet算法,提取书本/票据边缘

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主

《大语言模型》PDF下载

动手学深度学习-(李沐)PyTorch版本

YOLOv9电动车头盔佩戴检测,详细讲解模型训练

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

《深度学习:基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加: datayx

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论