Quivr 基于Supabase构建本地知识库 - 文章 - 开发者社区

picture.image

点击上方蓝字关注我们

一、Quivr介绍

picture.image

Quivr可以帮助把你的本地文件向量化，然后存储到云端，随时可以查询对话。文档格式支持Text、Markdown、 PDF、音频和视频。GPT端支持ChatGPT-3/4和Claude。向量数据库使用的是Supabase ，音视频是基于Whisper的API处理成文本的，主要语言是Python开发。

picture.image

Quivr可以将我们的本地文件存储在向量数据库中，然后存储到云端，随时可以查询对话。使用 OpenAI 的 GPT-3/4 或者Claude 100k对其进行查询。

Quivr是一个功能强大而高效的数据管理工具。它可以轻松地处理各种类型的数据，无论是文本、图像还是代码片段等等。

Quivr兼容多种文件格式，包括文本、Markdown、PDF、Powerpoint、Excel、Word、音频和视频，使其成为一个非常适合多样化需求的数据管理工具。

Quivr采用先进的人工智能技术，可帮助您生成和检索信息，让您的数据管理更加智能和高效。这款设计迅捷高效的工具确保您在访问和使用数据时得到最快的响应速度。Quivr的速度和效率会在日常工作中让您受益无穷。

您的数据始终处于您的掌控之下，Quivr保证您的数据安全性，让您放心使用。

此外，Quivr开源且免费使用，让您更加自由地使用这个优秀的工具。

项目地址：https://github.com/StanGirard/quivr

📢注意：在公开的演示系统中，因为功能访问受到限制。只能使用 GPT-3.5-turbo 模型并上传最大 1Mb 的文件。如果需要使用更多模型并上传更大的文件，需要自行部署 Quivr托管。

二、Quivr特性

存储任何文件： Quivr可以处理几乎所有类型的数据。文本、图像、代码片段等等，您只需要说出来。
生成式人工智能 ：Quivr使用先进的人工智能技术来帮助您生成和检索信息。
快速高效 ：Quivr专为速度和效率而设计，以确保您能够尽快访问自己的数据。
安全可靠 ：您的数据始终在您的控制下。
兼容文件格式 ：TXT、CSV、MD、MARKDOWN、M4A、MP3、WEBM、MP4、MPGA、WAV、MPEG、PDF、HTML、PPTX、DOCX（每个文件限制200M）
开源免费 ：Quivr是开源的，并且可以免费使用。

三、Quivr演示

接下来我们会基于GPT-3.5、GPT-4、Claude 100K三种GPT模型来演示Quivr上传本地文件到向量数据库并及时进行文本内容检索。

3.1、基于GPT-3.5模型演示

picture.image

3.2、基于GPT-4模型演示

picture.image

3.3、基于Claude 100k context模型演示

picture.image

四、Quivr部署

4.1、前提条件

picture.image

在继续部署之前，请确保已安装以下内容:

Docker
Docker Compose

您还需要 Supabase 账户，以获得以下内容：

新建Supabase项目

picture.image

Supabase项目API密钥
Supabase项目URL

4.2、安装Quivr

picture.image

4.2.1、克隆存储库

git clone git@github.com:StanGirard/Quivr.git && cd Quivr

因为包含隐藏文件，可以使用 ls -alh 命令查看所有文件

picture.image

4.2.2、复制 .XXXXX\_env 文件

cp .backend_env.example backend/.env
cp .frontend_env.example frontend/.env

4.2.3、更新 frontend/.env 文件

NEXT_PUBLIC_ENV=local
NEXT_PUBLIC_BACKEND_URL=http://localhost:5050
NEXT_PUBLIC_SUPABASE_URL="XXXXXX"
NEXT_PUBLIC_SUPABASE_ANON_KEY="XXXXXXX"

4.2.4、更新 backend/.env 文件

SUPABASE_URL=XXXXX
SUPABASE_SERVICE_KEY=eyXXXXX
OPENAI_API_KEY=sk-XXXXXX
ANTHROPIC_API_KEY=XXXXXX
JWT_SECRET_KEY=Found in Supabase settings in the API tab
AUTHENTICATE="true"

请注意，supabase_url在您的Supabase仪表板下的项目设置-> API中对应的Project URL，supabase\_service\_key在您的Supabase仪表板下的项目设置-> API中找到。使用“Project API keys”部分中找到的anon public键。您 JWT\_SECRET\_KEY可以在 Project Settings -> JWT Settings -> JWT Secret 下的 supabase 设置中找到。

picture.image

4.2.5、创建Supabase数据库和表

通过Web界面（SQL编辑器->“新查询”）在Supabase数据库上运行以下迁移脚本

picture.image


        
create extension if not exists vector;  
  
-- Create a table to store your documents  
create table if not exists vectors (  
id bigserial primary key,  
user_id text, -- new column added here  
content text, -- corresponds to Document.pageContent  
metadata jsonb, -- corresponds to Document.metadata  
embedding vector(1536) -- 1536 works for OpenAI embeddings, change if needed  
);  
  
CREATE OR REPLACE FUNCTION match_vectors(query_embedding vector(1536), match_count int, p_user_id text) -- user\_id changed to p\_user\_id here  
    RETURNS TABLE(  
        id bigint,  
        user_id text, -- new column added here  
        content text,  
        metadata jsonb,  
        -- we return matched vectors to enable maximal marginal relevance searches  
        embedding vector(1536),  
        similarity float)  
    LANGUAGE plpgsql  
    AS $$  
    # variable_conflict use_column  
BEGIN  
    RETURN query  
    SELECT  
        id,  
        user_id, -- new column added here  
        content,  
        metadata,  
        embedding,  
        1 -(vectors.embedding <=> query_embedding) AS similarity  
    FROM  
        vectors  
    WHERE vectors.user_id = p_user_id -- filter changed here  
    ORDER BY  
        vectors.embedding <=> query_embedding  
    LIMIT match_count;  
END;  
$$;

create table
stats (
-- A column called "time" with data type "timestamp"
time timestamp,
-- A column called "details" with data type "text"
chat boolean,
embedding boolean,
details text,
metadata jsonb,
-- An "integer" primary key column called "id" that is generated always as identity
id integer primary key generated always as identity
);

-- Create a table to store your summaries
create table if not exists summaries (
id bigserial primary key,
document_id bigint references vectors(id),
content text, -- corresponds to the summarized content
metadata jsonb, -- corresponds to Document.metadata
embedding vector(1536) -- 1536 works for OpenAI embeddings, change if needed
);

CREATE OR REPLACE FUNCTION match_summaries(query_embedding vector(1536), match_count int, match_threshold float)
RETURNS TABLE(
id bigint,
document_id bigint,
content text,
metadata jsonb,
-- we return matched vectors to enable maximal marginal relevance searches
embedding vector(1536),
similarity float)
LANGUAGE plpgsql
AS $$
# variable_conflict use_column
BEGIN
RETURN query
SELECT
id,
document_id,
content,
metadata,
embedding,
1 -(summaries.embedding <=> query_embedding) AS similarity
FROM
summaries
WHERE 1 - (summaries.embedding <=> query_embedding) > match_threshold
ORDER BY
summaries.embedding <=> query_embedding
LIMIT match_count;
END;