6个开源的最佳本地运行大语言模型(LLM)工具

大模型向量数据库机器学习

你可以使用 图形界面工具(如 LM Studio)命令行工具(如 Ollama) 在本地尝试运行大语言模型(LLMs)。本文为你精选出 6 款适合本地运行 LLM(如 DeepSeek R1)的优秀工具。

运行大型语言模型(如 DeepSeek Chat、ChatGPT 和 Claude)通常意味着需要将数据发送到 DeepSeek、OpenAI 等 AI 模型服务商所托管的服务器。虽然这些服务在安全性方面表现良好,但一些企业仍倾向于将数据完全保留在本地,以提升隐私保障水平

本文将介绍开发者可用于本地运行与测试 LLM 的六款顶级工具 。这些工具的核心优势在于:数据永远不会离开你的设备 ,正如端到端加密[1]在通信中保护隐私一样,它们让你在本地处理文本生成、模型推理等任务。

为什么要使用本地 LLM?

picture.image

LM Studio:本地运行 DeepSeek R1

在 DeepSeek R1 惊艳发布之后,许多用户希望本地运行、测试并使用这个推理能力极强的模型[2]来解决科学、数学、编程等复杂的工作问题。很多开发者选择本地运行开源模型的核心原因是:数据共享与隐私保护的顾虑。 的确,如果你通过 DeepSeek Chat 或 DeepSeek API 使用该模型,你的数据可能会被用于模型训练

LM Studio[3] 这样的工具,在本地运行 LLM 时不会收集用户数据,也不会追踪用户的操作行为。它能确保你的所有聊天数据都保留在本地计算机上,不会被共享给任何 AI/机器学习服务器。

🔒 隐私保护:
如上方预览所示,你可以对本地 LLM 进行多轮提示,而提示数据不会离开你的本地主机 。上述示例展示了如何在 LM Studio 中运行 deepseek-r1-distill-llama-8b 模型。

⚙️ 自定义选项:
本地 LLM 支持高级配置,包括 CPU 线程数、temperature(温度)、上下文长度、GPU 设置等,功能类似于 OpenAI 的 playground。

🔐 支持与安全性:
LM Studio 提供的支持与安全性体验,可媲美 OpenAI 或 Claude 等云服务。

💰 成本与订阅:
这类工具完全免费使用 ,无需订阅月费。相比之下,使用 OpenAI 等云服务,每次 API 调用都需计费。而本地 LLM 工具让你省下所有的“按调用计费”成本。•📴 离线支持:
你可以在没有网络连接的情况下加载并调用本地大语言模型。•🌐 网络连接问题:
使用 OpenAI 等云服务时,常常会遇到网络不稳定、延迟高等连接问题,而本地 LLM 则完全不会受到网络状况影响

六款顶级且免费的本地 LLM 工具推荐

你可以根据自己的具体使用场景,从多个离线 LLM 应用中进行选择。其中有些工具对个人和商业用途都是完全免费的 ,而另一些则可能需要你在商业使用前提交授权请求。目前,多个本地 LLM 工具均支持 Mac、Windows 和 Linux 平台。以下是我们为你精选的六款最佳本地运行工具

  1. LM Studio

picture.image

LM Studio 可以运行任何格式为 gguf 的模型文件。它支持来自多个模型提供方的 gguf 格式文件,例如 DeepSeek R1[4]、Phi-3[5]、Mistral[6]和 Gemma[7] 等。要使用 LM Studio,请访问上方提供的链接,下载适用于你设备的应用程序。启动 LM Studio 后,首页会展示一系列热门 LLM 模型 ,供你下载和测试。同时,它还提供一个搜索栏 ,可以按模型提供方筛选并下载特定模型。

picture.image

当你搜索某个特定公司的模型时,界面会展示多个模型版本,这些模型根据量化程度[8]从小到大不等。LM Studio 会根据你的设备进行兼容性猜测 ,自动突出显示在该机器或平台上最可能兼容运行的模型版本

LM Studio 的核心功能

LM Studio 提供了类似于 ChatGPT 的功能和体验。它内置了多个实用特性,以下是 LM Studio 的主要功能亮点:

模型参数自定义 : 支持调整 temperature(采样温度)、最大 tokens 数、频率惩罚(frequency penalty)等参数。•聊天历史记录 : 可以保存你的提示词(prompts),方便日后重复使用。•参数说明与界面提示 :你可以将鼠标悬停在信息按钮上查看模型参数和术语解释。•跨平台支持 : LM Studio 可在 Linux、Mac 和 Windows*操作系统上使用。•设备规格检测 : LM Studio 会检测你的电脑配置(如 GPU 和内存),并显示兼容模型,从而避免下载那些在当前设备上无法运行的模型。•AI 对话与 Playground :支持使用大语言模型进行多轮对话,并可同时加载多个模型进行对比与实验。•开发者本地推理服务器 :开发者可以像使用 OpenAI API 一样,在本地搭建一个 HTTP 推理服务,供程序访问。

picture.image

本地服务器提供了示例 Curl 和 Python 客户端请求,这个功能有助于你构建 AI 应用程序,并通过 LM Studio 调用指定的大语言模型。

  
# 示例:复用你已有的 OpenAI 配置  
from openai importOpenAI  
  
# 指向本地服务器  
client =OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")  
  
completion = client.chat.completions.create(  
  model="TheBloke/Mistral-7B-Instruct-v0.1-GGUF",  
  messages=[  
{"role":"system","content":"Always answer in rhymes."},  
{"role":"user","content":"Introduce yourself."}  
],  
  temperature=0.7,  
)  
  
print(completion.choices[0].message)

通过上述示例代码,你可以复用已有的 OpenAI 配置,只需将 base\_url 改为指向你的本地主机即可。

OpenAI Python 库兼容性 : LM Studio 支持开发者导入 OpenAI 的 Python 库,并将其 base_url 指向本地服务器(localhost)。•多模型会话 : 你可以使用同一个提示词(prompt),同时选择多个模型进行比较与评估。

使用 LM Studio 的优势

这款工具对个人用户完全免费 ,并允许开发者通过内置的聊天界面和 Playground 运行大语言模型(LLM)。它拥有一个美观且易于使用的界面,内置筛选功能,同时支持通过 OpenAI 的 Python 库进行连接,无需 API 密钥

企业用户 也可以申请使用 LM Studio,但需要满足以下系统要求:Mac 用户: 需要 M1、M2、M3 芯片或更高版本; Windows 用户: 需使用支持 AVX2[9] 指令集 的处理器;对于 Intel 与 AMD[10] 用户,则需使用 **v0.2.31[11] 版本中的Vulkan 推理引擎才能运行。

  1. Jan

picture.image

jan.ai:本地运行 DeepSeek R1

你可以将 Jan[12]理解为一款支持离线运行的 开源版 ChatGPT 。它由一个用户社区共同构建,秉持用户自主拥有(user-owned)的理念。Jan 允许你在本地设备上运行如 DeepSeek R1 或 LLaMA等主流模型,无需连接互联网 。此外,使用 Jan 你仍然可以访问远程 API,例如 OpenAIGroq

Jan 的核心功能

picture.image

Jan 是一个基于 Electron 构建的桌面应用,功能与 LM Studio 类似。它通过将普通消费级电脑变为 AI 设备,让 AI 更加开放且可触达 。作为一个开源项目,开发者可以自由参与其中,为其贡献代码或扩展功能。以下是 Jan 的主要特性细节说明:

本地运行: 你可以在不连接互联网的情况下,在本地设备上运行你偏好的 AI 模型。•预装模型: 下载 Jan 后,你将获得一组预安装模型 ,可立即使用。
你也可以通过搜索来下载特定模型。•模型导入: 支持从如 Hugging Face 等平台导入模型。•免费、跨平台、开源: Jan 是 100% 免费和开源的,支持 Mac、Windows 和 Linux 操作系统。•推理参数自定义: 你可以调整模型的运行参数,包括:最大 token 数(Maximum token),temperature(温度),流式输出(stream), 频率惩罚(frequency penalty)等,所有的偏好设置、模型使用记录和运行配置都保存在本地 。•扩展支持: Jan 支持如 TensorRTInference Nitro 等扩展,用于定制与增强模型推理性能

使用 Jan 的优势

Jan 提供了一个简洁直观的界面 ,用于与 LLM 交互,同时确保所有数据与计算过程完全保留在本地设备中 。它已内置超过 70 个大语言模型 ,用户可直接使用,无需额外配置,大大降低了入门门槛。这些“即用型模型”也使得你可以轻松接入如 OpenAI 和 Mistral 等远程 API 进行对话或测试。此外,Jan 拥有活跃的社区支持,包括: GitHub ,Discord ,Hugging Face 。你可以在这些平台上找到教程、交流经验或寻求帮助。不过需要注意的是,和大多数本地 LLM 工具一样,Jan 在 Apple Silicon(M 系列芯片)Mac 上的运行速度明显快于 Intel 处理器设备。

  1. Llamafile

Llamafile 是由 Mozilla 支持的开源项目,致力于通过快速的 CPU 推理方式,在无需联网的环境下 ,让所有人都能访问并使用开源 AI。它将大语言模型(LLMs)转换为跨平台可执行格式(ELF)文件 ,你只需一个可执行文件即可运行模型,这使其成为将 AI 集成进应用程序的最佳选项之一

Llamafile 的工作原理

Llamafile 的设计初衷是: 将 LLM 模型权重转换为多个平台上的可执行程序,这些程序无需安装 ,即可直接在如下架构上运行:Windows ,macOS ,Linux ,Intel ,ARM ,FreeBSD 等系统与平台。在底层实现中,Llamafile 使用 tinyBLAST ,使其在 Windows 等操作系统上运行时无需依赖 SDK

Llamafile 的核心功能

可执行文件: 与 LM Studio 和 Jan 不同,Llamafile 只需一个可执行文件 即可运行 LLM 模型。•兼容已有模型工具: Llamafile 支持直接使用像 OllamaLM Studio 等工具中的现有模型文件。•模型访问与创建: 你可以访问来自 OpenAI、Mistral、Groq 等提供方的主流模型,也可以从零创建自定义模型 。•模型格式转换: 你可以使用一条命令将主流 LLM 格式转换为 .llamafile 可执行文件格式,将.gguf模型文件转换为 .llamafile 格式。例如:

  
llamafile-convert mistral-7b.gguf

picture.image

开始使用 Llamafile

要安装 Llamafile,请前往 Hugging Face 官网,在导航栏中选择 Models(模型) ,然后搜索 Llamafile 。你也可以从以下链接直接安装你偏好的量化版本:

🔗[https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile/tree/main](https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile/tree/main)

📌 注意: 量化数字越大,模型响应质量越好。如上方示意图所示,本文使用的是 Meta-Llama-3.1-8B-Instruct.Q6\_K.llamafile,其中 Q6 表示量化等级。

步骤 1:下载 Llamafile

点击上述链接中的任意下载按钮,获取你想要的模型版本。如果你设备中已安装 wget[13] 工具,也可以使用以下命令下载:

wget https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile/blob/main/Meta-Llama-3.1-8B-Instruct.Q6\_K.llamafile

请将上述 URL 替换为你希望下载的具体版本地址。

步骤 2:将 Llamafile 设置为可执行文件

下载完特定版本的 Llamafile 后,请进入该文件所在目录,并使用以下命令将其设为可执行文件:

chmod +x Meta-Llama-3.1-8B-Instruct.Q6\_K.llamafile

步骤 3:运行 Llamafile

在文件名前加上./前缀,即可启动 Llamafile:./Meta-Llama-3.1-8B-Instruct.Q6\_K.llamafile。 运行成功后,Llamafile 应用将在以下地址提供服务:👉 http://127.0.0.1:8080

你现在可以通过该页面运行和交互多个本地大语言模型(LLMs)。

picture.image

使用 Llamafile 的优势

Llamafile 通过让 LLM 能够在消费级 CPU 上轻松运行,帮助实现 AI 和机器学习的民主化。与其他本地 LLM 应用(如 Llama 和 cpp)相比 ,Llamafile 提供了更快的提示词处理速度,尤其在游戏电脑上具有更好的性能表现。由于其运行速度快,Llamafile 是处理长文本摘要和大文档分析的极佳选择。它运行在 100% 离线和私有环境 中,因此用户的数据不会与任何 AI 服务器或 API 共享。像 Hugging Face 这样的机器学习社区支持 Llamafile 格式,这让用户可以轻松搜索和下载相关模型 。此外,它还有一个活跃的开源社区 ,不断对其进行开发和功能扩展。

  1. GPT4ALL

picture.image

GPT4ALL 构建的核心理念是:隐私优先、安全性高、无需联网 。用户可以在 Mac、Windows 和 Ubuntu 上安装该工具。与 Jan 或 LM Studio 相比,GPT4ALL 拥有更多的月度下载量、GitHub 星标数和活跃用户

GPT4ALL 的核心功能

GPT4ALL 可以在主流消费级硬件上运行 LLM 模型,包括 Mac 的 M 系列芯片、AMD GPU 以及 NVIDIA 显卡。
以下是它的主要功能:

隐私优先: 将私密的聊天内容与提示词(prompts)完全保存在本地设备中。•无需联网: GPT4ALL 可在完全离线的环境中工作。•模型探索: 该功能允许开发者浏览并下载各种 LLM 模型进行实验。你可以从如 LLama、Mistral 等主流模型中,选择多达约 1000 个开源模型 。•本地文档读取: 允许本地 LLM 访问你的本地敏感数据 (如 .pdf.txt 文件),无需联网,数据不会离开设备 。•自定义选项: 提供丰富的聊天机器人[14]参数调整功能, 如 temperature(温度)、batch size(批处理大小)、context length(上下文长度)等。•企业版: GPT4ALL 提供适用于企业的版本,包含安全保障、技术支持,以及基于设备的授权许可,帮助企业引入本地 AI 能力。

开始使用 GPT4ALL

要开始使用 GPT4ALL 在本地运行大语言模型,请下载[15]与你的操作系统匹配的对应版本。

使用 GPT4ALL 的优势

除了 Ollama 以外,GPT4ALL 拥有最多的 GitHub 贡献者数量,以及大约 25 万月活跃用户(数据来源:https://www.nomic.ai/gpt4all),在同类工具中处于领先地位。

该应用会收集匿名的用户使用数据与聊天分享信息 ,但用户可以自主选择是否开启或关闭该功能 。使用 GPT4ALL,开发者可以受益于其庞大的用户群体,以及活跃的 GitHub 社区 和 Discord 社区支持。

  1. Ollama

picture.image

使用 Ollama ,你可以轻松创建本地聊天机器人,无需连接 OpenAI 等 API 服务 。由于所有操作都在本地运行,你无需支付任何订阅费用或 API 调用成本

Ollama 的核心功能

模型自定义: Ollama 支持将 .gguf 模型文件转换后运行, 可通过以下命令执行模型:ollama run modelname。•模型库: Ollama 提供了大量可用模型,用户可以在 ollama.com/library[16] 上进行试用。•模型导入: Ollama 支持从 PyTorch[17] 导入模型。•社区集成: Ollama 可无缝集成至多种网页和桌面应用,如 Ollama-SwiftUI[18]、HTML UI[19]、Dify.ai[20]等。•数据库连接: Ollama 支持连接多种数据平台,可用于本地知识库问答、数据推理[21]等任务。•移动端集成: 基于 SwiftUI 的应用 Enchanted[22] ,将 Ollama 拓展至 iOS、macOS 和 visionOS平台。Maid[23]是一个基于 Flutter*的跨平台应用,支持本地加载 .gguf 模型文件并提供推理接口。

开始使用 Ollama

首次使用 Ollama 时,请访问 https://ollama.com, 下载与你设备系统匹配的版本。

Ollama 支持安装在 Mac、Linux 或 Windows 系统上。

安装完成后,你可以在终端中运行以下命令查看详细信息:

  
ollama

要运行特定的大语言模型(LLM),你需要先使用如下命令进行下载:

ollama pull modelname,其中 modelname 是你希望安装的模型名称。你可以在 Ollama 的 GitHub[24] 页面中查看一些可下载的示例模型。pull命令也可用于更新模型版本,Ollama 会只拉取有变更的部分内容(增量更新)。

下载完成后,假设你下载了模型 llama3.1,只需在命令行中运行以下命令即可启动该模型:ollama run llama3.1

picture.image

在上述示例中,我们向 llama3.1 模型提示一个关于物理中功和能量的问题。

picture.image

使用 Ollama 的优势

Ollama 在 GitHub 上拥有超过 200 位贡献者,并保持活跃更新。在前文提到的所有开源本地 LLM 工具中,Ollama 拥有最多的贡献者,且具备更强的可扩展性。

  1. LLaMa.cpp

picture.image

LLaMa.cpp[25] 是许多本地 LLM 工具(如 Ollama)背后的底层推理引擎(inference engine)。LLaMa.cpp 支持主流大语言模型(LLM)推理,具备极简配置要求 ,并在各类硬件上实现了出色的本地性能表现。它同样也可以运行于云环境中。

LLaMa.cpp 的核心功能

安装简便(Setup): 安装非常简单,只需一条命令即可完成安装。•高性能(Performance): 无论在本地硬件还是云端,LLaMa.cpp 的推理性能都非常优秀。•支持模型广泛(Supported Models): 支持多种主流 LLM 模型,如: Mistral 7B[26] ,Mixtral MoE[27] ,DBRX[28] ,Falcon[29],以及更多开源大模型[30]。•支持前端 AI 工具(Frontend AI Tools): LLaMa.cpp 支持多种开源的 LLM 可视化 UI 工具,例如: MindWorkAI/AI-Studio[31](基于 FSL-1.1 + MIT 许可), iohub/collama[32] 等。

开始使用 LLaMa.cpp

要使用 llama.cpp 运行你的第一个本地 LLM 模型,你可以通过以下命令进行安装:

  
brew install llama.cpp

接下来,从 Hugging Face 或其他平台下载你想运行的模型。例如,可以从下方链接下载以下模型,并保存到你的设备上:

https://huggingface.co/MaziyarPanahi/Mistral-7B-Instruct-v0.3-GGUF/resolve/main/Mistral-7B-Instruct-v0.3.Q4\_K\_M.gguf

使用你喜欢的命令行工具(如 Terminal),cd 到你刚下载的.gguf 模型文件所在目录,并运行以下命令:

  
llama-cli --color \  
-m Mistral-7B-Instruct-v0.3.Q4_K_M.gguf \  
-p "Write a short intro about SwiftUI"

总结来说,首先你需要调用 LLaMa 的 CLI 工具,并设置 --color 等标志位。其中,-m 参数用于指定你要使用的模型路径,而 -p 参数则用于输入你希望用于指令模型的提示词(prompt)。

运行以上命令后,终端中将会输出类似以下示例的回答结果。

picture.image

本地 LLM 的使用场景

在本地运行大语言模型(LLMs)对于那些希望深入理解模型性能与原理的开发者来说非常有帮助。本地 LLM 可用于查询私密文档或技术资料 ,从而确保这些文档的信息不会被上传到任何云端 AI API 。在无网络环境网络信号不佳的地区 ,本地 LLM 也能正常工作,具有很高实用价值。

在 远程医疗[33]场景中,出于隐私保护的考虑,本地 LLM 可以在无需上传至任何 AI API 提供商的前提下,自动整理和分类患者文档

如何评估 LLM 的本地运行性能

在本地使用某个大语言模型前,了解其性能表现对于获取可靠的输出结果是至关重要的。以下是几种常见的性能评估方法:

训练数据(Training): 模型是基于什么数据集训练的?•微调能力(Fine-tuning): 模型是否能够针对特定任务进行微调或定制,是否能适应某一专属领域?•学术研究背景(Academic Research): 该模型是否有配套的学术论文或研究成果 支撑?

你可以通过以下优质资源来查找上述信息:Hugging Face[34] ,Arxiv.org[35]。此外,Open LLM LeaderboardLMSYS Chatbot Arena 也提供了丰富的模型信息、评估基准和性能对比数据。

本地 LLM 工具总结

正如本文所述,选择在本地运行大语言模型(如 DeepSeek R1)有多种动因。 例如,在远程医疗应用中,如果你不希望将数据集通过互联网发送至 AI API 提供商,你可以选择对模型进行微调[36],使其适用于特定任务。许多开源的图形界面(GUI)本地 LLM 工具 ,如 LM Studio和 Jan, 提供了直观的前端界面,方便用户在无需订阅 OpenAI 或 Claude 等服务的情况下,配置和测试大语言模型。你也了解了功能强大的命令行 LLM 工具,如 Ollama 和 LLaMa.cpp,它们能帮助你在本地、离线运行和测试模型 。如果你希望将 AI 聊天集成到自己的应用中,可以查看 Stream 的 AI Chatbot [37]解决方案。你也可以了解如何本地使用 DeepSeek R1[38],以及通过像 Cerebras[39]这样的快速 LLM 推理平台调用它。

更多信息

山行AI希望本文对你有所帮助,由笔者翻译整理自:https://medium.com/@amosgyamfi/the-6-best-llm-tools-to-run-models-locally-eedd0f7c2bbd,请帮忙点赞、转发、评论,谢谢!

References

[1] 端到端加密:https://getstream.io/blog/end-to-end-encryption/
[2]推理能力极强的模型:https://getstream.io/blog/reasoning-llms/
[3]LM Studio:https://lmstudio.ai/
[4]DeepSeek R1:https://huggingface.co/deepseek-ai/DeepSeek-R1
[5]Phi-3:https://huggingface.co/docs/transformers/main/en/model\_doc/phi3
[6]Mistral:https://mistral.ai/
[7]Gemma:https://deepmind.google/models/gemma
[8]量化程度:https://huggingface.co/docs/optimum/en/concept\_guides/quantization
[9]AVX2:https://edc.intel.com/content/www/us/en/design/ipla/software-development-platforms/client/platforms/alder-lake-desktop/12th-generation-intel-core-processors-datasheet-volume-1-of-2/009/intel-advanced-vector-extensions-2-intel-avx2/
[10]AMD:https://www.amd.com/en/support/download/drivers.html
[11]v0.2.31:https://lmstudio.ai/
[12]Jan:https://jan.ai/
[13]wget:https://www.gnu.org/software/wget/
[14]聊天机器人:https://getstream.io/blog/llm-chatbot-docs/
[15]下载:https://www.nomic.ai/gpt4all
[16]ollama.com/library:https://ollama.com/library
[17]PyTorch:https://pytorch.org/
[18]Ollama-SwiftUI:https://github.com/kghandour/Ollama-SwiftUI
[19]HTML UI:https://github.com/rtcfirefly/ollama-ui
[20]Dify.ai:https://github.com/rtcfirefly/ollama-ui
[21]数据推理:https://github.com/mindsdb/mindsdb/blob/main/mindsdb/integrations/handlers/ollama\_handler/README.md
[22]Enchanted:https://github.com/AugustDev/enchanted
[23]Maid:https://github.com/Mobile-Artificial-Intelligence/maid
[24]GitHub:https://github.com/ollama/ollama
[25]LLaMa.cpp:https://github.com/ggerganov/llama.cpp
[26]Mistral 7B:https://huggingface.co/mistralai/Mistral-7B-v0.1
[27]Mixtral MoE:https://huggingface.co/models?search=mistral-ai%2FMixtral
[28]DBRX:https://huggingface.co/databricks/dbrx-instruct
[29]Falcon:https://huggingface.co/models?search=tiiuae%2Ffalcon
[30]更多开源大模型:https://github.com/ggerganov/llama.cpp?tab=readme-ov-file#description
[31]MindWorkAI/AI-Studio:https://github.com/MindWorkAI/AI-Studio
[32]iohub/collama:https://github.com/iohub/coLLaMA
[33]远程医疗:https://getstream.io/blog/telemedicine-app-development/
[34]Hugging Face:https://huggingface.co
[35]Arxiv.org:https://arxiv.org
[36]微调:https://getstream.io/chat/solutions/healthcare/
[37]AI Chatbot :https://getstream.io/chat/solutions/ai-integration/
[38]DeepSeek R1:https://getstream.io/blog/local-deepseek-r1/
[39]Cerebras: https://www.cerebras.ai/

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论