6个开源的最佳本地运行大语言模型（LLM）工具

你可以使用 图形界面工具（如 LM Studio） 或 命令行工具（如 Ollama） 在本地尝试运行大语言模型（LLMs）。本文为你精选出 6 款适合本地运行 LLM（如 DeepSeek R1）的优秀工具。

运行大型语言模型（如 DeepSeek Chat、ChatGPT 和 Claude）通常意味着需要将数据发送到 DeepSeek、OpenAI 等 AI 模型服务商所托管的服务器。虽然这些服务在安全性方面表现良好，但一些企业仍倾向于将数据完全保留在本地，以提升隐私保障水平 。

本文将介绍开发者可用于本地运行与测试 LLM 的六款顶级工具 。这些工具的核心优势在于：数据永远不会离开你的设备 ，正如端到端加密[1]在通信中保护隐私一样，它们让你在本地处理文本生成、模型推理等任务。

为什么要使用本地 LLM？

picture.image

LM Studio：本地运行 DeepSeek R1

在 DeepSeek R1 惊艳发布之后，许多用户希望本地运行、测试并使用这个推理能力极强的模型[2]来解决科学、数学、编程等复杂的工作问题。很多开发者选择本地运行开源模型的核心原因是：数据共享与隐私保护的顾虑。 的确，如果你通过 DeepSeek Chat 或 DeepSeek API 使用该模型，你的数据可能会被用于模型训练 。

像 LM Studio[3] 这样的工具，在本地运行 LLM 时不会收集用户数据，也不会追踪用户的操作行为。它能确保你的所有聊天数据都保留在本地计算机上，不会被共享给任何 AI/机器学习服务器。

•🔒 隐私保护：
如上方预览所示，你可以对本地 LLM 进行多轮提示，而提示数据不会离开你的本地主机 。上述示例展示了如何在 LM Studio 中运行 deepseek-r1-distill-llama-8b 模型。

•⚙️ 自定义选项：
本地 LLM 支持高级配置，包括 CPU 线程数、temperature（温度）、上下文长度、GPU 设置等，功能类似于 OpenAI 的 playground。

•🔐 支持与安全性：
LM Studio 提供的支持与安全性体验，可媲美 OpenAI 或 Claude 等云服务。

•💰 成本与订阅：
这类工具完全免费使用 ，无需订阅月费。相比之下，使用 OpenAI 等云服务，每次 API 调用都需计费。而本地 LLM 工具让你省下所有的“按调用计费”成本。•📴 离线支持：
你可以在没有网络连接的情况下加载并调用本地大语言模型。•🌐 网络连接问题：
使用 OpenAI 等云服务时，常常会遇到网络不稳定、延迟高等连接问题，而本地 LLM 则完全不会受到网络状况影响 。

六款顶级且免费的本地 LLM 工具推荐

你可以根据自己的具体使用场景，从多个离线 LLM 应用中进行选择。其中有些工具对个人和商业用途都是完全免费的 ，而另一些则可能需要你在商业使用前提交授权请求。目前，多个本地 LLM 工具均支持 Mac、Windows 和 Linux 平台。以下是我们为你精选的六款最佳本地运行工具 ：

LM Studio

picture.image

LM Studio 可以运行任何格式为 gguf 的模型文件。它支持来自多个模型提供方的 gguf 格式文件，例如 DeepSeek R1[4]、Phi-3[5]、Mistral[6]和 Gemma[7] 等。要使用 LM Studio，请访问上方提供的链接，下载适用于你设备的应用程序。启动 LM Studio 后，首页会展示一系列热门 LLM 模型 ，供你下载和测试。同时，它还提供一个搜索栏 ，可以按模型提供方筛选并下载特定模型。

picture.image

当你搜索某个特定公司的模型时，界面会展示多个模型版本，这些模型根据量化程度[8]从小到大不等。LM Studio 会根据你的设备进行兼容性猜测 ，自动突出显示在该机器或平台上最可能兼容运行的模型版本 。

LM Studio 的核心功能

LM Studio 提供了类似于 ChatGPT 的功能和体验。它内置了多个实用特性，以下是 LM Studio 的主要功能亮点：

•模型参数自定义 ：支持调整 temperature（采样温度）、最大 tokens 数、频率惩罚（frequency penalty）等参数。•聊天历史记录 ：可以保存你的提示词（prompts），方便日后重复使用。•参数说明与界面提示 ：你可以将鼠标悬停在信息按钮上查看模型参数和术语解释。•跨平台支持 ： LM Studio 可在 Linux、Mac 和 Windows*操作系统上使用。•设备规格检测 ： LM Studio 会检测你的电脑配置（如 GPU 和内存），并显示兼容模型，从而避免下载那些在当前设备上无法运行的模型。•AI 对话与 Playground ：支持使用大语言模型进行多轮对话，并可同时加载多个模型进行对比与实验。•开发者本地推理服务器 ：开发者可以像使用 OpenAI API 一样，在本地搭建一个 HTTP 推理服务，供程序访问。

picture.image

本地服务器提供了示例 Curl 和 Python 客户端请求，这个功能有助于你构建 AI 应用程序，并通过 LM Studio 调用指定的大语言模型。

  
# 示例：复用你已有的 OpenAI 配置  
from openai importOpenAI  
  
# 指向本地服务器  
client =OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")  
  
completion = client.chat.completions.create(  
  model="TheBloke/Mistral-7B-Instruct-v0.1-GGUF",  
  messages=[  
{"role":"system","content":"Always answer in rhymes."},  
{"role":"user","content":"Introduce yourself."}  
],  
  temperature=0.7,  
)  
  
print(completion.choices[0].message)

通过上述示例代码，你可以复用已有的 OpenAI 配置，只需将 base\_url 改为指向你的本地主机即可。

•OpenAI Python 库兼容性 ： LM Studio 支持开发者导入 OpenAI 的 Python 库，并将其 base_url 指向本地服务器（localhost）。•多模型会话 ：你可以使用同一个提示词（prompt），同时选择多个模型进行比较与评估。

使用 LM Studio 的优势

这款工具对个人用户完全免费 ，并允许开发者通过内置的聊天界面和 Playground 运行大语言模型（LLM）。它拥有一个美观且易于使用的界面，内置筛选功能，同时支持通过 OpenAI 的 Python 库进行连接，无需 API 密钥 。

企业用户 也可以申请使用 LM Studio，但需要满足以下系统要求：Mac 用户： 需要 M1、M2、M3 芯片或更高版本； Windows 用户： 需使用支持 AVX2[9] 指令集的处理器；对于 Intel 与 AMD[10] 用户，则需使用 **v0.2.31[11] 版本中的Vulkan 推理引擎才能运行。

picture.image

jan.ai：本地运行 DeepSeek R1

你可以将 Jan[12]理解为一款支持离线运行的 开源版 ChatGPT 。它由一个用户社区共同构建，秉持用户自主拥有（user-owned）的理念。Jan 允许你在本地设备上运行如 DeepSeek R1 或 LLaMA等主流模型，无需连接互联网 。此外，使用 Jan 你仍然可以访问远程 API，例如 OpenAI 和 Groq 。

Jan 的核心功能

picture.image

Jan 是一个基于 Electron 构建的桌面应用，功能与 LM Studio 类似。它通过将普通消费级电脑变为 AI 设备，让 AI 更加开放且可触达 。作为一个开源项目，开发者可以自由参与其中，为其贡献代码或扩展功能。以下是 Jan 的主要特性细节说明：

•本地运行： 你可以在不连接互联网的情况下，在本地设备上运行你偏好的 AI 模型。•预装模型： 下载 Jan 后，你将获得一组预安装模型 ，可立即使用。
你也可以通过搜索来下载特定模型。•模型导入： 支持从如 Hugging Face 等平台导入模型。•免费、跨平台、开源： Jan 是 100% 免费和开源的，支持 Mac、Windows 和 Linux 操作系统。•推理参数自定义： 你可以调整模型的运行参数，包括：最大 token 数（Maximum token），temperature（温度），流式输出（stream），频率惩罚（frequency penalty）等，所有的偏好设置、模型使用记录和运行配置都保存在本地 。•扩展支持： Jan 支持如 TensorRT 和 Inference Nitro 等扩展，用于定制与增强模型推理性能 。

使用 Jan 的优势

Jan 提供了一个简洁直观的界面 ，用于与 LLM 交互，同时确保所有数据与计算过程完全保留在本地设备中 。它已内置超过 70 个大语言模型 ，用户可直接使用，无需额外配置，大大降低了入门门槛。这些“即用型模型”也使得你可以轻松接入如 OpenAI 和 Mistral 等远程 API 进行对话或测试。此外，Jan 拥有活跃的社区支持，包括： GitHub ,Discord ,Hugging Face 。你可以在这些平台上找到教程、交流经验或寻求帮助。不过需要注意的是，和大多数本地 LLM 工具一样，Jan 在 Apple Silicon（M 系列芯片）Mac 上的运行速度明显快于 Intel 处理器设备。

Llamafile

Llamafile 是由 Mozilla 支持的开源项目，致力于通过快速的 CPU 推理方式，在无需联网的环境下 ，让所有人都能访问并使用开源 AI。它将大语言模型（LLMs）转换为跨平台可执行格式（ELF）文件 ，你只需一个可执行文件即可运行模型，这使其成为将 AI 集成进应用程序的最佳选项之一 。

Llamafile 的工作原理

Llamafile 的设计初衷是：将 LLM 模型权重转换为多个平台上的可执行程序，这些程序无需安装 ，即可直接在如下架构上运行：Windows ，macOS ，Linux ，Intel ，ARM ，FreeBSD 等系统与平台。在底层实现中，Llamafile 使用 tinyBLAST ，使其在 Windows 等操作系统上运行时无需依赖 SDK 。

Llamafile 的核心功能

•可执行文件： 与 LM Studio 和 Jan 不同，Llamafile 只需一个可执行文件 即可运行 LLM 模型。•兼容已有模型工具： Llamafile 支持直接使用像 Ollama 和 LM Studio 等工具中的现有模型文件。•模型访问与创建： 你可以访问来自 OpenAI、Mistral、Groq 等提供方的主流模型，也可以从零创建自定义模型 。•模型格式转换： 你可以使用一条命令将主流 LLM 格式转换为 .llamafile 可执行文件格式，将.gguf模型文件转换为 .llamafile 格式。例如：

  
llamafile-convert mistral-7b.gguf

picture.image

开始使用 Llamafile

要安装 Llamafile，请前往 Hugging Face 官网，在导航栏中选择 Models（模型） ，然后搜索 Llamafile 。你也可以从以下链接直接安装你偏好的量化版本：

🔗[https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile/tree/main](https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile/tree/main)

📌 注意： 量化数字越大，模型响应质量越好。如上方示意图所示，本文使用的是 Meta-Llama-3.1-8B-Instruct.Q6\_K.llamafile，其中 Q6 表示量化等级。

步骤 1：下载 Llamafile

点击上述链接中的任意下载按钮，获取你想要的模型版本。如果你设备中已安装 wget[13] 工具，也可以使用以下命令下载：

wget https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile/blob/main/Meta-Llama-3.1-8B-Instruct.Q6\_K.llamafile

请将上述 URL 替换为你希望下载的具体版本地址。

步骤 2：将 Llamafile 设置为可执行文件

下载完特定版本的 Llamafile 后，请进入该文件所在目录，并使用以下命令将其设为可执行文件：

chmod +x Meta-Llama-3.1-8B-Instruct.Q6\_K.llamafile

步骤 3：运行 Llamafile

在文件名前加上./前缀，即可启动 Llamafile：./Meta-Llama-3.1-8B-Instruct.Q6\_K.llamafile。运行成功后，Llamafile 应用将在以下地址提供服务：👉 http://127.0.0.1:8080

你现在可以通过该页面运行和交互多个本地大语言模型（LLMs）。

picture.image

使用 Llamafile 的优势

Llamafile 通过让 LLM 能够在消费级 CPU 上轻松运行，帮助实现 AI 和机器学习的民主化。与其他本地 LLM 应用（如 Llama 和 cpp）相比 ，Llamafile 提供了更快的提示词处理速度，尤其在游戏电脑上具有更好的性能表现。由于其运行速度快，Llamafile 是处理长文本摘要和大文档分析的极佳选择。它运行在 100% 离线和私有环境 中，因此用户的数据不会与任何 AI 服务器或 API 共享。像 Hugging Face 这样的机器学习社区支持 Llamafile 格式，这让用户可以轻松搜索和下载相关模型 。此外，它还有一个活跃的开源社区 ，不断对其进行开发和功能扩展。

GPT4ALL

GPT4ALL 构建的核心理念是：隐私优先、安全性高、无需联网 。用户可以在 Mac、Windows 和 Ubuntu 上安装该工具。与 Jan 或 LM Studio 相比，GPT4ALL 拥有更多的月度下载量、GitHub 星标数和活跃用户 。

GPT4ALL 的核心功能

GPT4ALL 可以在主流消费级硬件上运行 LLM 模型，包括 Mac 的 M 系列芯片、AMD GPU 以及 NVIDIA 显卡。
以下是它的主要功能：

•隐私优先： 将私密的聊天内容与提示词（prompts）完全保存在本地设备中。•无需联网： GPT4ALL 可在完全离线的环境中工作。•模型探索： 该功能允许开发者浏览并下载各种 LLM 模型进行实验。你可以从如 LLama、Mistral 等主流模型中，选择多达约 1000 个开源模型 。•本地文档读取： 允许本地 LLM 访问你的本地敏感数据 （如 .pdf 和 .txt 文件），无需联网，数据不会离开设备 。•自定义选项： 提供丰富的聊天机器人[14]参数调整功能，如 temperature（温度）、batch size（批处理大小）、context length（上下文长度）等。•企业版： GPT4ALL 提供适用于企业的版本，包含安全保障、技术支持，以及基于设备的授权许可，帮助企业引入本地 AI 能力。

开始使用 GPT4ALL

要开始使用 GPT4ALL 在本地运行大语言模型，请下载[15]与你的操作系统匹配的对应版本。

使用 GPT4ALL 的优势

除了 Ollama 以外，GPT4ALL 拥有最多的 GitHub 贡献者数量，以及大约 25 万月活跃用户（数据来源：https://www.nomic.ai/gpt4all），在同类工具中处于领先地位。

该应用会收集匿名的用户使用数据与聊天分享信息 ，但用户可以自主选择是否开启或关闭该功能 。使用 GPT4ALL，开发者可以受益于其庞大的用户群体，以及活跃的 GitHub 社区和 Discord 社区支持。

Ollama

picture.image

使用 Ollama ，你可以轻松创建本地聊天机器人，无需连接 OpenAI 等 API 服务 。由于所有操作都在本地运行，你无需支付任何订阅费用或 API 调用成本 。

Ollama 的核心功能

•模型自定义： Ollama 支持将 .gguf 模型文件转换后运行，可通过以下命令执行模型：ollama run modelname。•模型库： Ollama 提供了大量可用模型，用户可以在 ollama.com/library[16] 上进行试用。•模型导入： Ollama 支持从 PyTorch[17] 导入模型。•社区集成： Ollama 可无缝集成至多种网页和桌面应用，如 Ollama-SwiftUI[18]、HTML UI[19]、Dify.ai[20]等。•数据库连接： Ollama 支持连接多种数据平台，可用于本地知识库问答、数据推理[21]等任务。•移动端集成： 基于 SwiftUI 的应用 Enchanted[22] ，将 Ollama 拓展至 iOS、macOS 和 visionOS平台。Maid[23]是一个基于 Flutter*的跨平台应用，支持本地加载 .gguf 模型文件并提供推理接口。

开始使用 Ollama

首次使用 Ollama 时，请访问 https://ollama.com，下载与你设备系统匹配的版本。

Ollama 支持安装在 Mac、Linux 或 Windows 系统上。

安装完成后，你可以在终端中运行以下命令查看详细信息：

  
ollama

要运行特定的大语言模型（LLM），你需要先使用如下命令进行下载：

ollama pull modelname，其中 modelname 是你希望安装的模型名称。你可以在 Ollama 的 GitHub[24] 页面中查看一些可下载的示例模型。pull命令也可用于更新模型版本，Ollama 会只拉取有变更的部分内容（增量更新）。

下载完成后，假设你下载了模型 llama3.1，只需在命令行中运行以下命令即可启动该模型：ollama run llama3.1。

picture.image

在上述示例中，我们向 llama3.1 模型提示一个关于物理中功和能量的问题。

picture.image

使用 Ollama 的优势

Ollama 在 GitHub 上拥有超过 200 位贡献者，并保持活跃更新。在前文提到的所有开源本地 LLM 工具中，Ollama 拥有最多的贡献者，且具备更强的可扩展性。

LLaMa.cpp

picture.image

LLaMa.cpp[25] 是许多本地 LLM 工具（如 Ollama）背后的底层推理引擎（inference engine）。LLaMa.cpp 支持主流大语言模型（LLM）推理，具备极简配置要求 ，并在各类硬件上实现了出色的本地性能表现。它同样也可以运行于云环境中。

LLaMa.cpp 的核心功能

•安装简便（Setup）： 安装非常简单，只需一条命令即可完成安装。•高性能（Performance）： 无论在本地硬件还是云端，LLaMa.cpp 的推理性能都非常优秀。•支持模型广泛（Supported Models）： 支持多种主流 LLM 模型，如： Mistral 7B[26] ，Mixtral MoE[27] ，DBRX[28] ，Falcon[29]，以及更多开源大模型[30]。•支持前端 AI 工具（Frontend AI Tools）： LLaMa.cpp 支持多种开源的 LLM 可视化 UI 工具，例如： MindWorkAI/AI-Studio[31]（基于 FSL-1.1 + MIT 许可）， iohub/collama[32] 等。

开始使用 LLaMa.cpp

要使用 llama.cpp 运行你的第一个本地 LLM 模型，你可以通过以下命令进行安装：

  
brew install llama.cpp

接下来，从 Hugging Face 或其他平台下载你想运行的模型。例如，可以从下方链接下载以下模型，并保存到你的设备上：

https://huggingface.co/MaziyarPanahi/Mistral-7B-Instruct-v0.3-GGUF/resolve/main/Mistral-7B-Instruct-v0.3.Q4\_K\_M.gguf

使用你喜欢的命令行工具（如 Terminal），cd 到你刚下载的.gguf 模型文件所在目录，并运行以下命令：

  
llama-cli --color \  
-m Mistral-7B-Instruct-v0.3.Q4_K_M.gguf \  
-p "Write a short intro about SwiftUI"

总结来说，首先你需要调用 LLaMa 的 CLI 工具，并设置 --color 等标志位。其中，-m 参数用于指定你要使用的模型路径，而 -p 参数则用于输入你希望用于指令模型的提示词（prompt）。

运行以上命令后，终端中将会输出类似以下示例的回答结果。

picture.image

本地 LLM 的使用场景

在本地运行大语言模型（LLMs）对于那些希望深入理解模型性能与原理的开发者来说非常有帮助。本地 LLM 可用于查询私密文档或技术资料 ，从而确保这些文档的信息不会被上传到任何云端 AI API 。在无网络环境 或网络信号不佳的地区 ，本地 LLM 也能正常工作，具有很高实用价值。

在远程医疗[33]场景中，出于隐私保护的考虑，本地 LLM 可以在无需上传至任何 AI API 提供商的前提下，自动整理和分类患者文档 。

如何评估 LLM 的本地运行性能

在本地使用某个大语言模型前，了解其性能表现对于获取可靠的输出结果是至关重要的。以下是几种常见的性能评估方法：

•训练数据（Training）： 模型是基于什么数据集训练的？•微调能力（Fine-tuning）： 模型是否能够针对特定任务进行微调或定制，是否能适应某一专属领域？•学术研究背景（Academic Research）： 该模型是否有配套的学术论文或研究成果 支撑？

你可以通过以下优质资源来查找上述信息：Hugging Face[34] ，Arxiv.org[35]。此外，Open LLM Leaderboard 和 LMSYS Chatbot Arena 也提供了丰富的模型信息、评估基准和性能对比数据。

本地 LLM 工具总结

正如本文所述，选择在本地运行大语言模型（如 DeepSeek R1）有多种动因。例如，在远程医疗应用中，如果你不希望将数据集通过互联网发送至 AI API 提供商，你可以选择对模型进行微调[36]，使其适用于特定任务。许多开源的图形界面（GUI）本地 LLM 工具 ，如 LM Studio和 Jan，提供了直观的前端界面，方便用户在无需订阅 OpenAI 或 Claude 等服务的情况下，配置和测试大语言模型。你也了解了功能强大的命令行 LLM 工具，如 Ollama 和 LLaMa.cpp，它们能帮助你在本地、离线运行和测试模型 。如果你希望将 AI 聊天集成到自己的应用中，可以查看 Stream 的 AI Chatbot [37]解决方案。你也可以了解如何本地使用 DeepSeek R1[38]，以及通过像 Cerebras[39]这样的快速 LLM 推理平台调用它。

为什么要使用本地 LLM？

LM Studio 的核心功能

使用 LM Studio 的优势

Jan 的核心功能

使用 Jan 的优势

Llamafile 的工作原理

Llamafile 的核心功能

开始使用 Llamafile

步骤 1：下载 Llamafile

步骤 2：将 Llamafile 设置为可执行文件

步骤 3：运行 Llamafile

使用 Llamafile 的优势

GPT4ALL 的核心功能

开始使用 GPT4ALL

使用 GPT4ALL 的优势

Ollama 的核心功能

开始使用 Ollama

使用 Ollama 的优势

LLaMa.cpp 的核心功能

开始使用 LLaMa.cpp

本地 LLM 的使用场景

如何评估 LLM 的本地运行性能

本地 LLM 工具总结

更多信息

References