【AI实战系列】运用llama.cpp将LoRA训练模型转换为GGUF，适配Ollama本地化部署，降低企业资源投入成本！ - 文章 - 开发者社区

“ 企业在各自垂直领域训练大模型，往往是要通过模型微调完成的，经过微调后的模型，也就可以进行模型的自定义以及本地部署，进而投入使用了。每天花5-10分钟，学习一点AI知识，助您厚积薄发！”

本文是紧接着上一篇FineTune的文章，将继续从企业AI落地的角度，介绍如何将LoRA训练结果和模型合并，通过llama.cpp将LLaMA-Factory导出的模型转换为guff格式，然后通过Ollama进行本地化部署及使用，正好也补充一下第二篇中提到的，基于Ollama仓库中没有的模型如何实现自定义模型。

【AI实战系列】前四篇详见：

【AI实战系列】每天花5分钟、碎片学习AI知识：DeepSeek本地运行全流程解析，企业私有化，数据安全、降本增效双搞定！

【AI实战系列】每天5分钟、碎片学习AI知识：教你打造企业自有大模型，走出定制化第一步，沉淀AI技术能力，让AI变成生产力！

【AI实战系列】每天5分钟、学习AI知识：企业知识管理混乱？RAG+LangChain+DeepSeek构建会思考的企业知识库！

【AI实战系列】FineTune+LLaMA-Factory+DeepSeek+LoRA企业数据训练，构建AI电商客服等应用

—

llama.cpp是什么？

llama.cpp‌是一个开源项目，是纯C/C++语言模型推理框架，目标是高效的运行大型语言模型在资源受限的设备上，如CPU、GPU或低端硬件上实现本地推理。也可以说它是为了将训练好的量化模型转换为可在CPU上运行的低配推理版本。这样恰恰降低了中小企业的资源投入成本！其主要有以下特性：‌

支持多系统、多模态。完全使用C/C++编写，不依赖外部库，支持Windows、macOS、Linux等主流操作系统及ARM、x86架构的CPU，并通过SIMD指令集（如 AVX、NEON）优化性能；支持多模态推理，包括文本生成、图像处理等。‌‌
‌高效、加速推理‌。采用模型量化技术（1.5bit至8bit整型量化），显著降低内存占用并加速推理速度；支持CPU+GPU混合推理，当GPU显存不足时，可通过系统内存协同计算。
‌扩展性、兼容性强。支持多种模型格式（如GGUF），兼容DeepSeek、LLaMA等开源大模型；提供HTTP/WebSocket API服务接口，可嵌入到其他应用中。
‌边缘设备场景应用。适用于个人电脑等边缘设备，无需显卡即可运行大型语言模型，降低部署门槛；支持多轮对话和流式输出，适合构建本地知识库或数据安全、隐私保护等场景。

—

llama.cpp的安装、模型导出与转换

1、安装llama.cpp

运行以下指令以安装LLaMA-Factory及其依赖：

  
# 也可以点击左下角关注，回复“AI实战系列资料”获取  
git clone https://github.com/ggml-org/llama.cpp.git  
# 切换到目录下  
cd llama.cpp  
# 安装依赖（最后也创建一个独立环境，可以参考上一篇）  
pip3 install -r requirements.txt

2、从LLaMA-Factory导出模型

继续使用上一篇中的LoRA训练结果。选择好“检查点路径”，输入“导出目录”，点击“开始导出”即可。

picture.image

会显示正在导出模型，如下：

picture.image

过一会儿会显示模型导出完成。

picture.image

导出后文件，我填写的模型目录是star-model，如下：

picture.image

此时文件已准备完成。

3、将以上导出的文件，转换为GUFF

执行以下命令。

  
# 切换到llama.cpp目录下  
cd llama.cpp  
# 执行命令  
python convert_hf_to_gguf.py /xxx/LLaMAFactory/star-model \  
 --outfile /xxx/LLaMAFactory/star-model/star-model.gguf \  
 --outtype q8_0

同样等待一会儿，会把safetensors格式转换为gguf格式，导出模型的名称是star-model.gguf。

此时格式转换大功告成了！

—

Ollama本地部署

创建Modelfile，将模型导入Ollama

创建Modelfile。

  
touch star-model-modelfile // 创建modelfile文件  
vi star-model-modelfile // 编辑文件

文件内容如下：

  
FROM /xxx/LLaMAFactory/star-model/star-model.gguf

创建模型。

  
ollama create star-model -f star-model-modelfile

运行模型。

  
ollama run star-model

至此，就可以本地使用该模型了。（因为前几篇都写过了，就不重复演示了。）

本次内容不多，但有些内容不熟的可以看下前几篇。遇到问题可以点击左下角头像，点击关注，私信交流。有企业模型定制需求的，也欢迎私信。

点击左下角关注，回复“AI实战系列资料”，即可获取所有AI实战系列资料哦。

每天花5-10分钟，学习一点AI知识，助您厚积而薄发！

欢迎点赞、收藏、评论、关注公众号，谢谢！后续持续分享，如何基于DeepSeek等大模型，实现企业AI集成、企业知识库、电商场景应用、模型微调、智能问答、多模态、RPA等项目实战。致力为中小企业提供实用的企业级AI解决方案！