从 Python 到 Ollama:将微调后的 Llama-3/Qwen 一键导出为 GGUF

从 Python 到 Ollama:将微调后的 Llama-3/Qwen 一键导出为 GGUF

摘要 :在上一篇教程中,我们在 RTX 3090 上成功微调了 Llama-3。但现在的模型还"躺"在 Python 脚本里,不够通用。本文将教你如何利用 Unsloth 强大的导出功能,将微调后的模型转换为 GGUF 格式 ,并导入到 Ollama 中。这样,你就可以在终端、Obsidian 插件或任何支持 Ollama 的工具中随时调用你的专属模型了!

关键词Unsloth GGUF Ollama 模型导出 量化


0. 为什么要做这一步?

微调后的模型通常是以 LoRA Adapter (适配器) 的形式存在的(文件夹里只有几百 MB)。要让它像一个独立模型一样运行(比如发给朋友,或者在没有 Python 环境的电脑上跑),我们需要做两件事:

  1. 合并 (Merge):把 LoRA 的"补丁"打回到 Base Model(底座)上。
  2. 量化与导出 (Quantize & Export) :转换为 llama.cpp 生态通用的 GGUF 格式,通常使用 4bit (q4_k_m) 量化以平衡体积和性能。

好消息 :Unsloth 框架原生支持这一步,只需几行代码,不需要 复杂的 make 编译 llama.cpp 过程。


1. 环境确认

确保你处于我们之前的 Conda 环境中:

bash 复制代码
conda activate llm_learn

2. 编写导出脚本

在工作目录下新建 export_to_ollama.py

我们将以 Llama-3-8B 为例(Qwen 同理,只需改路径)。

python 复制代码
from unsloth import FastLanguageModel
import torch

# 1. 加载微调后的模型
# 这里的路径是我们上一篇教程保存 LoRA 的目录
lora_model_path = "lora_model_llama3" 
print(f" 正在加载 LoRA 模型: {lora_model_path}...")

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = lora_model_path,
    max_seq_length = 2048,
    dtype = None,
    load_in_4bit = True,
)

# 2. 执行导出
# Unsloth 会自动处理合并、转换和量化
# 导出为 q4_k_m (推荐,平衡速度和精度)
print(" 正在合并并导出为 GGUF (q4_k_m)... 这可能需要几分钟...")

model.save_pretrained_gguf(
    "model_export", # 导出文件的存放目录
    tokenizer,
    quantization_method = "q4_k_m",
)

print(" 导出完成!文件位于 model_export 目录下。")

3. 执行导出

运行脚本:

bash 复制代码
python export_to_ollama.py

执行过程解析

  1. 脚本会加载底座模型和你的 LoRA 权重。
  2. 自动下载必要的转换工具(如果是第一次运行)。
  3. 开始转换...(RTX 3090 上大约需要 3-5 分钟)。
  4. 最终在 model_export 目录下生成一个约 5GB.gguf 文件(文件名通常包含 unslothq4_k_m 字样)。

4. 导入 Ollama

假设你已经安装了 Ollama(如果没有,请运行 curl -fsSL https://ollama.com/install.sh | sh)。

4.1 创建 Modelfile

model_export 目录下创建一个名为 Modelfile 的文件:

dockerfile 复制代码
# 这里的路径要替换成你实际生成的 gguf 文件名
FROM ./unsloth.Q4_K_M.gguf

# 设置系统提示词 (System Prompt)
SYSTEM """
你是由 Soar 微调的 Llama-3 中文助手。请务必使用中文回答用户的问题。
"""

# 设置参数 (可选)
PARAMETER temperature 0.3
PARAMETER num_ctx 4096

4.2 导入模型

在终端中运行:

bash 复制代码
cd model_export
ollama create my-llama3-cn -f Modelfile

等待进度条跑完,显示 success 即大功告成!


5. 见证奇迹

现在,你可以随时随地在终端呼叫你的模型了:

bash 复制代码
ollama run my-llama3-cn

测试输入

"Who are you?"

预期输出

"我是由开发者在 RTX 3090 上微调的 Llama-3 中文助手..."

恭喜!你已经完成了从模型训练模型产品化的完整闭环。

相关推荐
兑生9 小时前
【灵神题单·贪心】3010. 将数组分成最小总代价的子数组 I | Java
java·开发语言·算法
阿钱真强道9 小时前
28 Python 分类:不只是画一条线,一文认识支持向量机(SVM)
python·支持向量机·分类·svm·边界·核方法·高维
Java面试题总结9 小时前
go从零单排之方法
开发语言·后端·golang
Jay_Franklin9 小时前
Python一站式科研工作流:从数据分析到报告生成
开发语言·python·论文笔记
小堃学编程9 小时前
【项目实战】基于protobuf的发布订阅式消息队列(1)—— 准备工作
java·大数据·开发语言
m0_518019489 小时前
使用Python操作文件和目录(os, pathlib, shutil)
jvm·数据库·python
setmoon21410 小时前
C++中的构建器模式
开发语言·c++·算法
2301_8154829310 小时前
C++中的桥接模式变体
开发语言·c++·算法
ZHOUPUYU10 小时前
PHP性能分析与调优:从定位瓶颈到实战优化
开发语言·后端·html·php
reasonsummer10 小时前
【办公类-133-03】20260320_学区化展示PPT_03_“Python”批量gif制作
python·豆包