模型合并,转换,量化压缩,部署

训练好的LoRA适配器模型合并转换为GGUF量化压缩部署

复制代码
model_name_or_path: /home/aistudio/text_lora/models/Qwen/Qwen3-4B-Instruct-2507  # 你的基础模型路径
adapter_name_or_path: output/qwen3-4b-sft-v9                                   # 你的LoRA适配器输出路径
template: qwen                                                                 # 使用你模型对应的template,如qwen
finetuning_type: lora                                                          # 微调方式,与你训练时一致
export_dir: models/qwen3-4b-merged                                             # 合并后模型的保存路径
export_size: 4                                                                 # 单文件大小上限,单位为GB (可选)
export_device: cpu                                                             # 导出计算设备,推荐cpu (可选)
export_legacy_format: false                                                    # 是否使用旧格式 (可选)

conda activate /home/aistudio/work/my_conda_envs/llamafactory

执行命令:

复制代码
llamafactory-cli export merge_config.yaml

合并后的目录如下:

复制代码
git clone https://git.ustc.edu.cn/USTC-OS-Lab/llama.cpp

cd llama.cpp

cmake -B build

cmake --build build --config Release -j --target llama-quantize

开始转换

进入 llama.cpp 目录,执行转换命令。

  1. 基础转换 (FP16):首先将合并后的模型转换为 FP16 精度的 GGUF 文件。

    复制代码
    python convert_hf_to_gguf.py /home/aistudio/text_lora/LLaMA-Factory/models/qwen3-4b-merged/ --outfile /home/aistudio/llama.cpp/qwen3-4b-f16.gguf --outtype f16

量化压缩 (Q4_K_M) :使用 llama-quantize 工具对上一步生成的 FP16 文件进行量化,以减小模型体积并提升推理速度。

复制代码
./build/bin/llama-quantize /home/aistudio/llama.cpp/qwen3-4b-f16.gguf /home/aistudio/llama.cpp/qwen3-4b-q4_k_m.gguf Q4_K_M
相关推荐
IT_陈寒2 小时前
Redis内存爆了,原来我漏掉了这个致命配置
前端·人工智能·后端
用户3521802454753 小时前
🎆从 Prompt 到 Skill:让 Spring AI Agent 学会"装新技能"
人工智能·spring boot·ai编程
米小虾4 小时前
手把手教你搭建第一个生产级AI Agent:从选型到实战的完整指南
人工智能·agent
任沫4 小时前
Agent之Function Call
javascript·人工智能·go
米小虾4 小时前
2026年AI Agent全面爆发:从开源生态到企业级应用的进化之路
人工智能·agent
用户6919026813394 小时前
Vibe Coding 开发项目的基本范式
人工智能·设计模式·代码规范
To_OC4 小时前
别再跟 AI 死磕 prompt 了,我写了个 Loop 让它自己改到满意为止
人工智能·aigc·agent
血小溅5 小时前
三大 AI 编码框架深度对比:GSD vs OpenSpec vs Superpowers
人工智能·后端
武子康8 小时前
调查研究-186 LangChain 和 LangGraph 的区别:从快速构建 Agent 到生产级工作流编排
人工智能·langchain·llm
武子康9 小时前
调查研究-185 CodeGraph 调研:给 AI 编程 Agent 一张代码库地图,少一点反复 grep(2026)
人工智能·openai·claude