模型合并,转换,量化压缩,部署

训练好的LoRA适配器模型合并转换为GGUF量化压缩部署

复制代码
model_name_or_path: /home/aistudio/text_lora/models/Qwen/Qwen3-4B-Instruct-2507  # 你的基础模型路径
adapter_name_or_path: output/qwen3-4b-sft-v9                                   # 你的LoRA适配器输出路径
template: qwen                                                                 # 使用你模型对应的template,如qwen
finetuning_type: lora                                                          # 微调方式,与你训练时一致
export_dir: models/qwen3-4b-merged                                             # 合并后模型的保存路径
export_size: 4                                                                 # 单文件大小上限,单位为GB (可选)
export_device: cpu                                                             # 导出计算设备,推荐cpu (可选)
export_legacy_format: false                                                    # 是否使用旧格式 (可选)

conda activate /home/aistudio/work/my_conda_envs/llamafactory

执行命令:

复制代码
llamafactory-cli export merge_config.yaml

合并后的目录如下:

复制代码
git clone https://git.ustc.edu.cn/USTC-OS-Lab/llama.cpp

cd llama.cpp

cmake -B build

cmake --build build --config Release -j --target llama-quantize

开始转换

进入 llama.cpp 目录,执行转换命令。

  1. 基础转换 (FP16):首先将合并后的模型转换为 FP16 精度的 GGUF 文件。

    复制代码
    python convert_hf_to_gguf.py /home/aistudio/text_lora/LLaMA-Factory/models/qwen3-4b-merged/ --outfile /home/aistudio/llama.cpp/qwen3-4b-f16.gguf --outtype f16

量化压缩 (Q4_K_M) :使用 llama-quantize 工具对上一步生成的 FP16 文件进行量化,以减小模型体积并提升推理速度。

复制代码
./build/bin/llama-quantize /home/aistudio/llama.cpp/qwen3-4b-f16.gguf /home/aistudio/llama.cpp/qwen3-4b-q4_k_m.gguf Q4_K_M
相关推荐
Michaelwubo6 小时前
openspec业务SDD驱动开发
人工智能·vibe code
GEO索引未来6 小时前
大胆预测:国家会这样对GEO行业进行监管
大数据·人工智能·gpt·ai·chatgpt
闵孚龙6 小时前
Prompt工程到底怎么做?从“会提问”到“能落地”的完整方法论
人工智能·prompt
AI人工智能+6 小时前
文档抽取系统通过OCR与大语言模型融合技术,将非结构化文档(如合同、保单、表格)自动转换为结构化数据
人工智能·语言模型·ocr·文档抽取
深海鱼在掘金6 小时前
深入浅出 LangChain —— 第十四章:可观测性与生产运维
人工智能·langchain·agent
生物信息与育种6 小时前
实战总结:用 rMVP 做植物 GWAS 的标准工作流与避坑指南
人工智能·深度学习·职场和发展·数据分析·r语言
嵌入式小企鹅6 小时前
大模型算法工程师面试宝典
人工智能·学习·算法·面试·职场和发展·大模型·面经
小仙女的小稀罕6 小时前
会议转行动项处理,AI对比原生工具有何效率差异
人工智能
逻辑君6 小时前
认知神经科学研究报告【20260030】
人工智能·神经网络·机器学习