LLamaFactory模型导出量化

- 1.LoRA模型合并与量化导出
- - [1.1 微调量化与模型导出量化](#1.1 微调量化与模型导出量化)
  - [1.2 模型导出量化环境冲突问题](#1.2 模型导出量化环境冲突问题)
- 2.使用open-webui部署模型
- 补充

点击开始，出现bug:

powershell 复制代码

pip install optimum==1.24.0

powershell 复制代码

pip install gptqmodel==2.2.0

删掉环境重新配置：

powershell 复制代码

pip install torch==2.3.0
pip install gptqmodel==2.2.0
pip install -e .
pip install bitsandbytes-0.43.2

最后安装成功时：numpy-1.26.4， safetensors-0.5.3， bitsandbytes-0.43.2

一般来说，llama-factory直接导出原模式，不需要量化。

<不适合微调后的模型>

powershell 复制代码

conda create -n open-webui python==3.11

bash 复制代码

conda activate open-webui
pip install -U open-webui torch transformers

bash 复制代码

ollama serve

bash 复制代码

conda activate open-webui
export ENABLE_OLLAMA_API=True
export OPENAI_API_BASE_URL=http://127.0.0.1:11434/v1
open-webui serve

当训练损失到0小数点三位后即可以做测试，eg:0.0006

验证集损失会逐渐增长，并且逐渐放缓，继续训练逐渐平稳，之后下降。大模型微调基本不关心验证集的损失

关于生成式模型的验证/评估问题：

生成式模型的评估分为两种主流方法：主观评估和客观评估

主观评估：通过一些核心问题对模型进行提问，人为判断模型的回复质量 。（主要评测手段）

客观评估：通过一些具体的评估指标，来判定模型输出的内容与标准答案相似度。（一般作为辅助参考）

这是对于训练800轮的评估结果(中间评估网不好中断)

客观评估：

结果：