LLaMA-Factory 模型评估理论与实战：基于 Ubuntu 22.04 的系统化指南

作者：吴业亮

博客：wuyeliang.blog.csdn.net

⚙️ 模型评估核心原理

在开始实践前，理解评估指标背后的逻辑至关重要。

通用能力评估指标
- 困惑度（Perplexity, PPL） ：衡量模型预测序列的不确定性，值越低越好 。其计算基于模型对输入文本的概率预测，公式为 PPL=e−1N∑i=1Nlog⁡P(wi∣w1,...,wi−1)PPL = e^{-\frac{1}{N}\sum_{i=1}^{N}\log P(w_i | w_1,...,w_{i-1})}PPL=e−N1∑i=1NlogP(wi∣w1,...,wi−1)，其中 NNN 为token数量。
- 生成流畅度（Fluency）：评估生成文本的语法和连贯性，可通过GPT-4等"裁判模型"打分或N-gram重复率等客观指标辅助判断。
特定任务评估指标
- 文本分类 ：常用准确率（Accuracy） 和F1分数，后者在样本不均衡时尤为重要。
- 问答（QA）任务 ：常用精确匹配（Exact Match, EM） 和词级F1分数（QA-F1） 。
- 文本摘要/翻译 ：常用BLEU分数 （侧重N-gram匹配精度）和ROUGE分数（侧重召回率，如ROUGE-1/2/L），用于评估生成文本与参考文本的相似度。

🖥️ Ubuntu 22.04 环境搭建

以下是两种主流的部署方式，Docker方式能最大程度避免环境冲突，推荐使用。

部署方式	优势	适用场景
Docker部署	环境隔离，依赖自动解决，一致性高	强烈推荐，尤其适合快速部署和避免环境冲突
源码安装	灵活性高，更贴近底层	需要深度定制或开发

方案一：使用Docker快速部署（推荐）

此方案能高效利用GPU资源，确保环境一致。

安装依赖组件

确保系统已安装Docker、Docker Compose以及NVIDIA Container Toolkit（用于GPU支持）。

bash 复制代码

# 更新系统包
sudo apt-get update
# 安装Docker和Docker Compose
sudo apt-get install -y docker.io docker-compose
# 添加NVIDIA Docker仓库并安装NVIDIA Container Toolkit
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

运行 sudo docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi 验证Docker是否能正常访问GPU 。

获取并启动LLaMA-Factory

bash 复制代码

# 克隆项目
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
# 使用Docker Compose一键启动（进入项目内的docker目录）
cd docker/docker-cuda/
docker compose up -d
# 进入容器内部
docker compose exec llamafactory bash

现在你已经处于一个配置好所有依赖的容器环境中了。

方案二：源码安装

如果选择源码安装，可以参考以下步骤。

克隆项目并创建Python虚拟环境

bash 复制代码

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
# 使用Conda创建并激活虚拟环境（推荐）
conda create -n llama-factory python=3.10 -y
conda activate llama-factory
# 安装核心依赖
pip install -e ".[torch,metrics]" --no-build-isolation

🚀 模型评估实操流程

评估流程遵循"数据准备 → 配置 → 执行 → 分析"的步骤。以下以一个文本分类任务为例。

准备评估数据集

评估数据通常为JSON格式，需要包含指令（Instruction）、输入（Input）和期望输出（Output）。以下是一个情感分析数据的例子。

bash 复制代码

# 在项目根目录下创建 eval_data.json
[
    {
        "instruction": "判断以下句子的情感倾向（0=负面，1=正面）：",
        "input": "这款手机续航时间长，拍照效果也很好，非常推荐！",
        "output": "1"
    },
    {
        "instruction": "判断以下句子的情感倾向（0=负面，1=正面）：",
        "input": "快递延迟了3天，客服态度差，体验很糟糕。",
        "output": "0"
    }
]

配置评估数据集

在 LLaMA-Factory/data 目录下创建一个数据集配置文件，例如 eval_config.yaml，指明数据路径和任务类型。

yaml 复制代码

# eval_config.yaml
dataset_info:
  custom_eval:  # 你的数据集名称
    file_name: ../eval_data.json  # 数据文件路径（相对于LLaMA-Factory根目录）
    task_type: text_classification  # 任务类型
    input_column: input  # 输入字段名
    output_column: output  # 期望输出字段名
    instruction_column: instruction  # 指令字段名

执行评估命令

使用LLaMA Factory提供的CLI脚本执行评估。根据你的任务类型选择合适的评估指标（--eval_metrics）。

bash 复制代码

# 在项目根目录下执行（如果使用Docker，则在容器内执行）
python src/train.py \
  --model_name_or_path lmsys/vicuna-7b-v1.5  # 可以是Hugging Face模型ID或本地模型路径
  --task evaluate \
  --dataset custom_eval  # 与eval_config.yaml中定义的数据集名称一致
  --eval_metrics accuracy,f1  # 文本分类常用准确率和F1分数
  --output_dir ./eval_results  # 结果输出目录
  --per_device_eval_batch_size 4  # 根据GPU内存调整批次大小

📊 评估结果分析与优化建议

评估完成后，结果会保存在 --output_dir 指定的目录下（如 ./eval_results/eval_results.json）。

解读评估结果

结果文件通常包含整体指标和每个样本的详细预测情况。
json 复制代码
```
{
  "dataset": "custom_eval",
  "task_type": "text_classification",
  "metrics": {
    "accuracy": 0.92,
    "f1": 0.91,
    "precision": 0.93,
    "recall": 0.90
  },
  "sample_details": [
    {
      "input": "这款手机续航时间长，拍照效果也很好，非常推荐！",
      "model_output": "1",
      "reference_output": "1",
      "is_correct": true
    }
  ]
}
```
- 核心指标：示例中准确率92%，F1分数91%，说明模型在该任务上表现良好。
- 错误分析 ：重点关注 "is_correct": false 的样本，对比 model_output 和 reference_output 的差异，定位模型犯错的原因（例如，是否是模糊语义、数据噪声等）。
根据结果优化模型
- 如果指标普遍偏低：可能需要检查训练数据质量、增加数据量，或调整微调时的超参数（如学习率）。
- 如果特定类别表现差：可以考虑增加这些类别的训练数据，或使用类别平衡损失函数。
- 利用A/B测试：LLaMA Factory支持对不同微调版本的模型进行自动化对比测试，为迭代优化提供方向。

💎 进阶技巧与常见问题

自动化与可视化 ：除了命令行，LLaMA Factory还提供了Web UI，可以在"Evaluate & Predict"菜单中直观地进行模型评估和结果可视化。
评估速度优化 ：如果评估速度过慢，可以尝试增大 --per_device_eval_batch_size，或在GPU内存允许的情况下使用量化技术（如4-bit或8-bit）加载模型。
自定义评估任务：框架支持扩展自定义评估任务，只需按照规范准备数据和定义评估模板即可。