llama-factory微调chatglm3

一、定义

  1. 案例/多卡

二、实现

  1. 案例
    1. 下载chatglm3-6b-32k模型
    2. 配置数据集
  2. 微调指令
bash 复制代码
CUDA_VISIBLE_DEVICES=0,1 llamafactory-cli train \
    --stage sft \
    --do_train True \
    --model_name_or_path /home/chatglm3-6b-32k \
    --finetuning_type lora \
    --template chatglm3 \
    --dataset_dir ./data \
    --dataset adgen_local \
    --cutoff_len 1024 \
    --learning_rate 5e-05 \
    --num_train_epochs 3.0 \
    --max_samples 1000 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 8 \
    --lr_scheduler_type cosine \
    --max_grad_norm 1.0 \
    --logging_steps 5 \
    --save_steps 100 \
    --warmup_steps 0 \
    --optim adamw_torch \
    --output_dir saves/ChatGLM3-6B/lora/sft \
    --fp16 True \
    --lora_rank 8 \
    --lora_alpha 16 \
    --lora_dropout 0.1 \
    --lora_target query_key_value \
    --plot_loss True
  1. 推理
bash 复制代码
CUDA_VISIBLE_DEVICES=0 llamafactory-cli chat \
    --model_name_or_path /home/chatglm3-6b-32k \
    --adapter_name_or_path ./saves/ChatGLM3-6B/lora/sft  \
    --template chatglm3 \
    --finetuning_type lora
  1. 合并并导出
bash 复制代码
CUDA_VISIBLE_DEVICES=0 llamafactory-cli export \
    --model_name_or_path /home/chatglm3-6b-32k \
    --adapter_name_or_path ./saves/ChatGLM3-6B/lora/sft  \
    --template chatglm3 \
    --finetuning_type lora \
    --export_dir megred-model-chatglm3 \
    --export_size 2 \
    --export_device auto \
    --export_legacy_format False
相关推荐
格林威4 分钟前
常规线扫描镜头有哪些类型?能做什么?
人工智能·深度学习·数码相机·算法·计算机视觉·视觉检测·工业镜头
倔强青铜三42 分钟前
苦练Python第63天:零基础玩转TOML配置读写,tomllib模块实战
人工智能·python·面试
B站计算机毕业设计之家1 小时前
智慧交通项目:Python+YOLOv8 实时交通标志系统 深度学习实战(TT100K+PySide6 源码+文档)✅
人工智能·python·深度学习·yolo·计算机视觉·智慧交通·交通标志
高工智能汽车1 小时前
棱镜观察|极氪销量遇阻?千里智驾左手服务吉利、右手对标华为
人工智能·华为
txwtech1 小时前
第6篇 OpenCV RotatedRect如何判断矩形的角度
人工智能·opencv·计算机视觉
正牌强哥1 小时前
Futures_ML——机器学习在期货量化交易中的应用与实践
人工智能·python·机器学习·ai·交易·akshare
倔强青铜三1 小时前
苦练Python第62天:零基础玩转CSV文件读写,csv模块实战
人工智能·python·面试
大模型真好玩2 小时前
低代码Agent开发框架使用指南(二)—Coze平台核心功能概览
人工智能·coze·deepseek
jerryinwuhan2 小时前
最短路径问题总结
开发语言·人工智能·python
wanhengidc3 小时前
云手机能够做些什么?
运维·服务器·人工智能·智能手机·云计算