LLaMA-Factory多机多卡训练实战

https://www.dong-blog.fun/post/1999

参考资料:https://llamafactory.readthedocs.io/zh-cn/latest/advanced/distributed.html

以训练qwen2.5vl 7b 为例子。

创建空间

创建数据集

如果数据集文件非常多,可以选择上tar.gz包,然后再数据集页面面,点击终端进入到/mnt/data目录。执行 tar-zxfxxx.tar.gz 命令解压,请解压到当前目录(/mnt/data目录是挂载盘目录)

上传模型

制作一个训练镜像

启动镜像,进入容器中设置数据集和平台匹配。

bash 复制代码
docker run -it --rm --gpus  '"device=1,2,3"' --shm-size 16G kevinchina/deeplearning:llamafactory20250311-3 bash
bash 复制代码
如果镜像用的是ubuntu
要执行一下命令,安装libibverbs1才能使用rdma网卡,加速训练
sudo apt-get update
sudo apt-get install libibverbs1 -y

这个镜像里已经安装:

bash 复制代码
root@260e21033aae:/app# apt-get install libibverbs1 -y
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
libibverbs1 is already the newest version (39.0-1).
0 upgraded, 0 newly installed, 0 to remove and 0 not upgraded.

在data里增加训练json数据集,/app/examples/train_lora中增加训练yaml文件。

docker commit 这个容器,将此镜像传到hub。

创建任务

为了多机多卡,需要在每台机器启动这个:

bash 复制代码
FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=0 MASTER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/qwen2vl_lora_sft_zizhi.yaml

FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=1 MASTER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/qwen2vl_lora_sft_zizhi.yaml

训练指令写为下面这样,那三个变量由环境自动指定:

bash 复制代码
FORCE_TORCHRUN=1 \
NNODES=2 \
NODE_RANK=${RANK} \
MASTER_ADDR=${MASTER_ADDR} \
MASTER_PORT=${MASTER_PORT} \
llamafactory-cli train examples/train_lora/qwen2vl_lora_sft_zizhi.yaml

此外,为了为rDMA,需要设置这三个环境变量:

复制代码
CUDA_DEVICE_MAX_CONNECTIONS=1
NCCL_DEBUG=INFO
NCCL_IB_DISABLE=0
相关推荐
AI_小站16 小时前
6个GitHub爆火的免费大模型教程,助你快速进阶AI编程
人工智能·langchain·github·知识图谱·agent·llama·rag
Mr_sst2 天前
infra-ai模块宏观设计解析:业务与模型之间的中间层核心架构
大数据·人工智能·ai·llama
微软技术分享2 天前
Windows平台下CUDA安装及llama.cpp使用教程
windows·llama
小wu学cv3 天前
llama.cpp调用GPU推理Qwen3.5-0.8b模型
llama
zhangfeng11333 天前
LLaMA-Factory 保存 checkpoint 时崩溃解决办法 OOM 内存溢出(不是显存)
运维·服务器·人工智能·深度学习·llama
老唐7774 天前
30分钟手搓 Agent:LLM + Tools + Loop + Memory 跑通最小闭环
人工智能·ai·语言模型·agent·llama·智能体
高兴就好(石5 天前
Mac使用llama.cpp
macos·llama
zhangfeng11335 天前
No space left on device (28) llamafactory微调训练的时候 报错,需要调节 dataloader_num_workers
人工智能·语言模型·llama
阿珊和她的猫5 天前
大模型在客服场景:落地路径 + 效果评估
ai·agent·llama·cli·mcp
谷子熟了6 天前
电商智能客服系统本地搭建
经验分享·docker·typescript·ai编程·llama