llamafactory报错:双卡4090GPU,训练qwen2.5:7B、14B时报错GPU显存不足(out of memory),轻松搞定~~~

实际问题场景:

使用llamafactory进行微调qwen2.5 7B和14B的大模型时,会出现out of memory的报错。尝试使用降低batch_size(原本是2,现在降到1)的方式,可以让qwen2.5:7B跑起来,但时不时会不稳定,还是会报这个错误;微调14B的话,直接就报错了,根本跑起来。(显卡配置为两张23G的4090显卡,显存一共46G)目测lora微调显存的大小是模型本身大小的3倍以上,才能正常跑起来。

解决办法:

  1. 去qwen的官网找到下载ds_config_zero3.json这个文件
    https://github.com/QwenLM/Qwen/blob/main/finetune/ds_config_zero3.json
  2. 将文件放在llamafactory目录下
  3. 编辑ds_config_zero3.json这个文件,将device改成cpu即可
python 复制代码
"zero_optimization": {
        "stage": 3,
        "offload_optimizer": {
            "device": "cpu",
            "pin_memory": true
        },
        "offload_param": {
            "device": "cpu",
            "pin_memory": true
        },

注: 若不知道这个配置的代表什么含义的话,可以看这一篇deepspeed配置讲解

  1. 启动llamafactory-cli webui ,把参数设置好,然后预览下启动命令,复制出来
  2. 将命令复制出来 ,在llamafactory当前目录下直接粘贴,启动就大功告成了!!!
    (据说更大的模型都可以训练,只是需要的时间很多,没办法,时间换空间是这样了)

启动后查看显卡使用情况,显卡直接拉满

命令:nvitop

如果没有这个命令,pip install nvitop ,就可以实时查看显卡使用情况了

起飞

相关推荐
拓端研究室5 分钟前
视频讲解|核密度估计朴素贝叶斯:业务数据分类—从理论到实践
人工智能·分类·数据挖掘
灵智工坊LingzhiAI9 分钟前
人体坐姿检测系统项目教程(YOLO11+PyTorch+可视化)
人工智能·pytorch·python
昨日之日200613 分钟前
Video Background Remover V3版 - AI视频一键抠像/视频换背景 支持50系显卡 一键整合包下载
人工智能·音视频
SHIPKING3931 小时前
【机器学习&深度学习】什么是下游任务模型?
人工智能·深度学习·机器学习
巴伦是只猫1 小时前
【机器学习笔记Ⅰ】11 多项式回归
笔记·机器学习·回归
子燕若水5 小时前
Unreal Engine 5中的AI知识
人工智能
一心0925 小时前
ubuntu 20.04.6 sudo 源码包在线升级到1.9.17p1
运维·ubuntu·sudo·漏洞升级
好好学习啊天天向上5 小时前
世上最全:ubuntu 上及天河超算上源码编译llvm遇到的坑,cmake,ninja完整过程
linux·运维·ubuntu·自动性能优化
你想考研啊6 小时前
三、jenkins使用tomcat部署项目
运维·tomcat·jenkins
极限实验室6 小时前
Coco AI 实战(一):Coco Server Linux 平台部署
人工智能