llamafactory报错:双卡4090GPU,训练qwen2.5:7B、14B时报错GPU显存不足(out of memory),轻松搞定~~~

实际问题场景:

使用llamafactory进行微调qwen2.5 7B和14B的大模型时,会出现out of memory的报错。尝试使用降低batch_size(原本是2,现在降到1)的方式,可以让qwen2.5:7B跑起来,但时不时会不稳定,还是会报这个错误;微调14B的话,直接就报错了,根本跑起来。(显卡配置为两张23G的4090显卡,显存一共46G)目测lora微调显存的大小是模型本身大小的3倍以上,才能正常跑起来。

解决办法:

  1. 去qwen的官网找到下载ds_config_zero3.json这个文件
    https://github.com/QwenLM/Qwen/blob/main/finetune/ds_config_zero3.json
  2. 将文件放在llamafactory目录下
  3. 编辑ds_config_zero3.json这个文件,将device改成cpu即可
python 复制代码
"zero_optimization": {
        "stage": 3,
        "offload_optimizer": {
            "device": "cpu",
            "pin_memory": true
        },
        "offload_param": {
            "device": "cpu",
            "pin_memory": true
        },

注: 若不知道这个配置的代表什么含义的话,可以看这一篇deepspeed配置讲解

  1. 启动llamafactory-cli webui ,把参数设置好,然后预览下启动命令,复制出来
  2. 将命令复制出来 ,在llamafactory当前目录下直接粘贴,启动就大功告成了!!!
    (据说更大的模型都可以训练,只是需要的时间很多,没办法,时间换空间是这样了)

启动后查看显卡使用情况,显卡直接拉满

命令:nvitop

如果没有这个命令,pip install nvitop ,就可以实时查看显卡使用情况了

起飞

相关推荐
liulilittle7 分钟前
Linux 内核网络调优:单连接大带宽吞吐配置
linux·运维·服务器·网络·信息与通信·通信
视觉语言导航12 分钟前
CoRL-2025 | 物体相对控制赋能具身导航!ObjectReact:学习用于视觉导航的物体相对控制
人工智能·具身智能
EEE1even13 分钟前
Mac查看本机发出请求的IP地址
服务器·网络·mac
Chat_zhanggong34521 分钟前
HI3516CV610-20S开发板
人工智能·嵌入式硬件·编辑器
莫***先25 分钟前
鼎锋优配股票杠杆AI应用软件股走强,Figma涨幅超14%,Confluent涨超10%
人工智能·figma
数在表哥35 分钟前
从数据沼泽到智能决策:数据驱动与AI融合的中台建设方法论与技术实践指南(四)
大数据·人工智能
愚润求学35 分钟前
【Linux】数据链路层 and 其他知识
linux·运维·网络
我的xiaodoujiao43 分钟前
从 0 到 1 搭建 Python 语言 Web UI自动化测试学习系列 15--二次开发--封装公共方法 3
python·学习·测试工具
爱思德学术44 分钟前
中国计算机学会(CCF)推荐学术会议-C(数据库/数据挖掘/内容检索):PAKDD 2026
大数据·机器学习·数据挖掘·知识发现
AI视觉网奇44 分钟前
pyqt 触摸屏监听
开发语言·python·pyqt