微调Chinese-clip

1.搭建环境

git clone https://github.com/OFA-Sys/Chinese-CLIP.git

mkdir clip-data,和Chinese-CLIP文件夹同一级

conda create -n cn-clip python==3.10

conda activate cn-clip

cd /data/Chinese-CLIP/

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.数据模型准备

下载模型:

下载模型可以根据官方的指定地址下载,这次我们微调的是基础版本的也就是clip-cn-vit-b-16.pt, clip-data/pretrained_weights

https://github.com/OFA-Sys/Chinese-CLIP?tab=readme-ov-file#模型规模--下载链接

下载数据:

https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/MUGE.zip

这里面是标准的数据集格式,文件名是这个数据集的名字,将它放在clip-data/datasets目录下,并解压

修改脚本

使用run_scripts/muge_finetune_vit-b-16_rbt-base.sh这个基础版的脚本

主要是单卡或者多卡训练参数配置以及相关参数设置,batchsize lr这些等:

3.训练

执行命令,将这个进程挂到后台

nohup bash run_scripts/muge_finetune_vit-b-16_rbt-base.sh /home/fsy23/CSDN/clip-data/ > train.log 2>&1 &

训练日志我们可以通过两个地方看到,一个是我们自己在命令行指定的 train.log,一个是官方的指定目录。我们打开log

可能会出现报错:

修改:

在训练脚本里面,

在在cn_clip/training/params.py里面也要修改

还需要在cn_clip/training/main.py脚本里面修改一下,一共6处

重新运行一下脚本命令:

bash run_scripts/muge_finetune_vit-b-16_rbt-base.sh /data/LLM/clip-data/

单卡训练:

开始训练:

相关推荐
lxh01137 小时前
最长递增子序列
前端·数据结构·算法
汽车仪器仪表相关领域7 小时前
LambdaCAN:重构专业空燃比测量的数字化范式
大数据·人工智能·功能测试·安全·重构·汽车·压力测试
璞华Purvar7 小时前
地方产投集团数字化平台建设实战:从内控管理到决策赋能(璞华公开课第5期活动回顾)
大数据·人工智能
Byron Loong7 小时前
【半导体】KLA 公司eDR介绍
人工智能
Jay20021117 小时前
【机器学习】31-32 强化学习介绍 & 状态-动作值函数
人工智能·机器学习
测试人社区-千羽7 小时前
大语言模型在软件测试中的应用与挑战
人工智能·测试工具·语言模型·自然语言处理·面试·职场和发展·aigc
Youyzq7 小时前
前端项目发布到cdn上css被编译失效问题rgba失效和rgb失效
前端·css·算法·cdn
风筝在晴天搁浅8 小时前
代码随想录 516.最长回文子序列
算法
niaonao8 小时前
企业级AI Agent本地化部署实战:基于讯飞星辰与Astron的实战详解(附避坑清单)
人工智能·agent·科大讯飞·astron
ModelWhale8 小时前
实训赋能,平台支撑:和鲸科技助力南京大学人工智能基础课落地
人工智能·科技