微调Chinese-clip

1.搭建环境

git clone https://github.com/OFA-Sys/Chinese-CLIP.git

mkdir clip-data,和Chinese-CLIP文件夹同一级

conda create -n cn-clip python==3.10

conda activate cn-clip

cd /data/Chinese-CLIP/

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.数据模型准备

下载模型:

下载模型可以根据官方的指定地址下载,这次我们微调的是基础版本的也就是clip-cn-vit-b-16.pt, clip-data/pretrained_weights

https://github.com/OFA-Sys/Chinese-CLIP?tab=readme-ov-file#模型规模--下载链接

下载数据:

https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/MUGE.zip

这里面是标准的数据集格式,文件名是这个数据集的名字,将它放在clip-data/datasets目录下,并解压

修改脚本

使用run_scripts/muge_finetune_vit-b-16_rbt-base.sh这个基础版的脚本

主要是单卡或者多卡训练参数配置以及相关参数设置,batchsize lr这些等:

3.训练

执行命令,将这个进程挂到后台

nohup bash run_scripts/muge_finetune_vit-b-16_rbt-base.sh /home/fsy23/CSDN/clip-data/ > train.log 2>&1 &

训练日志我们可以通过两个地方看到,一个是我们自己在命令行指定的 train.log,一个是官方的指定目录。我们打开log

可能会出现报错:

修改:

在训练脚本里面,

在在cn_clip/training/params.py里面也要修改

还需要在cn_clip/training/main.py脚本里面修改一下,一共6处

重新运行一下脚本命令:

bash run_scripts/muge_finetune_vit-b-16_rbt-base.sh /data/LLM/clip-data/

单卡训练:

开始训练:

相关推荐
幸福拾荒者4 分钟前
Lyra提示词优化专家
人工智能
Vanranrr12 分钟前
C++临时对象与悬空指针:一个导致资源加载失败的隐藏陷阱
服务器·c++·算法
北京盛世宏博32 分钟前
档案馆空气质量联网监控趋势分析
人工智能·gru·lstm
小小码农一只1 小时前
AI与区块链结合的未来:数据安全与去中心化应用的探索
人工智能·去中心化·区块链
赵得C1 小时前
深度学习中的梯度问题与激活函数选择:从理论到实践
人工智能·深度学习
金融小师妹1 小时前
基于LSTM-GARCH混合模型:降息预期驱动金价攀升,白银刷新历史峰值的蒙特卡洛模拟验证
大数据·人工智能·深度学习·1024程序员节
A达峰绮1 小时前
AI时代下的护城河:哪些行业正被重塑,哪些将永不消失?
人工智能·ai·aigc
机器之心1 小时前
这下Altman急了,OpenAI紧急启动「红色警报」
人工智能·openai
新智元1 小时前
OpenAI 危!DeepSeek 放大招:追平谷歌最强,手撕 GPT-5 High
人工智能·openai
新知图书1 小时前
【新书推荐】《玩转FastGPT:像搭积木一样构建智能体》
人工智能·ai agent·智能体·大模型应用开发·大模型应用