微调Chinese-clip

1.搭建环境

git clone https://github.com/OFA-Sys/Chinese-CLIP.git

mkdir clip-data,和Chinese-CLIP文件夹同一级

conda create -n cn-clip python==3.10

conda activate cn-clip

cd /data/Chinese-CLIP/

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.数据模型准备

下载模型:

下载模型可以根据官方的指定地址下载,这次我们微调的是基础版本的也就是clip-cn-vit-b-16.pt, clip-data/pretrained_weights

https://github.com/OFA-Sys/Chinese-CLIP?tab=readme-ov-file#模型规模--下载链接

下载数据:

https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/MUGE.zip

这里面是标准的数据集格式,文件名是这个数据集的名字,将它放在clip-data/datasets目录下,并解压

修改脚本

使用run_scripts/muge_finetune_vit-b-16_rbt-base.sh这个基础版的脚本

主要是单卡或者多卡训练参数配置以及相关参数设置,batchsize lr这些等:

3.训练

执行命令,将这个进程挂到后台

nohup bash run_scripts/muge_finetune_vit-b-16_rbt-base.sh /home/fsy23/CSDN/clip-data/ > train.log 2>&1 &

训练日志我们可以通过两个地方看到,一个是我们自己在命令行指定的 train.log,一个是官方的指定目录。我们打开log

可能会出现报错:

修改:

在训练脚本里面,

在在cn_clip/training/params.py里面也要修改

还需要在cn_clip/training/main.py脚本里面修改一下,一共6处

重新运行一下脚本命令:

bash run_scripts/muge_finetune_vit-b-16_rbt-base.sh /data/LLM/clip-data/

单卡训练:

开始训练:

相关推荐
remaindertime7 小时前
基于Ollama和Spring AI:实现本地大模型对话与 RAG 功能
人工智能·后端·ai编程
y***54887 小时前
Vue语音识别开发
人工智能·语音识别
sdjnled2297 小时前
山东裸眼3D立体LED显示屏专业服务商
人工智能·3d
徒慕风流7 小时前
GeoSight:基于 Open3D 与 PySide6 的参数化 3D 模型处理与实时点云监控工具
计算机视觉·3d·信号处理
Hcoco_me7 小时前
大模型面试题5:矩阵(M*M)特征值分解的步骤
算法·机器学习·矩阵
忘却的旋律dw7 小时前
使用LLM模型的tokenizer报错AttributeError: ‘dict‘ object has no attribute ‘model_type‘
人工智能·pytorch·python
学术小白人7 小时前
会议第一轮投稿!2026年物联网、数据科学与先进计算国际学术会议(IDSAC2026)
人工智能·物联网·数据分析·能源·制造·教育·rdlink研发家
极客BIM工作室7 小时前
用LLM+CadQuery自动生成CAD模型:CAD-Coder让文本秒变3D零件
人工智能·机器学习
苍何7 小时前
TRAE SOLO中国版终于来了,完全免费!
人工智能
苍何7 小时前
爆肝2天万字总结,飞书多维表格保姆级教程来了【建议收藏】
人工智能