精读Baseline
环境准备
下载
下载BLIP模型 和 基础数据
完成后可以备份为镜像,方便回滚。
数据处理
从数据集中提取文本和图片的对应关系
BLIP 它 ++免费、免费、免费++且参数量小;在数据处理中使用 BLIP 来进行图片对应文字字幕的获取。
Data-juicer,扮演"调度者",把对应的多模态caption算子指定为 BLIP:
先用最小的数据进行训练跑通,之后再替换成更大的数据:
训练
金钱狂掉的关键环节;
注意几个关键的训练参数配置,分别是pretrain以及finetune;
使用MGM框架进行多模态模型微调,通过Deepseed的zero2优化策略来平衡内存和显存的使用,确保大语言模型和视觉编码器的有效集成和训练。