Datawhale AI 夏令营—从零入门多模态大模型数据合成—Task2学习笔记

赛博绮梦：Bug编梦录2024-08-16 10:14

精读Baseline

下载BLIP模型和基础数据

完成后可以备份为镜像，方便回滚。

从数据集中提取文本和图片的对应关系

BLIP 它 ++免费、免费、免费++且参数量小；在数据处理中使用 BLIP 来进行图片对应文字字幕的获取。

Data-juicer，扮演"调度者"，把对应的多模态caption算子指定为 BLIP：

先用最小的数据进行训练跑通，之后再替换成更大的数据：

金钱狂掉的关键环节；

注意几个关键的训练参数配置，分别是pretrain以及finetune；

使用MGM框架进行多模态模型微调，通过Deepseed的zero2优化策略来平衡内存和显存的使用，确保大语言模型和视觉编码器的有效集成和训练。