Datawhale AI 夏令营—从零入门多模态大模型数据合成—Task2学习笔记

精读Baseline

环境准备

下载

下载BLIP模型 和 基础数据

完成后可以备份为镜像,方便回滚。

数据处理

从数据集中提取文本和图片的对应关系

BLIP 它 ++免费、免费、免费++且参数量小;在数据处理中使用 BLIP 来进行图片对应文字字幕的获取。

Data-juicer,扮演"调度者",把对应的多模态caption算子指定为 BLIP:

先用最小的数据进行训练跑通,之后再替换成更大的数据:

训练

金钱狂掉的关键环节;

注意几个关键的训练参数配置,分别是pretrain以及finetune;

使用MGM框架进行多模态模型微调,通过Deepseed的zero2优化策略来平衡内存和显存的使用,确保大语言模型和视觉编码器的有效集成和训练。

MGM、TextVQA、MMBench、data-juicer 还需后续继续学习......

相关推荐
我很哇塞耶2 分钟前
从检索到生成全优化:ACL 2025 新方法 DRAG,复杂查询 RAG 新救星
人工智能·ai·大模型·rag·检索增强生成
YJlio4 分钟前
[鸿蒙2025领航者闯关] 基于鸿蒙 6 的「隐私感知跨设备办公助手」实战:星盾安全 + AI防窥 + 方舟引擎优化全流程复盘
人工智能·安全·harmonyos
Sandman6z5 分钟前
快速上手:国内通过 Gitee 学习使用在线托管平台
学习·gitee
ghie90907 分钟前
线性三角波连续调频毫米波雷达目标识别
人工智能·算法·计算机视觉
学习中的数据喵10 分钟前
可以看穿事物“本质“的LDA
人工智能·机器学习
fj_changing11 分钟前
Ubuntu 22.04部署CosyVoice
人工智能·python·深度学习·ubuntu·ai
on_pluto_12 分钟前
【debug】解决 conda 和 镜像下载pytorch太慢的问题
人工智能·pytorch·conda
GIS程序媛—椰子13 分钟前
从后端到 AI/Agent:那些可迁移的系统思维(未完结)
人工智能·后端
nix.gnehc14 分钟前
PyTorch基础概念
人工智能·pytorch·python
ouliten17 分钟前
C++笔记:std::priority_queue
c++·笔记