Datawhale AI 夏令营—从零入门多模态大模型数据合成—Task2学习笔记

精读Baseline

环境准备

下载

下载BLIP模型 和 基础数据

完成后可以备份为镜像,方便回滚。

数据处理

从数据集中提取文本和图片的对应关系

BLIP 它 ++免费、免费、免费++且参数量小;在数据处理中使用 BLIP 来进行图片对应文字字幕的获取。

Data-juicer,扮演"调度者",把对应的多模态caption算子指定为 BLIP:

先用最小的数据进行训练跑通,之后再替换成更大的数据:

训练

金钱狂掉的关键环节;

注意几个关键的训练参数配置,分别是pretrain以及finetune;

使用MGM框架进行多模态模型微调,通过Deepseed的zero2优化策略来平衡内存和显存的使用,确保大语言模型和视觉编码器的有效集成和训练。

MGM、TextVQA、MMBench、data-juicer 还需后续继续学习......

相关推荐
小新同学^O^1 分钟前
简单学习 --> 文件IO
java·学习·文件io
志栋智能3 分钟前
超自动化巡检:实现精细化运维管理的基础
运维·服务器·网络·人工智能·自动化
学习使我快乐013 分钟前
Express 学习
学习·node.js·express
Cosolar4 分钟前
AI Agent 的记忆战争:OpenClaw vs Hermes vs QwenPaw vs HiClaw,谁真正"记得住"?
人工智能·后端·面试
cd_949217215 分钟前
迈克生物、迈瑞、安图怎么选?医学检验智慧实验室品牌选型维度
人工智能
naumy6 分钟前
AI-知识强记
人工智能
熠熠仔7 分钟前
《Agentic Design Patterns》概览
学习·设计模式
Csvn8 分钟前
AI代码生成和优化的新方法
人工智能
Soari8 分钟前
告别枯燥语法!深度拆解 easy-vibe:2026 年初学者迈入“Vibe Coding”的第一课
人工智能·claude
摩尔元数9 分钟前
特殊环境安全生产的AI运
人工智能·安全·制造·mes