Datawhale AI 夏令营—从零入门多模态大模型数据合成—Task2学习笔记

精读Baseline

环境准备

下载

下载BLIP模型 和 基础数据

完成后可以备份为镜像,方便回滚。

数据处理

从数据集中提取文本和图片的对应关系

BLIP 它 ++免费、免费、免费++且参数量小;在数据处理中使用 BLIP 来进行图片对应文字字幕的获取。

Data-juicer,扮演"调度者",把对应的多模态caption算子指定为 BLIP:

先用最小的数据进行训练跑通,之后再替换成更大的数据:

训练

金钱狂掉的关键环节;

注意几个关键的训练参数配置,分别是pretrain以及finetune;

使用MGM框架进行多模态模型微调,通过Deepseed的zero2优化策略来平衡内存和显存的使用,确保大语言模型和视觉编码器的有效集成和训练。

MGM、TextVQA、MMBench、data-juicer 还需后续继续学习......

相关推荐
麦兜*25 分钟前
内存杀手机器:TensorFlow Lite + Spring Boot移动端模型服务深度优化方案
java·人工智能·spring boot·spring cloud·ai·tensorflow·ai编程
teeeeeeemo28 分钟前
Ajax、Axios、Fetch核心区别
开发语言·前端·javascript·笔记·ajax
在钱塘江41 分钟前
LangGraph构建Ai智能体-7-智能体人机交互-HITL
人工智能·python
彼方卷不动了1 小时前
【AI 学习】用 Kotlin 开发一个最基础的 MCP Server 并让它与 Cursor 联动
人工智能·kotlin·mcp
说私域1 小时前
基于梅特卡夫定律的开源链动2+1模式AI智能名片S2B2C商城小程序价值重构研究
人工智能·小程序·开源
鲸鱼在dn1 小时前
RAG-大模型课程《李宏毅 2025》作业1笔记
人工智能·笔记·gpt·搜索引擎·语言模型·chatgpt
令狐寻欢1 小时前
AI 大模型应用进阶系列(五):FastAPI 入门
人工智能·python·fastapi
POLOAPI2 小时前
被低估的效率巨兽:Claude Flow 隐藏功能竟能让任务提速 24 倍?
人工智能·ai编程·claude
Cx330❀2 小时前
【数据结构初阶】--二叉树(三)
c语言·数据结构·经验分享·笔记
aneasystone本尊2 小时前
学习 Coze Studio 的代码架构
人工智能