Datawhale AI 夏令营—从零入门多模态大模型数据合成—Task2学习笔记

精读Baseline

环境准备

下载

下载BLIP模型 和 基础数据

完成后可以备份为镜像,方便回滚。

数据处理

从数据集中提取文本和图片的对应关系

BLIP 它 ++免费、免费、免费++且参数量小;在数据处理中使用 BLIP 来进行图片对应文字字幕的获取。

Data-juicer,扮演"调度者",把对应的多模态caption算子指定为 BLIP:

先用最小的数据进行训练跑通,之后再替换成更大的数据:

训练

金钱狂掉的关键环节;

注意几个关键的训练参数配置,分别是pretrain以及finetune;

使用MGM框架进行多模态模型微调,通过Deepseed的zero2优化策略来平衡内存和显存的使用,确保大语言模型和视觉编码器的有效集成和训练。

MGM、TextVQA、MMBench、data-juicer 还需后续继续学习......

相关推荐
chaors2 分钟前
从零学RAG0x02向量数据库
人工智能·aigc·ai编程
陈少波AI应用笔记5 分钟前
硅谷龙虾大战技术拆解:当AI长出爪子
人工智能
冬奇Lab36 分钟前
一天一个开源项目(第39篇):PandaWiki - AI 驱动的开源知识库搭建系统
人工智能·开源·资讯
大模型真好玩1 小时前
LangChain DeepAgents 速通指南(三)—— 让Agent告别混乱:Tool Selector与Todo List中间件解析
人工智能·langchain·trae
孟祥_成都2 小时前
【全网最通俗!新手到AI全栈开发必读】 AI 是如何进化到大模型的
前端·人工智能·全栈
牛奶2 小时前
AI辅助开发的基础概念
前端·人工智能·ai编程
东坡肘子2 小时前
OpenClaw 不错,但我好像没有那么需要 -- 肘子的 Swift 周报 #125
人工智能·swiftui·swift
风象南10 小时前
普通人用AI加持赚到的第一个100块
人工智能·后端
牛奶10 小时前
2026年大模型怎么选?前端人实用对比
前端·人工智能·ai编程
牛奶10 小时前
前端人为什么要学AI?
前端·人工智能·ai编程