Datawhale AI 夏令营—从零入门多模态大模型数据合成—Task2学习笔记

精读Baseline

环境准备

下载

下载BLIP模型 和 基础数据

完成后可以备份为镜像,方便回滚。

数据处理

从数据集中提取文本和图片的对应关系

BLIP 它 ++免费、免费、免费++且参数量小;在数据处理中使用 BLIP 来进行图片对应文字字幕的获取。

Data-juicer,扮演"调度者",把对应的多模态caption算子指定为 BLIP:

先用最小的数据进行训练跑通,之后再替换成更大的数据:

训练

金钱狂掉的关键环节;

注意几个关键的训练参数配置,分别是pretrain以及finetune;

使用MGM框架进行多模态模型微调,通过Deepseed的zero2优化策略来平衡内存和显存的使用,确保大语言模型和视觉编码器的有效集成和训练。

MGM、TextVQA、MMBench、data-juicer 还需后续继续学习......

相关推荐
数据与人工智能律师4 分钟前
数字资产革命中的信任之锚:RWA法律架构的隐形密码
大数据·网络·人工智能·云计算·区块链
CHANG_THE_WORLD15 分钟前
封装一个png的编码解码操作
图像处理·人工智能·计算机视觉
赛丽曼29 分钟前
Assistant API的原理及应用
人工智能·chatgpt
future14121 小时前
C#学习日记
开发语言·学习·c#
Yo_Becky1 小时前
【PyTorch】PyTorch预训练模型缓存位置迁移,也可拓展应用于其他文件的迁移
人工智能·pytorch·经验分享·笔记·python·程序人生·其他
DeepSeek-大模型系统教程1 小时前
深入金融与多模态场景实战:金融文档分块技术与案例汇总
人工智能·ai·语言模型·程序员·大模型·大模型学习·大模型教程
xinxiangwangzhi_1 小时前
pytorch底层原理学习--PyTorch 架构梳理
人工智能·pytorch·架构
yzx9910131 小时前
关于网络协议
网络·人工智能·python·网络协议
AiTEN_Robot1 小时前
AGV 无人叉车关键技术问题解析:精准定位算法 / 安全避障逻辑 / 系统对接协议全方案
人工智能·机器人·自动化·制造
云天徽上1 小时前
【PaddleOCR】OCR常见关键信息抽取数据集,包含FUNSD、XFUND、WildReceipt等整理,持续更新中......
人工智能·计算机视觉·信息可视化·paddlepaddle·paddleocr·文本识别