Datawhale AI 夏令营—从零入门多模态大模型数据合成—Task2学习笔记

精读Baseline

环境准备

下载

下载BLIP模型 和 基础数据

完成后可以备份为镜像,方便回滚。

数据处理

从数据集中提取文本和图片的对应关系

BLIP 它 ++免费、免费、免费++且参数量小;在数据处理中使用 BLIP 来进行图片对应文字字幕的获取。

Data-juicer,扮演"调度者",把对应的多模态caption算子指定为 BLIP:

先用最小的数据进行训练跑通,之后再替换成更大的数据:

训练

金钱狂掉的关键环节;

注意几个关键的训练参数配置,分别是pretrain以及finetune;

使用MGM框架进行多模态模型微调,通过Deepseed的zero2优化策略来平衡内存和显存的使用,确保大语言模型和视觉编码器的有效集成和训练。

MGM、TextVQA、MMBench、data-juicer 还需后续继续学习......

相关推荐
智算菩萨几秒前
GPT-5.4 进阶思考模式全面解析:从推理等级到实战提示词,代码、论文、数据处理一站通
人工智能·gpt·深度学习·机器学习·语言模型·自然语言处理·chatgpt
程序员雷欧1 分钟前
大模型应用开发学习第一天
学习
易知微EasyV数据可视化3 分钟前
数字孪生+AI:某国家级技术科研机构:耦合仿真评估部件性能,长期运维监测承压状态
人工智能·经验分享·物联网·数字孪生·空间智能
一轮弯弯的明月3 分钟前
博弈论-Nim游戏
笔记·蓝桥杯·学习心得
星幻元宇VR4 分钟前
VR航空航天学习机|一场触手可及的太空之旅
科技·学习·安全·vr·虚拟现实
六个点5 分钟前
A2A协议入门:构建Agent之间的通信标准
人工智能
大学有意思6 分钟前
广西英华国际职业学院新能源汽车技术专业2026年权威解析
人工智能·机器人
枫叶林FYL6 分钟前
【自然语言处理 NLP】 大语言模型(LLM)系统工程(Large Language Model Engineering)5.1.2 ZeRO与显存优化技术
人工智能·深度学习·机器学习
Flying pigs~~7 分钟前
基于huggingface库Trainer实现Bert文本分类实战
人工智能·自然语言处理·bert·文本分类·huggingface·trainer
Gale2World9 分钟前
专题九:【终局演进】从“单体网关”到去中心化集群:分布式数字员工(Swarm)的宏大涌现
人工智能·agent