多模态大模型微调记录

VisualGLMhttps://github.com/THUDM/VisualGLM-6Bhttps://github.com/THUDM/VisualGLM-6B

清华大学开源的多模态大模型,具有62亿参数的中英双语言模型

基本思路:

1 通过中间模块(Qformer)构建起预训练视觉和语言的桥梁

2 中英双语图文对大规模预训练(stage_1)

3 指令数据微调 (只有语言模型部分参数训练或者全参数训练)

VisualGLM https://github.com/OpenGVLab/LLaMA-Adaptehttps://github.com/OpenGVLab/LLaMA-Adapte

上海人工智能实验室开发的,使用Adapter方式,架构如图所示:

这个工作的几个贡献可以归结为

1 为了避免纯文本训练和图像指令训练的干扰,视觉token 只在语言模型的最开始几层Transformer Block 添加 + prefix adpter + 语言token ,

2 解锁更多训练参数,将 llama 层的 linear中的bias +归一化层参与训练

微调记录:

1 将视觉模型输入改为448*448,微调语言部分

实测效果:知识可以注入,效果也比较好

2 将视觉模型输入改为448*448, 同时微调视觉投影层部分参数并微调语言部分

实测效果:比1 好一点

3 将视觉模型输入改为448*448, 同时微调vit第一个卷积层+视觉投影层部分参数+微调语言部分

实测效果:出现混乱,结果偏差向出现概率比较大的词汇

改进:将语言部分换成llama2

相关推荐
沃达德软件4 小时前
智慧警务图像融合大数据
大数据·图像处理·人工智能·目标检测·计算机视觉·目标跟踪
QxQ么么4 小时前
移远通信(桂林)26校招-助理AI算法工程师-面试纪录
人工智能·python·算法·面试
愤怒的可乐5 小时前
从零构建大模型智能体:统一消息格式,快速接入大语言模型
人工智能·语言模型·自然语言处理
每天一个java小知识6 小时前
AI Agent
人工智能
猫头虎6 小时前
如何解决 pip install 编译报错 fatal error: hdf5.h: No such file or directory(h5py)问题
人工智能·python·pycharm·开源·beautifulsoup·ai编程·pip
龙赤子6 小时前
人工智能AI的大框架
人工智能
比奥利奥还傲.6 小时前
本地+AI+大模型自由用!Cherry+Studio打破局域网限制
人工智能
雪碧聊技术6 小时前
深度学习、机器学习、人工智能三者的关系
人工智能·深度学习·机器学习
β添砖java6 小时前
机器学习初级
人工智能·机器学习
陈奕昆6 小时前
n8n实战营Day3:电商订单全流程自动化·需求分析与流程拆解
大数据·开发语言·人工智能·自动化·需求分析·n8n