多模态大模型微调记录

VisualGLMhttps://github.com/THUDM/VisualGLM-6Bhttps://github.com/THUDM/VisualGLM-6B

清华大学开源的多模态大模型,具有62亿参数的中英双语言模型

基本思路:

1 通过中间模块(Qformer)构建起预训练视觉和语言的桥梁

2 中英双语图文对大规模预训练(stage_1)

3 指令数据微调 (只有语言模型部分参数训练或者全参数训练)

VisualGLM https://github.com/OpenGVLab/LLaMA-Adaptehttps://github.com/OpenGVLab/LLaMA-Adapte

上海人工智能实验室开发的,使用Adapter方式,架构如图所示:

这个工作的几个贡献可以归结为

1 为了避免纯文本训练和图像指令训练的干扰,视觉token 只在语言模型的最开始几层Transformer Block 添加 + prefix adpter + 语言token ,

2 解锁更多训练参数,将 llama 层的 linear中的bias +归一化层参与训练

微调记录:

1 将视觉模型输入改为448*448,微调语言部分

实测效果:知识可以注入,效果也比较好

2 将视觉模型输入改为448*448, 同时微调视觉投影层部分参数并微调语言部分

实测效果:比1 好一点

3 将视觉模型输入改为448*448, 同时微调vit第一个卷积层+视觉投影层部分参数+微调语言部分

实测效果:出现混乱,结果偏差向出现概率比较大的词汇

改进:将语言部分换成llama2

相关推荐
靴子学长37 分钟前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
AI_NEW_COME2 小时前
知识库管理系统可扩展性深度测评
人工智能
海棠AI实验室2 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself2 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
IT古董3 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
centurysee3 小时前
【最佳实践】Anthropic:Agentic系统实践案例
人工智能
mahuifa3 小时前
混合开发环境---使用编程AI辅助开发Qt
人工智能·vscode·qt·qtcreator·编程ai
四口鲸鱼爱吃盐3 小时前
Pytorch | 从零构建GoogleNet对CIFAR10进行分类
人工智能·pytorch·分类
蓝天星空3 小时前
Python调用open ai接口
人工智能·python
睡觉狂魔er3 小时前
自动驾驶控制与规划——Project 3: LQR车辆横向控制
人工智能·机器学习·自动驾驶