多模态大模型微调记录

VisualGLMhttps://github.com/THUDM/VisualGLM-6Bhttps://github.com/THUDM/VisualGLM-6B

清华大学开源的多模态大模型,具有62亿参数的中英双语言模型

基本思路:

1 通过中间模块(Qformer)构建起预训练视觉和语言的桥梁

2 中英双语图文对大规模预训练(stage_1)

3 指令数据微调 (只有语言模型部分参数训练或者全参数训练)

VisualGLM https://github.com/OpenGVLab/LLaMA-Adaptehttps://github.com/OpenGVLab/LLaMA-Adapte

上海人工智能实验室开发的,使用Adapter方式,架构如图所示:

这个工作的几个贡献可以归结为

1 为了避免纯文本训练和图像指令训练的干扰,视觉token 只在语言模型的最开始几层Transformer Block 添加 + prefix adpter + 语言token ,

2 解锁更多训练参数,将 llama 层的 linear中的bias +归一化层参与训练

微调记录:

1 将视觉模型输入改为448*448,微调语言部分

实测效果:知识可以注入,效果也比较好

2 将视觉模型输入改为448*448, 同时微调视觉投影层部分参数并微调语言部分

实测效果:比1 好一点

3 将视觉模型输入改为448*448, 同时微调vit第一个卷积层+视觉投影层部分参数+微调语言部分

实测效果:出现混乱,结果偏差向出现概率比较大的词汇

改进:将语言部分换成llama2

相关推荐
天天代码码天天5 分钟前
C# OpenCvSharp 部署表格检测
人工智能·目标检测·表格检测
斯多葛的信徒9 分钟前
看看你的电脑可以跑 AI 模型吗?
人工智能·语言模型·电脑·llama
正在走向自律10 分钟前
AI 写作(六):核心技术与多元应用(6/10)
人工智能·aigc·ai写作
AI科技大本营10 分钟前
Anthropic四大专家“会诊”:实现深度思考不一定需要多智能体,AI完美对齐比失控更可怕!...
人工智能·深度学习
Cc不爱吃洋葱10 分钟前
如何本地部署AI智能体平台,带你手搓一个AI Agent
人工智能·大语言模型·agent·ai大模型·ai agent·智能体·ai智能体
网安打工仔11 分钟前
斯坦福李飞飞最新巨著《AI Agent综述》
人工智能·自然语言处理·大模型·llm·agent·ai大模型·大模型入门
AGI学习社11 分钟前
2024中国排名前十AI大模型进展、应用案例与发展趋势
linux·服务器·人工智能·华为·llama
AI_Tool11 分钟前
纳米AI搜索官网 - 新一代智能答案引擎
人工智能·搜索引擎
Damon小智12 分钟前
合合信息DocFlow产品解析与体验:人人可搭建的AI自动化单据处理工作流
图像处理·人工智能·深度学习·机器学习·ai·自动化·docflow
小虚竹12 分钟前
用AI辅导侄女大学物理的质点运动学问题
人工智能·chatgpt