VisualGLMhttps://github.com/THUDM/VisualGLM-6Bhttps://github.com/THUDM/VisualGLM-6B
清华大学开源的多模态大模型,具有62亿参数的中英双语言模型
基本思路:
1 通过中间模块(Qformer)构建起预训练视觉和语言的桥梁
2 中英双语图文对大规模预训练(stage_1)
3 指令数据微调 (只有语言模型部分参数训练或者全参数训练)
VisualGLM https://github.com/OpenGVLab/LLaMA-Adaptehttps://github.com/OpenGVLab/LLaMA-Adapte
上海人工智能实验室开发的,使用Adapter方式,架构如图所示:
这个工作的几个贡献可以归结为
1 为了避免纯文本训练和图像指令训练的干扰,视觉token 只在语言模型的最开始几层Transformer Block 添加 + prefix adpter + 语言token ,
2 解锁更多训练参数,将 llama 层的 linear中的bias +归一化层参与训练
微调记录:
1 将视觉模型输入改为448*448,微调语言部分
实测效果:知识可以注入,效果也比较好
2 将视觉模型输入改为448*448, 同时微调视觉投影层部分参数并微调语言部分
实测效果:比1 好一点
3 将视觉模型输入改为448*448, 同时微调vit第一个卷积层+视觉投影层部分参数+微调语言部分
实测效果:出现混乱,结果偏差向出现概率比较大的词汇
改进:将语言部分换成llama2