多模态大模型微调记录

牛奶还是纯的好2023-09-25 18:11

清华大学开源的多模态大模型，具有62亿参数的中英双语言模型

基本思路：

1 通过中间模块（Qformer）构建起预训练视觉和语言的桥梁

2 中英双语图文对大规模预训练（stage_1）

3 指令数据微调（只有语言模型部分参数训练或者全参数训练）

上海人工智能实验室开发的，使用Adapter方式，架构如图所示：

这个工作的几个贡献可以归结为

1 为了避免纯文本训练和图像指令训练的干扰，视觉token 只在语言模型的最开始几层Transformer Block 添加 + prefix adpter + 语言token ,

2 解锁更多训练参数，将 llama 层的 linear中的bias +归一化层参与训练

微调记录：

1 将视觉模型输入改为448*448,微调语言部分

实测效果：知识可以注入，效果也比较好

2 将视觉模型输入改为448*448, 同时微调视觉投影层部分参数并微调语言部分

实测效果：比1 好一点

3 将视觉模型输入改为448*448, 同时微调vit第一个卷积层+视觉投影层部分参数+微调语言部分

实测效果：出现混乱，结果偏差向出现概率比较大的词汇

改进：将语言部分换成llama2