多模态大模型微调记录

VisualGLMhttps://github.com/THUDM/VisualGLM-6Bhttps://github.com/THUDM/VisualGLM-6B

清华大学开源的多模态大模型,具有62亿参数的中英双语言模型

基本思路:

1 通过中间模块(Qformer)构建起预训练视觉和语言的桥梁

2 中英双语图文对大规模预训练(stage_1)

3 指令数据微调 (只有语言模型部分参数训练或者全参数训练)

VisualGLM https://github.com/OpenGVLab/LLaMA-Adaptehttps://github.com/OpenGVLab/LLaMA-Adapte

上海人工智能实验室开发的,使用Adapter方式,架构如图所示:

这个工作的几个贡献可以归结为

1 为了避免纯文本训练和图像指令训练的干扰,视觉token 只在语言模型的最开始几层Transformer Block 添加 + prefix adpter + 语言token ,

2 解锁更多训练参数,将 llama 层的 linear中的bias +归一化层参与训练

微调记录:

1 将视觉模型输入改为448*448,微调语言部分

实测效果:知识可以注入,效果也比较好

2 将视觉模型输入改为448*448, 同时微调视觉投影层部分参数并微调语言部分

实测效果:比1 好一点

3 将视觉模型输入改为448*448, 同时微调vit第一个卷积层+视觉投影层部分参数+微调语言部分

实测效果:出现混乱,结果偏差向出现概率比较大的词汇

改进:将语言部分换成llama2

相关推荐
三万棵雪松5 小时前
【AI小智硬件程序(九)】
c++·人工智能·嵌入式·esp32·ai小智
深圳佛手5 小时前
未来已来,首款AI手机“豆包手机”问世
人工智能·智能手机
力学与人工智能5 小时前
博士学位答辩PPT分享 | 基于机器学习的复杂流场预测方法研究
人工智能·机器学习·西北工业大学·航空航天·答辩·博士学位·ppt分享
视觉震撼5 小时前
为大型语言模型(LLM)自动化知识图谱流水线:2026年手册
人工智能·算法·机器学习
Hi202402175 小时前
使用星图AI算力平台训练PETRV2-BEV模型
人工智能·自动驾驶·gpu·机器视觉·bev·算力平台
Li emily5 小时前
如何获取免费加密货币历史数据和实时行情接口
人工智能·api·美股
中科天工5 小时前
解锁效率革命:智能包装的工业4.0实践
大数据·人工智能·智能
明明如月学长5 小时前
别再神话 Claude Skills 了:这 12 个“致命”局限性你必须知道
人工智能
aigcapi5 小时前
GPT API 哪家好?2026 企业级优选,4SAPI(星链引擎)凭四大核心优势领跑
大数据·人工智能·gpt
围炉聊科技5 小时前
GLM-Image:国产芯片训练的混合架构图像生成模型解析
人工智能