多模态大模型微调记录

VisualGLMhttps://github.com/THUDM/VisualGLM-6Bhttps://github.com/THUDM/VisualGLM-6B

清华大学开源的多模态大模型,具有62亿参数的中英双语言模型

基本思路:

1 通过中间模块(Qformer)构建起预训练视觉和语言的桥梁

2 中英双语图文对大规模预训练(stage_1)

3 指令数据微调 (只有语言模型部分参数训练或者全参数训练)

VisualGLM https://github.com/OpenGVLab/LLaMA-Adaptehttps://github.com/OpenGVLab/LLaMA-Adapte

上海人工智能实验室开发的,使用Adapter方式,架构如图所示:

这个工作的几个贡献可以归结为

1 为了避免纯文本训练和图像指令训练的干扰,视觉token 只在语言模型的最开始几层Transformer Block 添加 + prefix adpter + 语言token ,

2 解锁更多训练参数,将 llama 层的 linear中的bias +归一化层参与训练

微调记录:

1 将视觉模型输入改为448*448,微调语言部分

实测效果:知识可以注入,效果也比较好

2 将视觉模型输入改为448*448, 同时微调视觉投影层部分参数并微调语言部分

实测效果:比1 好一点

3 将视觉模型输入改为448*448, 同时微调vit第一个卷积层+视觉投影层部分参数+微调语言部分

实测效果:出现混乱,结果偏差向出现概率比较大的词汇

改进:将语言部分换成llama2

相关推荐
一切皆有可能!!2 小时前
实践篇:利用ragas在自己RAG上实现LLM评估②
人工智能·语言模型
月白风清江有声3 小时前
爆炸仿真的学习日志
人工智能
华奥系科技5 小时前
智慧水务发展迅猛:从物联网架构到AIoT系统的跨越式升级
人工智能·物联网·智慧城市
R²AIN SUITE5 小时前
MCP协议重构AI Agent生态:万能插槽如何终结工具孤岛?
人工智能
b***25115 小时前
动力电池点焊机:驱动电池焊接高效与可靠的核心力量|比斯特自动化
人工智能·科技·自动化
Gyoku Mint5 小时前
机器学习×第二卷:概念下篇——她不再只是模仿,而是开始决定怎么靠近你
人工智能·python·算法·机器学习·pandas·ai编程·matplotlib
小和尚同志5 小时前
通俗易懂的 MCP 概念入门
人工智能·aigc
dudly6 小时前
大语言模型评测体系全解析(下篇):工具链、学术前沿与实战策略
人工智能·语言模型
zzlyx996 小时前
AI大数据模型如何与thingsboard物联网结合
人工智能·物联网
说私域6 小时前
定制开发开源AI智能名片驱动下的海报工厂S2B2C商城小程序运营策略——基于社群口碑传播与子市场细分的实证研究
人工智能·小程序·开源·零售