QwenVL - 202310版-论文阅读

读完感觉文章的贡献:

  1. 开源:此前开源的模型效果明显落后闭源的

  2. 三阶段训练方案

  3. 网络架构: ViT+VL Adapter + LLM

  4. Qwen-VLs are a series of highly performant and versatile vision-language foundationmodels based on Qwen-7B (Qwen, 2023) language model.

We empower the LLM basement with visualcapacity by introducing a new visual receptor including a language-aligned visual encoder and a position-aware adapter.


一些有趣的点:

  1. 文章说用的是QWen-7B的中间版本,不是最终版本,原因是QWen-7B和QWen-VL是几乎同步研发的,哈哈哈,好现实的原因

一些疑问:

  1. 不同任务有不同数据,怎么决定这些数据训练的顺序?随机打乱?竟然还有纯文本数据,纯文本只训练Qwen-7B?

个人感觉不足的地方:

对于方法的介绍部分比较少,以及对于网络框架为什么这么设计的说明。不过可能文章本身定位也是technical report?


一些训练细节:

一共分为三个训练阶段,如下图所示,火代表参数可更新,冰代表冷冻住了不可更新。

第一个阶段-预训练:训练损失函数是生成的文本的交叉熵,本质是一个图生文任务感觉不直接训练三个模块是为了降低训练难度?QwenLM里面7B的参数是不动的,这样只需要训剩下的1.98B

第二个阶段-多任务预训练:训练损失函数还是生成的文本的交叉熵,和第一阶段很像。区别在于把QWen-7B解冻了,也会去训练。还有就是数据不一样。数据中还有纯文本数据。感觉是为了让ViT和Qwen-7B融合得更好

第三个阶段-微调:为了让模型有更好的指令跟随能力和推理能力。这里把ViT冻住了。没说损失函数。这里会用强化学习吗?这里叫微调感觉主要是数据量少(350k),且模型已经具备一定能力,这里是让输出更符合人的习惯。和前面两个阶段还有一个很大不同的是,数据格式不一样,会加上图片标识,且计算损失函数时候不会把人提问的内容加进去(前面两个阶段没有人提问的prompt)

  1. 第一阶段预训练数据量:公开数据及+爬下来的图+内部数据50亿张图,清洗后保留到14亿张

第一阶段训练超参:

图像被下采样成224*224的图片。

训练时batch_size是30720=3×5x2^11,step是50,000,乘起来恰好是15亿左右(15.36亿

2第二阶段多任务预训练

数据量。不同任务有不同数据,怎么决定这些数量的顺序?随机打乱?竟然还有纯文本数据,纯文本只训练Qwen-7B?

这里图片的大小变成448*448。并且为了降低模型数据量,附件3说采用了window attention。window attention会改变网络结构吗?感觉并没有采用window attention吧

  1. 第三阶段数据集
相关推荐
春日见18 分钟前
自动驾驶规划控制决策知识点扫盲
linux·运维·服务器·人工智能·机器学习·自动驾驶
人工智能AI技术26 分钟前
【Agent从入门到实践】43 接口封装:将Agent封装为API服务,供其他系统调用
人工智能·python
hjs_deeplearning28 分钟前
文献阅读篇#14:自动驾驶中的基础模型:场景生成与场景分析综述(5)
人工智能·机器学习·自动驾驶
nju_spy41 分钟前
离线强化学习(一)BCQ 批量限制 Q-learning
人工智能·强化学习·cvae·离线强化学习·双 q 学习·bcq·外推泛化误差
副露のmagic1 小时前
深度学习基础复健
人工智能·深度学习
番茄大王sc1 小时前
2026年科研AI工具深度测评(一):文献调研与综述生成领域,维普科创助手领跑学术严谨性
人工智能·深度学习·考研·学习方法·论文笔记
代码丰1 小时前
SpringAI+RAG向量库+知识图谱+多模型路由+Docker打造SmartHR智能招聘助手
人工智能·spring·知识图谱
独处东汉2 小时前
freertos开发空气检测仪之输入子系统结构体设计
数据结构·人工智能·stm32·单片机·嵌入式硬件·算法
乐迪信息2 小时前
乐迪信息:AI防爆摄像机在船舶监控的应用
大数据·网络·人工智能·算法·无人机
风栖柳白杨2 小时前
【语音识别】soundfile使用方法
人工智能·语音识别