QwenVL - 202310版-论文阅读

读完感觉文章的贡献:

  1. 开源:此前开源的模型效果明显落后闭源的

  2. 三阶段训练方案

  3. 网络架构: ViT+VL Adapter + LLM

  4. Qwen-VLs are a series of highly performant and versatile vision-language foundationmodels based on Qwen-7B (Qwen, 2023) language model.

We empower the LLM basement with visualcapacity by introducing a new visual receptor including a language-aligned visual encoder and a position-aware adapter.


一些有趣的点:

  1. 文章说用的是QWen-7B的中间版本,不是最终版本,原因是QWen-7B和QWen-VL是几乎同步研发的,哈哈哈,好现实的原因

一些疑问:

  1. 不同任务有不同数据,怎么决定这些数据训练的顺序?随机打乱?竟然还有纯文本数据,纯文本只训练Qwen-7B?

个人感觉不足的地方:

对于方法的介绍部分比较少,以及对于网络框架为什么这么设计的说明。不过可能文章本身定位也是technical report?


一些训练细节:

一共分为三个训练阶段,如下图所示,火代表参数可更新,冰代表冷冻住了不可更新。

第一个阶段-预训练:训练损失函数是生成的文本的交叉熵,本质是一个图生文任务感觉不直接训练三个模块是为了降低训练难度?QwenLM里面7B的参数是不动的,这样只需要训剩下的1.98B

第二个阶段-多任务预训练:训练损失函数还是生成的文本的交叉熵,和第一阶段很像。区别在于把QWen-7B解冻了,也会去训练。还有就是数据不一样。数据中还有纯文本数据。感觉是为了让ViT和Qwen-7B融合得更好

第三个阶段-微调:为了让模型有更好的指令跟随能力和推理能力。这里把ViT冻住了。没说损失函数。这里会用强化学习吗?这里叫微调感觉主要是数据量少(350k),且模型已经具备一定能力,这里是让输出更符合人的习惯。和前面两个阶段还有一个很大不同的是,数据格式不一样,会加上图片标识,且计算损失函数时候不会把人提问的内容加进去(前面两个阶段没有人提问的prompt)

  1. 第一阶段预训练数据量:公开数据及+爬下来的图+内部数据50亿张图,清洗后保留到14亿张

第一阶段训练超参:

图像被下采样成224*224的图片。

训练时batch_size是30720=3×5x2^11,step是50,000,乘起来恰好是15亿左右(15.36亿

2第二阶段多任务预训练

数据量。不同任务有不同数据,怎么决定这些数量的顺序?随机打乱?竟然还有纯文本数据,纯文本只训练Qwen-7B?

这里图片的大小变成448*448。并且为了降低模型数据量,附件3说采用了window attention。window attention会改变网络结构吗?感觉并没有采用window attention吧

  1. 第三阶段数据集
相关推荐
540_540几秒前
ADVANCE Day45
人工智能·python·深度学习
Kun Li4 分钟前
claude使用总结
人工智能
IvorySQL9 分钟前
PostgreSQL 的 SQL 查询之旅
数据库·人工智能·postgresql·开源
云和数据.ChenGuang12 分钟前
人工智能实践之基于CNN的街区餐饮图片识别案例实践
人工智能·深度学习·神经网络·机器学习·cnn
刘懂Dawn12 分钟前
07844_人工智能导论_复习资料
人工智能
北京耐用通信14 分钟前
耐达讯自动化赋能:Canopen转Profibus网关水泵连接新范式
人工智能·科技·物联网·自动化·信息与通信
纪伊路上盛名在21 分钟前
如何为我们的GPU设备选择合适的CUDA版本和Torch版本?
pytorch·深度学习·torch·cuda·英伟达
小途软件25 分钟前
ssm327校园二手交易平台的设计与实现+vue
java·人工智能·pytorch·python·深度学习·语言模型
小咖自动剪辑26 分钟前
小咖批量剪辑助手:Windows 视频批量自动剪辑与混剪工具
人工智能·音视频·语音识别·实时音视频·视频编解码
京东零售技术28 分钟前
ACM Multimedia | 京东零售广告创意:统一的布局生成和评估模型
人工智能