【WIP】【VLA&VLM——InternVL系列】

InternVL

指出了目前VLM存在的几个问题：
1）LLM和Vision Enc的参数量不均衡：LLM参数量已经扩大到很大了，Vision Enc还只有1B左右；
2）视觉特征和语言特征没对齐：Vision Enc主要用纯图像数据做训练，于文本特征存在domain gap；
3）"glue layer"效果差：也就是Vision Enc过后的几层特征映射层(QFormer)，参数过少且往往随机初始化，不能有效的将视觉特征对齐；
综上，作者认为VLM的效果问题主要制约在视觉和语言从模型到特征的不对等上。InternVL致力于解决这种不均衡；
思考：
1）这个初版的InternVL和后面很大的不同是，为了让视觉特征对齐，专门用了一个QLLaMA进行两个阶段的预训练，目标就是将Vision Encoder的特征对其到Language上，这个是不是必要的，而且最后使用的语言模型反而不是LLaMA，而是Vicuna，这么操作是必要的嘛？我认为有些浪费，后面再看看InternVL2.5和InternVL3验证一下这个操作是不是一直被保留下来了。
2）总的来说，这篇工作专注于缓解视觉与语言特征的不均衡上，从各模块参数量、特征对齐方式、数据选择上都下了功夫。但是用一个LLM(QLLaMA)作glue layer，用另一个LLM(Vicunna)作LLM，结构上看起来不是很简洁，感觉后续还是有进一步改进的空间的。

Vision Encoder：InternViT-6B，将ViT参数量增大至6B，并针对模型width和depth进行一系列尝试，权衡速度和效果，最终确定如下模型配置。
Lauguage Middileware：QLLaMA，将7B的LLaMA，加上了1B的queries+cross attention layer，用于适配Vision Encoder的特征。这个"MiddleWare"的意义，就是将VisionEnc输出的特征对齐到语言空间中。
InternVL-chat
这里提供了两种用法，要么直接InternViT->Vicuna，要么InternViT+QLLaMA->Vicuna。但是后面好像没看到这两种用法的优劣？

第一阶段：参考CLIP方法，将InternViT-6B输出的图像特征和LLaMA-7B输出的文本特征进行对比学习(Contrastive Loss)。选用的数据集范围很广，可能包含噪声数据，但是可以接受。这个阶段主要目的是提升Vision Enc的基础视觉能力，并且对齐语言特征空间。补充：InternViT-6B是随机初始化的，LLaMA直接用的开源的pretrain作初始化；
第二阶段：参考BLIP方法，用（Generative Loss)，只训练QLLaMA新增的query+cross attention(1B)，进一步增强特征对齐的能力；并且让InternViT+QLLaMA获得image caption能力；另外这个阶段用的数据是上一阶段数据集提纯后得到的，数据量更少但是质量更好；
第三阶段：这个阶段直接在InternViT+QLLaMA后面衔接MLP+LLM(InternLM&Vecunna均可)。作者认为，由于stage1&2时VisionEnc与QLLaMA适配的很好了，而QLLaMA又和LLM的特征空间很相近，所以不需要再次对Vision和Text进行适配，所以只训练新增的MLP（可选：LLM）部分，既加速了训练又保留了LLM本身的能力；数据方面，这一阶段训练数据更精更少了，只有4 million左右的数量；

前面一些实验证明了InternViT-6B本身的感知能力，以及InternVL-C的zero-shot和泛化性，不详细写了。主要看下ablation study

可以看到，相比于MLP，QLLaMA能够明显涨点，作者认为这证明了QLLaMA作为glue layer能够更好的将视觉特征对齐到LLM上。（是不是有点存疑？）