【多模态读论文系列】LLaVA论文笔记

当前LLM的指令微调的研究已见成效，但在结合视觉和语言的多模态任务中尚未得到充分探索。

LLaVA结合了语言理解（由LLM提供）和视觉理解（通过视觉编码器实现），通过在GPT-4生成的数据上进行指令微调。

文章提出了一种新的视觉指令微调方法，首次将指令微调扩展到语言-图像的多模态空间。

本文使用ChatGPT/GPT-4来生成指令数据。具体方法如下：

在第一步生成的指令跟随数据中，缺乏多样性和深入的推理，为了解决这个问题，本文采用纯语言 GPT-4 或 ChatGPT (可能当时还没有好的图文模型，所以才用这种方法 )，创建涉及视觉内容的指令跟随数据。为了将图片信息编码为纯文本，这里使用了两种不同类型文本，（i）图片描述； (ii) 定位场景中的对象的边界框，每个框对对象概念及其空间位置进行编码。

对于给定的图像 X v X_v Xv 和其相关的描述 X c X_c Xc，GPT-4生成一系列问题 X q X_q Xq。指令跟随形式：
Human: Xq Xv<STOP> Assistant: Xc<STOP>。

对话。针对图像的视觉内容提出一系列不同的问题，包括对象类型、对象计数、对象动作、对象位置、对象之间的相对位置。仅考虑有明确答案的问题。以下是相关提示，要了解其他两类数据的生成提示可以去看源码：
详细描述。创建一个提示列表，每次随机抽取一个问题，要求 GPT-4 生成详细描述。

总共收集了 158K 个语言图像指令跟随样本，其中对话样本 58K，详细描述样本 23K，复杂推理样本 77K。

对于输入图像 X v X_v Xv，使用预训练的 CLIP 视觉编码器 ViT-L/14对图像进行编码，然后用一个简单的线性层将图像特征映射到词嵌入空间。

数据格式是第一轮对话输入的指令包含问题和图像对，之后的几轮对话输入的是指令，当前对话之前所有的对话都可以用于对当前对话的预测。

绿色的标记就是用户需要去学习的部分，学习如何回答问题，并且知道在哪里停止，所以只有绿色的部分会用来计算自回归模型中的损失。

文中使用two-stage指令微调过程：

训练成本： 8×A100

Stage 1（lr=2e-3, batch size=128, 1 epoch）：特征对齐预训练。从CC3M数据集中筛选出59.5万对图像-文本对，主要筛选方法是使用spacy计算CC3M数据集上每个名词短语出现的频率，首先筛选出频率大于3的名词短语，对于频率大于3小于100的名词短语对应的图像-文本对全部加入候选数据集，频率大于100的，随机抽取100个包含该名词短语的图像-文本对加入候选数据集。

将这些图像-文本对转换为指令跟随格式的数据，即对于每张图 X v X_v Xv，随机生成一个问题 X q X_q Xq，该问题是一个请求，提示模型简要描述图像内容。模型的"真实"预测答案 X a X_a Xa 是图像的原始描述。使用一个投影矩阵 θ = W θ=W θ=W 将图像特征 H v H_v Hv 转换到与语言模型词嵌入空间相同的维度，并最大化生成正确答案的概率，从而实现图像和文本的对齐，注意这里每个样本只有一轮对话。

Stage 2（lr=2e-5, batch size=32, 3 epoch）：端到端微调 。这一步把视觉编码器冻结，然后微调投影层和LLaVA中LLM的预训练权重，下面是两个具体的应用场景。
- 多模态对话机器人。使用上面收集的158K 个语言图像指令跟随样本，在三种类型的响应中，对话是多轮的，而其他两种是单轮的。它们在训练中用相同的比例进行采样。
- 科学问答。在 ScienceQA 基准上进行研究，数据集每个问题都以自然语言或图像的形式提供上下文。助手以自然语言提供推理过程，并在多项选择中选择答案。这里将数据组织为单轮对话，将问题和上下文组织为 X i n s t r u c t X_{instruct} Xinstruct，将推理和答案组织为 X a X_a Xa。

两个阶段均使用Adam优化器，cosine衰减学习率，warmup ratio 3%，对于第二阶段的微调，使用FSDP（全分片数据并行）和梯度检查点来节省显存，使用BF16和TF32混合精度。