【论文笔记】Visual Instruction Tuning

🍊个人网站：小嗷犬的技术小站

🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

标题 : Visual Instruction Tuning
作者 : Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
发表 : Advances in Neural Information Processing Systems 36 (NeurIPS 2023)
arxiv : https://arxiv.org/abs/2304.08485
项目主页 : https://llava-vl.github.io/

使用机器生成的指令遵循数据对大型语言模型（LLMs）进行指令微调已被证明可以提升新任务上的零样本能力，但在多模态领域这一想法探索较少。

我们首次尝试使用仅语言GPT-4生成多模态语言-图像指令遵循数据。

通过对这些生成数据进行指令微调，我们引入了LLaVA：大型语言和视觉助手，这是一个端到端训练的大规模多模态模型，它将视觉编码器和LLM连接起来，以实现通用视觉和语言理解。

为了促进未来对视觉指令遵循的研究，我们构建了两个具有多样性和挑战性应用任务的评估基准。

我们的实验表明，LLaVA展示了令人印象深刻的跨模态聊天能力，有时在未见过的图像/指令上表现出多模态GPT-4的行为，并在一个合成的多模态指令遵循数据集上相对于GPT-4实现了85.1%的相对分数。

当在科学问答（Science QA）上进行微调时，LLaVA和GPT-4的协同作用达到了92.53%的新最精确度。

我们将GPT-4生成的视觉指令微调数据、我们的模型和代码公开提供。

基于COCO数据集，将其文本标签输入到GPT-4，构造出三类视觉指令数据：

两阶段训练：

Stage 1 特征对齐预训练 :
- 数据集: CC595K
- 🔥Projection
- ❄️Visual Encoder, Language Model
Stage 2 端到端微调训练 :
- 数据集: Multimodal Chatbot, Science QA
- 🔥Projection, Language Model
- ❄️Visual Encoder

LLaVA Benchmark (COCO)。从COCO-Val-2014中随机选择了30张图像，每张图像生成上述三类问题，一共得到90个图像-指令对。
LLaVA Benchmark (In-the-Wild)。收集了24张多样化的图像，构造了共60个问题，为每张图像关联了一个高度详细且人工精选的描述并选择了适当的问题。

本文展示了视觉指令微调的有效性。

作者提出了一种自动流程来创建语言-图像指令跟随数据，基于此我们训练了LLaVA，一个多模态模型，用于跟随人类意图完成视觉任务。

它在ScienceQA上进行微调时达到了新的SoTA准确率，在多模态聊天数据上进行微调时具有出色的视觉聊天能力。

此外，作者提出了第一个用于研究多模态指令跟随能力的基准。

作者希望本工作能够激发未来关于构建更强大多模态模型的研究。