mllm指令微调的关键技术

MLLM（Multimodal Large Language Model）指令微调的核心目标是：让模型在图像/视频/文档等多模态输入条件下，像聊天模型一样理解自然语言指令，并输出符合人类偏好的、可 grounding 的答案。关键技术可以按下面几类理解。

1. 多模态指令数据构建

这是最关键的一环。数据通常包含：

多模态输入 + 指令 + 期望回答

例如：

text 复制代码

<image>
请描述图片中的主要物体及其位置。
答案：图片中央有一只狗，左侧有一张椅子......

常见数据类型包括图像描述、VQA、OCR、图表理解、文档解析、目标定位、视觉推理、多轮对话、视频问答等。LLaVA 的代表性做法是使用 GPT-4 生成图文指令数据，再对视觉语言模型进行指令微调；InstructBLIP 则系统研究了基于 BLIP-2 的视觉语言指令微调。( $arXiv$ $1$ )

数据质量通常比数据量更重要。ShareGPT4V 强调用更高质量、更细粒度的图像描述来增强多模态对齐，其数据覆盖物体属性、空间关系、世界知识和审美判断等内容；后续研究也开始关注用模型自身进行数据筛选，以提升指令微调样本质量。( $arXiv$ $2$ )

2. 模态对齐：视觉编码器、连接器与语言模型

典型 MLLM 架构是：

text 复制代码

图像/视频 → Vision Encoder → Projector / Q-Former / Cross-Attention → LLM → 文本输出

指令微调前通常需要先做模态对齐：让视觉特征能被语言模型理解。常见做法包括冻结视觉编码器和 LLM，只训练 projector；或在后期解冻部分 LLM、projector、视觉编码器高层参数。LLaVA 用视觉编码器连接 LLM 形成端到端视觉语言助手；InstructBLIP 使用基于 BLIP-2 的结构做视觉语言指令微调。( $arXiv$ $1$ )

近年的经验表明，视觉编码器、输入分辨率、视觉 token 数量对性能影响很大。MM1 的系统实验指出，图像编码器、分辨率和图像 token 数对性能有显著影响，而连接器设计在一些设置下相对不那么关键。( $arXiv$ $3$ )

3. 分阶段训练策略

常见训练流程是：

视觉-语言预对齐：用图文对、caption 数据训练 projector，使图像特征映射到 LLM 可理解的语义空间。
监督式指令微调 SFT：用多任务、多轮、多模态指令数据训练模型遵循人类指令。
偏好对齐：用 RLHF、DPO、mDPO 等方法减少幻觉、提升回答偏好和安全性。
任务增强微调：针对 OCR、文档、图表、医学、工业质检、遥感等垂直场景继续微调。

LLaVA-v1.5 的改进经验显示，简单但高质量的视觉指令数据、学术 VQA 数据和响应格式设计可以显著增强基线模型。( $arXiv$ $4$ )

4. 参数高效微调：LoRA / QLoRA

完整微调大模型成本高，因此 MLLM 指令微调常用 PEFT 方法，尤其是 LoRA 和 QLoRA。

LoRA 的核心是冻结原模型权重，只在 Transformer 层中插入低秩可训练矩阵，从而显著减少可训练参数；QLoRA 则把基础模型量化到 4-bit，再通过 LoRA 反向传播，使大模型微调的显存成本大幅降低。( $arXiv$ $5$ )

在 MLLM 中，LoRA 通常可加在：

text 复制代码

LLM attention / MLP 层
Projector 层
部分视觉编码器高层

实践中常见选择是：小数据集只训 projector + LoRA；领域数据较多时解冻 LLM 的部分层；视觉领域差异很大时再考虑解冻视觉编码器部分层。

5. 多模态幻觉抑制与 grounding

MLLM 容易出现"看图说错话"的幻觉，例如图中没有猫却回答有猫。解决方向包括：

加入正负样本，让模型学会"不确定就拒答"；
使用目标框、点坐标、区域描述强化视觉 grounding；
构造偏好数据，让模型偏向视觉证据充分的回答；
用 RLHF / DPO 类方法优化人类偏好和事实一致性。

LLaVA-RLHF 将 RLHF 引入视觉语言对齐，用事实增强的 reward model 缓解多模态幻觉；LRV-Instruction 则通过包含正负指令样本的鲁棒视觉指令数据来降低幻觉。( $arXiv$ $6$ )

近年的 mDPO、V-DPO、HDPO 等方法进一步指出，普通文本偏好优化可能忽略图像条件，因此需要让偏好优化显式关注图像证据。( $arXiv$ $7$ )

6. 高分辨率、视频和文档理解

现代 MLLM 指令微调不再只处理固定尺寸单图，而是扩展到高分辨率图像、多图、视频、文档和表格。

Qwen2-VL 引入动态分辨率机制，使不同分辨率图像被编码成不同数量的视觉 token，并使用 M-RoPE 融合文本、图像、视频中的位置信息；LLaVA-OneVision 则强调单图、多图、视频场景之间的任务迁移能力。( $arXiv$ $8$ )

这类能力的指令微调重点包括：

text 复制代码

多图上下文拼接
视频帧采样与时间位置编码
文档 OCR 与版面结构建模
表格 / 图表结构化输出
bbox / point / region-level grounding

Qwen2.5-VL 技术报告进一步强调了目标定位、文档解析、表格/图表理解和长视频理解能力。( $arXiv$ $9$ )

7. 指令模板与损失设计

指令微调时通常不会对所有 token 计算损失，而是只对答案部分计算语言建模损失：

text 复制代码

输入：<image> + user instruction
目标：assistant answer
loss：主要计算 assistant answer tokens

常见技巧包括：

统一多模态 special tokens，例如 <image>、<video>；
多轮对话格式对齐目标 LLM 的 chat template；
对用户问题、系统提示、图像 token 做 loss mask；
混合纯文本数据，避免语言能力退化；
控制长答案比例，避免模型啰嗦或幻觉扩散。

MM1 的实验也表明，图文、交错图文和纯文本数据的合理混合对多模态模型能力很重要。( $arXiv$ $3$ )

8. 评测与迭代

MLLM 指令微调不能只看 loss，需要多维评测：

text 复制代码

感知能力：物体、属性、颜色、空间关系
推理能力：图像数学、科学问答、常识推理
OCR/文档：票据、表格、PDF、图表
多轮对话：上下文一致性
幻觉：是否编造不存在的视觉内容
grounding：框、点、区域定位是否准确
鲁棒性：不同分辨率、裁剪、遮挡、长上下文

InternVL 2.5 的技术报告也把多学科推理、文档理解、多图/视频理解、真实世界理解、幻觉检测、视觉 grounding、多语言能力等作为系统评估方向。( $arXiv$ $10$ )

总结

MLLM 指令微调的关键不是"把图像数据喂给大模型"这么简单，而是：

text 复制代码

高质量多模态指令数据
+ 稳定的视觉-语言对齐结构
+ 合理的分阶段训练
+ LoRA/QLoRA 等高效微调
+ 幻觉抑制与偏好对齐
+ 高分辨率/多图/视频/文档能力扩展
+ 系统化评测闭环

其中最影响最终效果的通常是：数据质量、视觉 token 表征、训练阶段设计、幻觉控制和任务覆盖度。

参考链接:

$1$ : https://arxiv.org/abs/2304.08485?utm_source=chatgpt.com "Visual Instruction Tuning"

$2$ : https://arxiv.org/abs/2311.12793?utm_source=chatgpt.com "ShareGPT4V: Improving Large Multi-Modal Models with Better Captions"

$3$ : https://arxiv.org/abs/2403.09611?utm_source=chatgpt.com "MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training"

$4$ : https://arxiv.org/abs/2310.03744?utm_source=chatgpt.com " $2310.03744$ Improved Baselines with Visual Instruction Tuning - arXiv.org"

$5$ : https://arxiv.org/abs/2106.09685?utm_source=chatgpt.com "LoRA: Low-Rank Adaptation of Large Language Models"

$6$ : https://arxiv.org/abs/2309.14525?utm_source=chatgpt.com "Aligning Large Multimodal Models with Factually Augmented RLHF"

$7$ : https://arxiv.org/abs/2406.11839?utm_source=chatgpt.com "mDPO: Conditional Preference Optimization for Multimodal Large Language ..."

$8$ : https://arxiv.org/abs/2409.12191?utm_source=chatgpt.com "Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution"

$9$ : https://arxiv.org/abs/2502.13923?utm_source=chatgpt.com " $2502.13923$ Qwen2.5-VL Technical Report - arXiv.org"

$10$ : https://arxiv.org/abs/2412.05271?utm_source=chatgpt.com "Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling"