LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

1 引言

大语言模型（Large Language Model，LLM）的落地应用中，轻量化微调是平衡性能、算力与部署成本的核心技术路线。相较于全参数微调、低秩自适应（Low-rank adaptation，LoRA） $1$ 等主流方案，Adapter 架构以模块化、高兼容性的特点，被广泛应用于 LLaMA $2$ 等开源大模型的下游迁移任务。

初代 LLaMA-Adapter $3$ 证明了轻量适配器可以高效实现 LLaMA $2$ 模型的跨任务、跨模态适配，但仍有性能与结构优化空间。为此，研究团队推出迭代版本 LLaMA-Adapter V2 $4$ ，聚焦原生 LLaMA $2$ 线性层无偏置的特性，引入可学习偏置项与缩放因子，同时优化特征交互与训练策略，在几乎不显著增加参数量的前提下，全面提升模型在语言理解、图文对齐、指令跟随等任务上的表现。本文结合模型原理、结构改动与实现逻辑，系统剖析 LLaMA-Adapter V2 $4$ 的技术亮点与优势。

2 LLaMA-Adapter V2

可以先回顾 LLaMA-Adapter $3$ ：LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention-CSDN博客

2.1 线性层的偏置调整

LLaMA-Adapter $3$ 通过引入可学习的 Adaption Prompts $3$ 和 Zero-Initialized Attention $3$ ，在保持 LLM 参数冻结的情况下实现了新知识的高效整合。但该方法仅更新 Adaption Prompts $3$ 和门控因子参数，未修改 LLM 内部参数，导致深度微调能力受限。为此， $4$ 提出了一种偏置调整策略，旨在超越 Adaption Prompts $3$ 和门控因子的限制，更有效地将指令线索融入 LLM。该策略的具体实现包含两个关键步骤：首先解冻 LLM 中所有归一化层；其次，在 Transformer $5$ 的每个线性层中新增一个可学习的偏置项 b 和缩放因子 s。给定线性层的输入 x 和预训练权重 W，LLaMA-Adapter V2 $4$ 对该线性层进行如下修改：

借鉴 Zero-Initialized Attention $3$ 的做法， $4$ 将偏置和缩放因子分别初始化为零和一，以提升训练初期的稳定性。通过整合偏置调整策略和优质指令数据，LLaMA-Adapter V2 $4$ 实现了出色的指令跟随性能。值得一提的是，新增参数仅占 LLaMA $2$ 总参数的0.04%（约500万），充分证明LLaMA-Adapter V2 $4$ 仍保持极高的参数效率。

2.2 联合训练与分离参数

LLaMA-Adapter V2 $4$ 旨在实现双重能力：生成长文本响应和进行多模态理解。为此， $4$ 提出了一种联合训练范式，能够同时利用图像-文本对和纯文本指令数据进行训练。考虑到 50 万图像-文本对和 5 万指令数据在规模上的显著差异，直接混合训练会严重削弱模型的指令遵循能力。为此， $4$ 采用分离参数优化策略：视觉投影层和浅层 Zero-Initialized Attention $3$ （带门控机制）仅通过图像-文本数据进行训练；而深层的 Adaption Prompts $3$ 则通过指令数据优化，并配合零门控、可训练的归一化层、新增的偏置和缩放因子。这种针对性的参数分离策略有效避免了多模态理解与指令遵循任务间的相互干扰，最终使 LLaMA-Adapter V2 $4$ 展现出卓越的视觉指令遵循能力。

2.3 视觉知识的早期融合

为了消除视觉与语言微调间的相互干扰， $4$ 提出了一种早期融合策略。该策略有效阻断了输入视觉提示与 Adaption Prompts $3$ 之间的直接交互。具体实现上：

在 LLaMA-Adapter $3$ 中，输入的视觉提示首先通过冻结的视觉编码器进行序列编码，随后经可学习的视觉投影层处理，最终与 Adaption Prompts $3$ 相加后注入各Transformer层。

LLaMA-Adapter V2对此进行了改进：

视觉标记和 Adaption Prompts $3$ 被分别注入不同的 Transformer $5$ 层，避免二者融合
对于数据集共享的 Adaption Prompts $3$ ，延续 LLaMA-Adapter $3$ 的设计，将其插入最后L层（如L=30）
输入视觉提示则直接在第一层 Transformer $5$ 中与词 token 拼接，采用 Zero-Initialized Attention $3$ 机制处理，而非叠加到 Adaption Prompts $3$ 上

结合联合训练策略，这种早期融合方法成功解决了多模态微调的目标冲突，使 LLaMA-Adapter V2 $4$ 在保持参数高效的同时，展现出强大的多模态推理能力。

2.4 专家系统整合

LLaMA-Adapter V2 $4$ 的视觉理解能力存在不足，可能导致响应不准确或偏离主题。为此， $4$ 通过整合专家系统（如 caption 生成、光学字符识别（Optical Character Recognition，OCR）和搜索引擎）来增强其视觉推理能力，而非依赖更多图像文本数据或更复杂的多模态组件。具体实现方式为：对于输入图像，先由预训练视觉编码器提取视觉特征，再通过专家系统生成图像caption，将该 caption 直接嵌入指令模板中，与用户问题共同输入 LLaMA-Adapter V2 $4$ 进行处理。这种设计具有高度灵活性------任何图生文模型或搜索引擎均可作为专家系统使用，便于根据具体任务需求快速切换不同的辅助模块。

3 总结

综合来看，LLaMA-Adapter V2 $4$ 在初代版本的基础上完成了全方位的迭代优化。针对原生 LLaMA $2$ 线性层无偏置的特性，该版本引入可学习偏置项与缩放因子，仅增加极少量参数便强化了模型特征表达与指令适配能力。同时，其通过参数分离训练、视觉信息早期融合两大核心策略，妥善解决了多模态任务与指令跟随任务之间的相互干扰问题。此外，研究团队创新性地接入外部专家系统补足视觉推理短板，以轻量化、高灵活度的方式进一步提升模型表现。整体而言，LLaMA-Adapter V2 $4$ 始终坚守轻量化微调的设计初衷，在几乎不提升算力成本的前提下，实现了纯文本指令任务与多模态理解能力的双重升级，也为大模型轻量化适配、跨模态融合的技术研发与工程落地提供了优秀的参考方案。

参考文献

$1$ Hu E J, Shen Y, Wallis P, et al. Lora: Low-rank adaptation of large language models $J$ . Iclr, 2022, 1(2): 3.

$2$ Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models $J$ . arXiv preprint arXiv:2302.13971, 2023.

$3$ Zhang R, Han J, Liu C, et al. Llama-adapter: Efficient fine-tuning of language models with zero-init attention $J$ . arXiv preprint arXiv:2303.16199, 2023.

$4$ Gao P, Han J, Zhang R, et al. Llama-adapter v2: Parameter-efficient visual instruction model $J$ . arXiv preprint arXiv:2304.15010, 2023.

$5$ Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need $J$ . Advances in neural information processing systems, 2017, 30.