llava1.5论文阅读

Improved Baselines with Visual Instruction Tuning

通过视觉指令微调增强的基线方法

论文摘要: 我们发现,LLaVA中的全连接视觉语言连接器非常强大且数据效率高。

3.3 数据和模型的scaling

受到将线性投影转变为多层感知机(MLP)在自我监督学习中提高性能的启发[9, 10],

我们发现通过使用两层MLP来增强视觉-语言连接器的表征能力,可以提升LLaVA的多模态功能,相比原始的线性投影有所增强。

QA

LLaVA1.5 的 跨模态连接器

LLaVA 1.5使用的是视觉-语言连接方案,具体如下:

  1. 视觉编码器:采用 CLIP 的视觉编码器(CLIP-ViT-L/14),并且将输入图像的分辨率从 224px 提升到 336px,这使得模型对图像细节的理解能力更强,能够提取更高质量的视觉特征。

  2. 跨模态连接器:由原来的单个线性层替换为多层感知机(MLP)层作为跨模态连接器。MLP 包含两层线性层并使用 GELU 激活函数,这种结构增强了连接器的表达能力,能够更好地融合视觉和语言信息。相比原始的线性投影架构,MLP 跨模态连接器显著提升了 LLaVA 的多模态能力。

  3. 语言模型:使用 Vicuna v1.5 13b 作为语言模型,语言模型参数量更大,效果更好。在输入方面,视觉和语言的指令在同一个特征空间,一起拼接后送进模型进行处理,实现了图像和语言在模型中的交互和融合。

CogVLM

CogVLM的跨模态连接器主要是通过视觉专家模块(Visual Expert Module)来实现的。具体情况如下:

  1. 结构组成

    • QKV矩阵:每一层的视觉专家模块都包含一个QKV矩阵,其形状与预训练语言模型中的形状相同,并从预训练模型中初始化。该矩阵用于将图像特征转换为与语言模型不同注意力头相匹配的形式,使得图像特征能够更好地与语言模型进行交互和融合。
    • MLP层:除了QKV矩阵,视觉专家模块还包含一个MLP(多层感知机)层。MLP层可以对经过QKV矩阵处理后的特征进行进一步的处理和转换,增强模型对视觉和语言特征的深度理解和融合能力。
  2. 作用原理:在模型的每一层中,图像特征和文本特征一起进入到新的不同的QKV矩阵和MLP层进行处理。这样的设计使得视觉信息能够在语言模型的各个层中得到充分的交互和融合,而不是仅仅在输入层进行简单的映射。通过这种深度融合的方式,CogVLM能够更好地理解图像和文本之间的关系,提高模型在各种视觉语言任务上的性能。

  3. 优势特点

    • 增强特征融合:可训练的视觉专家模块能够缩小图像特征和语言特征之间的差异,提高信息的质量和准确性,实现视觉语言特征的深度融合,避免了浅层对齐方法中信息损失和噪声干扰的问题。
    • 保持语言模型性能:在保持语言模型原有参数固定的情况下,当输入序列不包含图像时,模型的表现与原语言模型相同,不会影响语言模型在纯文本任务上的性能。同时,利用冻结的预训练语言模型还可以降低计算成本和内存消耗,提高计算效率和可扩展性。
相关推荐
CV-杨帆2 天前
论文阅读:arxiv 2026 Security Considerations for Artificial Intelligence Agents
论文阅读
Marlowee2 天前
UI-Ins 论文深度解读:Instruction-as-Reasoning 范式与 GUI Grounding 的多视角推理
论文阅读
赵庆明老师3 天前
CSSCI论文写作14:如何用学术语言呈现论证
论文阅读·论文写作
StfinnWu3 天前
论文阅读 Guided Real Image Dehazing Using YCbCr Color Space
论文阅读·计算机视觉
民乐团扒谱机3 天前
【读论文】基于非线性光学的全光子人工神经网络处理器
论文阅读·笔记·论文
有Li3 天前
SparseXMIL: 利用稀疏卷积实现数字病理学全玻片图像上下文感知和内存高效分类/文献速递-多模态医学影像最新进展
论文阅读·文献·医学生
西柚小萌新4 天前
【论文阅读】--MIRIX:面向多智能体的记忆系统
论文阅读
ccLianLian4 天前
论文阅读·多模态工作
论文阅读
网安INF4 天前
【论文阅读】-《Formalizing and Benchmarking Prompt Injection Attacks and Defenses》
论文阅读·大模型·prompt·ai安全
CV-杨帆4 天前
论文阅读:arxiv 2026 A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)
论文阅读