llava1.5论文阅读

Improved Baselines with Visual Instruction Tuning

通过视觉指令微调增强的基线方法

论文摘要: 我们发现,LLaVA中的全连接视觉语言连接器非常强大且数据效率高。

3.3 数据和模型的scaling

受到将线性投影转变为多层感知机(MLP)在自我监督学习中提高性能的启发[9, 10],

我们发现通过使用两层MLP来增强视觉-语言连接器的表征能力,可以提升LLaVA的多模态功能,相比原始的线性投影有所增强。

QA

LLaVA1.5 的 跨模态连接器

LLaVA 1.5使用的是视觉-语言连接方案,具体如下:

  1. 视觉编码器:采用 CLIP 的视觉编码器(CLIP-ViT-L/14),并且将输入图像的分辨率从 224px 提升到 336px,这使得模型对图像细节的理解能力更强,能够提取更高质量的视觉特征。

  2. 跨模态连接器:由原来的单个线性层替换为多层感知机(MLP)层作为跨模态连接器。MLP 包含两层线性层并使用 GELU 激活函数,这种结构增强了连接器的表达能力,能够更好地融合视觉和语言信息。相比原始的线性投影架构,MLP 跨模态连接器显著提升了 LLaVA 的多模态能力。

  3. 语言模型:使用 Vicuna v1.5 13b 作为语言模型,语言模型参数量更大,效果更好。在输入方面,视觉和语言的指令在同一个特征空间,一起拼接后送进模型进行处理,实现了图像和语言在模型中的交互和融合。

CogVLM

CogVLM的跨模态连接器主要是通过视觉专家模块(Visual Expert Module)来实现的。具体情况如下:

  1. 结构组成

    • QKV矩阵:每一层的视觉专家模块都包含一个QKV矩阵,其形状与预训练语言模型中的形状相同,并从预训练模型中初始化。该矩阵用于将图像特征转换为与语言模型不同注意力头相匹配的形式,使得图像特征能够更好地与语言模型进行交互和融合。
    • MLP层:除了QKV矩阵,视觉专家模块还包含一个MLP(多层感知机)层。MLP层可以对经过QKV矩阵处理后的特征进行进一步的处理和转换,增强模型对视觉和语言特征的深度理解和融合能力。
  2. 作用原理:在模型的每一层中,图像特征和文本特征一起进入到新的不同的QKV矩阵和MLP层进行处理。这样的设计使得视觉信息能够在语言模型的各个层中得到充分的交互和融合,而不是仅仅在输入层进行简单的映射。通过这种深度融合的方式,CogVLM能够更好地理解图像和文本之间的关系,提高模型在各种视觉语言任务上的性能。

  3. 优势特点

    • 增强特征融合:可训练的视觉专家模块能够缩小图像特征和语言特征之间的差异,提高信息的质量和准确性,实现视觉语言特征的深度融合,避免了浅层对齐方法中信息损失和噪声干扰的问题。
    • 保持语言模型性能:在保持语言模型原有参数固定的情况下,当输入序列不包含图像时,模型的表现与原语言模型相同,不会影响语言模型在纯文本任务上的性能。同时,利用冻结的预训练语言模型还可以降低计算成本和内存消耗,提高计算效率和可扩展性。
相关推荐
imbackneverdie1 天前
6个常用国自然课题项目查询网站,码住以备不时之需
论文阅读·人工智能·aigc·科研·国自然·ai工具·国家自然科学基金
蓝田生玉1231 天前
qwen2.5论文阅读笔记
论文阅读·笔记
SUNNY_SHUN1 天前
ICLR 2026 | Judo: 7B小模型工业缺陷问答超越GPT-4o,用对比学习+强化学习注入领域知识
论文阅读·人工智能·学习·视觉检测·github
sin°θ_陈2 天前
前馈式3D Gaussian Splatting 研究地图(总览篇):解构七大路线,梳理方法谱系,看懂关键分歧与未来趋势
论文阅读·深度学习·算法·3d·aigc·空间计算·3dgs
智算菩萨2 天前
【实战讲解】ChatGPT 5.4深度文献检索完全指南:提示词工程与学术实战策略
论文阅读·人工智能·gpt·搜索引擎·chatgpt·提示词·论文笔记
檐下翻书1732 天前
音乐产业版权管理与运营流程图表制作方法
论文阅读·信息可视化·毕业设计·流程图·论文笔记
森诺Alyson2 天前
前沿技术借鉴研讨-2026.3.26(解决虚假特征x2/混合专家对比学习框架)
论文阅读·人工智能·经验分享·深度学习·学习·论文笔记
森诺Alyson2 天前
前沿技术借鉴研讨-2026.3.19(睡眠分期/Agents模拟临床会诊/多模态抑郁症检测)
论文阅读·经验分享·深度学习·论文笔记·论文讨论
imbackneverdie3 天前
如何从海量文献中跨界汲取创新灵感?
论文阅读·人工智能·ai·自然语言处理·aigc·ai写作·ai工具
云霄星乖乖的果冻4 天前
【文献阅读:RobustRAG】Certifiably Robust RAG against Retrieval Corruption
论文阅读