RETHINKING VISUAL INFORMATION PROCESSING IN MULTIMODAL LLMS

研究方向:Image Captioning

1.论文介绍

本文提出了LLaViT,一种扩展的视觉Transformer,它通过三个关键修改使LLM能够同时充当视觉编码器:

(1) 学习针对视觉模态的独立QKV投影;

(2) 实现视觉标记的双向注意力;

(3) 结合视觉编码器全局和局部视觉表示。

让LLM不仅作为语言模型,还作为一个强大的视觉编码器。

2.方法介绍

2.1 背景

LLM的第 层的多模态输入表示为三个不同的序列的组合:

(1)系统提示的m个文本令牌,

(2)视觉信息的n个视觉令牌,

(3)用户提示的o个文本令牌,

在任何给定的层级 ​、 被处理为一个单一的 N=m+n+o 长度序列。

使用视觉编码器g提取视觉块特征,然后通过一个MLP投影将它们映射到LLM的嵌入空间

输入层: 计算输入视觉标记 与词嵌入 的余弦相似度:

为每个视觉标记 提取前 k 个相似词汇

输出层: 取 LLM 对每个视觉 token 产生的输出 logit 向量 提取出前 k 个词表征(从 LLM 的最终输出读出模型认为该视觉 token 最可能对应哪些词)

把两层的结果可视化:

输入层,视觉 token 与词向量的相似度通常很低且最接近的词常常是无关的奇怪符号,说明视觉 token 在原始输入空间并没有很好地对齐到文本词表。

但在输出层,LLM 给出的一些 top-k 词实际上是和对应图像 patch 内容语义相关的。

表明LLM在一定程度上可以将视觉标记翻译成文本,认为LLM内部视觉标记转换的质量将对MLLM的整体能力产生影响。

2.2 将视觉Transformer扩展到LLM

学习独立的 QKV 投影:

为视觉 token 单独设计查询、键和值(QKV)投影参数,避免将文本任务中的 QKV 参数直接应用于视觉 token,从而更有效地捕获视觉信息。

启用双向注意力机制

传统的 LLM 使用因果注意力,允许后面的视觉 token 关注前面的视觉 token。在图像中,视觉 token 并没有时间顺序。通过启用视觉 token 间的双向注意力,消除了这种限制。

结合局部和全局视觉特征

过提取 CLIP 模型多个层次的视觉特征,将低级别的细节和高级别的语义信息结合起来。然后将这些特征在特征维度上拼接并投影到 LLM 的输入空间中。

相关推荐
一个处女座的程序猿10 天前
LLMs之Agents:Graphiti(为 AI 代理构建实时知识图谱)的简介、安装和使用方法、案例应用之详细攻略
人工智能·知识图谱·llms·agents·graphiti
一个处女座的程序猿11 天前
AGI:《从规模扩张到研究驱动:Ilya Sutskever畅谈AI泛化瓶颈、人类学习启事与超级智能未来之路》
人工智能·llms·ilya sutskever
一个处女座的程序猿11 天前
AI之MLMs之Tool:Open Notebook的简介、安装和使用方法、案例应用之详细攻略
notebook·llms·open notebook
minhuan19 天前
大模型应用:LangChain核心组件深度解析:llms与embeddings.3
langchain·embeddings·llms·大模型使用
&永恒的星河&1 个月前
超越传统:大型语言模型在文本分类中的突破与代价
人工智能·自然语言处理·大模型·文本分类·llms
Baihai IDP1 个月前
对 GPT 5 模型路由机制的深度解析
人工智能·gpt·ai·大模型·llms
叶庭云2 个月前
一文了解开源大语言模型文件结构,以 Hugging Face DeepSeek-V3.1 模型仓库为例
人工智能·大语言模型·hugging face·1024程序员节·llms·开源模型文件结构·deepseek-v3.1
一个处女座的程序猿2 个月前
LLMs之MultiAgent:OpenAgents(创建AI智能体网络)的简介、安装和使用方法、案例应用之详细攻略
llms·openagents
Baihai IDP6 个月前
深度解析 Cursor(逐行解析系统提示词、分享高效制定 Cursor Rules 的技巧...)
人工智能·ai编程·cursor·genai·智能体·llms