【论文笔记】VCoder: Versatile Vision Encoders for Multimodal Large Language Models

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : VCoder: Versatile Vision Encoders for Multimodal Large Language Models
作者 : Jitesh Jain, Jianwei Yang, Humphrey Shi
发表 : CVPR 2024
arXiv : https://arxiv.org/abs/2312.14233
GitHub : https://github.com/SHI-Labs/VCoder

摘要

人类拥有非凡的视觉感知能力,即看到并理解所见,这帮助他们理解视觉世界并推理。

多模态大型语言模型(MLLM)最近在视觉-语言任务上取得了令人印象深刻的成果,这些任务包括视觉问答、图像标题生成、视觉推理和图像生成。

然而,当被要求识别或计数(感知)给定图像中的实体时,现有的MLLM系统却失败了。

为了开发一个准确的多模态MLLM感知和推理系统,我们提出使用V ersatile enCoderVCoder)作为多模态MLLM的感知之眼。

  1. 我们将分割或深度图等感知模态输入到VCoder中,从而提高MLLM的感知能力。
  2. 我们利用COCO图像和现成视觉感知模型的输出,创建我们的COCO分割文本(COST)数据集,用于训练和评估MLLM在物体感知任务上的表现。
  3. 我们引入了评估MLLM在COST数据集上物体感知能力的指标。
  4. 我们提供了广泛的实验证据,证明了VCoder在物体级感知技能上优于现有的多模态MLLM,包括GPT-4V。

我们将数据集、代码和模型开源,以促进研究。

主要贡献

  • 我们提出使用额外的(感知)控制输入,并将其提供给通用编码器(VCoder),以提升物体感知性能。
  • 我们引入了COCO分割文本(COST)数据集,用于训练和评估多模态LLM系统在物体识别、计数和顺序预测等基本物体级感知任务上的表现。
  • 此外,为了量化MLLMs的物体感知能力,我们提出了计算计数得分(CS)、幻觉得分(HS)和深度得分(DS)。我们的实验表明,在COST数据集上进行验证时,VCoder适配的LLaVA1.5在所有指标上均优于基线MLLMs。

工作

COST 数据集

我们将COCO中的图像、GPT-4中的问题和OneFormer的分割输出整合到问答格式中,用于训练和评估MLLLMs在物体识别任务上的表现。

我们还通过整合DINOv2 DPT的深度图输出,将COST扩展到物体顺序感知任务。

通过类似地整合其他模态(例如,关键点图),COST可以扩展到更多物体级任务。

VCoder

  • <seg>: OneFormer 的分割图通过一个SegCoder(CLIP-ViT-L-336px)和一个两层MLP。
  • <depth>: DINOv2 DPT 深度图通过一个DepthCoder(CLIP-ViT-L-336px)和一个两层MLP。
  • <image>: 原图通过一个DepthCoder(CLIP-ViT-L-336px)和一个两层MLP。
  • <query>: 文本分词后嵌入。
  • LLM: Vicuna-1.5

Evaluation Metrics for Object Identification

尽管存在各种指标来衡量视觉-语言模型中的物体幻觉,但现有的指标在计算幻觉得分时都没有考虑明确的物体数量。

我们认为,MLLM返回的物体数量是评估物体识别性能时不应忽视的关键组成部分。

因此,我们提出使用两个指标来评估MLLM中的物体识别性能:计数得分( C S \mathbf{CS} CS)和幻觉得分( H S \mathbf{HS} HS)。

给定一个真实句子( G G G)和一个MLLM预测的响应( P P P),我们首先从两个文本样本中提取对象词(名词)及其对应的计数,并以字典形式表示,其中键为对象名词,值为对应对象的计数:

G dict = { O B J 1 G : C N T 1 G ; ⋯   ; O B J N G : C N T N G } P dict = { O B J 1 P : C N T 1 P ; ⋯   ; O B J M P : C N T M P } \begin{align*} G_{\text{dict}} &= \{\mathbf{OBJ}^G_1 : \mathbf{CNT}^G_1; \cdots; \mathbf{OBJ}^G_N : \mathbf{CNT}^G_N\} \\ P_{\text{dict}} &= \{\mathbf{OBJ}^P_1 : \mathbf{CNT}^P_1; \cdots; \mathbf{OBJ}^P_M : \mathbf{CNT}^P_M\} \end{align*} GdictPdict={OBJ1G:CNT1G;⋯;OBJNG:CNTNG}={OBJ1P:CNT1P;⋯;OBJMP:CNTMP}

其中 N N N 和 M M M 分别代表 G G G 和 P P P 中不同对象名词的数量。接下来,我们以 G dict G_{\text{dict}} Gdict 和 P dict P_{\text{dict}} Pdict 作为参考,对键的计数进行一对一匹配,以计算计数得分( C S \mathbf{CS} CS)和幻觉得分( H S \mathbf{HS} HS):

C S = 100 N ∑ i = 1 N { min ⁡ ( C N T i G , C N T i P ) max ⁡ ( C N T i G , C N T i P ) if I ( O B J i G , P dict ) 0 otherwise C S = 100 M ∑ j = 1 M { 1 − min ⁡ ( C N T j P , C N T j G ) max ⁡ ( C N T j P , C N T j G ) if I ( O B J j P , G dict ) 1 otherwise I ( O B J , D ) = { True if O B J is in keys ( D ) False otherwise \begin{array}{l} \mathbf{CS} = \frac{100}{N} \sum_{i=1}^{N} \left\{ \begin{array}{ll} \frac{\min(\mathbf{CNT}{i}^{G}, \mathbf{CNT}{i}^{P})}{\max(\mathbf{CNT}{i}^{G}, \mathbf{CNT}{i}^{P})} & \text{if } I(\mathbf{OBJ}{i}^{G}, P{\text{dict}}) \\ 0 & \text{otherwise} \end{array} \right. \\ \mathbf{CS} = \frac{100}{M} \sum_{j=1}^{M} \left\{ \begin{array}{ll} 1 - \frac{\min(\mathbf{CNT}{j}^{P}, \mathbf{CNT}{j}^{G})}{\max(\mathbf{CNT}{j}^{P}, \mathbf{CNT}{j}^{G})} & \text{if } I(\mathbf{OBJ}{j}^{P}, G{\text{dict}}) \\ 1 & \text{otherwise} \end{array} \right. \\ I(\mathbf{OBJ}, D) = \left\{ \begin{array}{ll} \text{True} & \text{if } \mathbf{OBJ} \text{ is in keys}(D) \\ \text{False} & \text{otherwise} \end{array} \right. \end{array} CS=N100∑i=1N{max(CNTiG,CNTiP)min(CNTiG,CNTiP)0if I(OBJiG,Pdict)otherwiseCS=M100∑j=1M{1−max(CNTjP,CNTjG)min(CNTjP,CNTjG)1if I(OBJjP,Gdict)otherwiseI(OBJ,D)={TrueFalseif OBJ is in keys(D)otherwise

计数得分( C S \mathbf{CS} CS):表示MLLM相对于真实句子预测的正确物体计数百分比,越高越好。

幻觉得分( H S \mathbf{HS} HS):表示MLLM预测的额外物体计数百分比,这些计数在真实句子中不存在,越低越好。

实验

  • COST IT LLaVA-1.5-7b: 使用COST训练数据与LLaVA-1.5中使用的指令微调数据混合而成的数据从头训练LLaVA-1.5。
  • Soft-Prompted LLaVA-1.5 : 在LLM输入前添加576个可学习标记(⟨prompt⟩),并在COST训练数据集上仅微调⟨prompt⟩参数。
  • ImCoder LLaVA-1.5: 使用原图作为控制输入,在COST训练数据上进行训练。

Input Tokens: <depth> + <seg> + <img> + <query>

使用真实值和预测中物体位置的绝对差值计算深度得分( D S \mathbf{DS} DS)。

总结

这项工作分析了多模态大型语言模型(VLMMs)在物体级感知技能方面的表现。

尽管MLLMs在视觉推理方面表现良好,但它们需要在简单而基本的物体感知任务上提高。

为了提高MLLMs的物体感知能力,我们提出了COST数据集,用于训练和评估MLLMs在物体感知任务上的表现。

我们在COST数据集上对不同的现成MLLMs和GPT-4V进行了基准测试,并观察到它们的性能不佳。

因此,我们提出使用感知模态作为控制输入,以及一个通用的视觉编码器(VCoder)作为适配器,将控制输入投影到LLM嵌入空间。

我们的VCoder可以轻松扩展,根据任务利用各种模态作为控制输入。

为了量化MLLMs在物体级的感知能力,我们引入了计数得分( C S \mathbf{CS} CS)、幻觉得分( H S \mathbf{HS} HS)和深度得分( D S \mathbf{DS} DS)。

我们适配了带有VCoder的LLaVA-1.5,仅在COST数据集上训练了VCoder,并在物体感知任务上展示了其改进的性能,同时保持了推理性能。

我们希望我们的工作能够激发研究界关注为MLLMs开发物体感知数据集,并在未来开发在感知和推理方面同样出色的视觉系统。

相关推荐
deephub1 分钟前
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
人工智能·深度学习·transformer·大语言模型·注意力机制
搏博13 分钟前
神经网络问题之二:梯度爆炸(Gradient Explosion)
人工智能·深度学习·神经网络
KGback19 分钟前
【论文解析】HAQ: Hardware-Aware Automated Quantization With Mixed Precision
人工智能
电子手信27 分钟前
知识中台在多语言客户中的应用
大数据·人工智能·自然语言处理·数据挖掘·知识图谱
不高明的骗子28 分钟前
【深度学习之一】2024最新pytorch+cuda+cudnn下载安装搭建开发环境
人工智能·pytorch·深度学习·cuda
Chef_Chen40 分钟前
从0开始学习机器学习--Day33--机器学习阶段总结
人工智能·学习·机器学习
搏博40 分钟前
神经网络问题之:梯度不稳定
人工智能·深度学习·神经网络
GL_Rain1 小时前
【OpenCV】Could NOT find TIFF (missing: TIFF_LIBRARY TIFF_INCLUDE_DIR)
人工智能·opencv·计算机视觉
shansjqun1 小时前
教学内容全覆盖:航拍杂草检测与分类
人工智能·分类·数据挖掘
狸克先生1 小时前
如何用AI写小说(二):Gradio 超简单的网页前端交互
前端·人工智能·chatgpt·交互