2025/02/22阅读论文笔记

(1)Why are Visually-Grounded Language Models Bad at Image Classification?

(2)ANALYZING AND BOOSTING THE POWER OF FINEGRAINED VISUAL RECOGNITION FOR MULTI-MODAL LARGE LANGUAGE MODELS

1. Why are Visually-Grounded Language Models Bad at Image Classification?

Accepted by nips2024

1.1 研究动机

目前很多公开的VLMs(visually-grounded language models)尽管使用了CLIP用作vision encoder,并且有很多参数,但是在图片分类任务上表现不如CLIP。探究这个现象的原因则是这篇论文的研究动机

1.2 contribution

前三个贡献点分别对应下面三张图:

  1. 作者在四个benchmark上使用10个VLM进行评估,发现VLM在分类中显着落后于CLIP。
  1. 分析VLM在图片分类任务上表现不好的原因

作者发现:prompt的变化、减少context中的 label set size、让VLM执行概率推断(probabilistic inference),都不是VLM在image classification上和CLIP的gap很大的原因。并且视觉编码器的视觉信息是保存在VLM的latent space中的,文本生成目标函数对于学习分类一样有效。最根本的原因是 训练数据不够

  1. 作者提出了 ImageWikiQA 数据集,是一个以object-centric的知识密集的问题。

  2. 通过加入classification-focused 数据来训练VLM,不仅提高分类性能,也提高了其泛化能力

在Llava1.5-7b 进行微调,微调数据是Imagenet-1.28M 和原始665K LLAVA 的instruction-tuning数据,能够显著提高Llava1.5-7b在ImageNet上的分类能力,以及在ImageWikiQA的表现。但是如果只用 Imagenet-1.28M 微调的话,反而会降低这两种表现,因此在combined的数据集上微调更好,可以防止灾难性遗忘(catastrophic forgetting)

2. ANALYZING AND BOOSTING THE POWER OF FINEGRAINED VISUAL RECOGNITION FOR MULTI-MODAL LARGE LANGUAGE MODELS

Accepted by ICLR2025

2.1 研究动机

尽管多模态大型语言模型(MLLM)在各种视觉理解任务中表现出了显着的能力。但是,MLLM仍然在细粒度视觉识别(finegrained visual recognition/ FGVR)任务上表现有局限。

2.2 contribution

  1. 探究MLLM针对FGVR任务的需要具备的三个典型功能:对象信息提取(object information extraction),类别知识储备(category knowledge reserve),对象类别对齐(object-category alignment)

作者发现:IDEFICS2具有很好的对象信息提取的能力(图d),并且对subordinate-level categories有足够的知识(图e),但是对象和类别表示具有巨大的语义差距(图f)。由于类别名称可能无法完全代表视觉数据的语义,因此该对象不能匹配表示空间中的地面真实类别,因此无法将其解码为正确的类别名称。

  1. 提出了 Finedefics 多模态大模型(基于idefics2-8b)

有两个重要的组成部分:(1)Attribute Description Construction,用于提取可以区分不同类别的有用属性信息。

(2)Attribute Augmented Alignment,专用于使用构造的属性描述作为在LLMs表示空间中绑定视觉对象和类别名称的中间点,从而增强了后续分类中心指令调整。

ATTRIBUTE AUGMENTED ALIGNMENT 包含两个阶段:

  • Stage I: Attribute Augmented Contrastive Learning.
  • Stage II: Classification-Centered Instruction Tuning.

实验结果证明提出的 Finedefics 效果优于其他模型

相关推荐
张较瘦_4 小时前
[论文阅读] 人工智能 + 软件工程 | 从“人工扒日志”到“AI自动诊断”:LogCoT框架的3大核心创新
论文阅读·人工智能·软件工程
张较瘦_5 小时前
[论文阅读] 人工智能 + 软件工程 | 35篇文献拆解!LLM如何重塑软件配置的生成、验证与运维
论文阅读·人工智能·软件工程
有点不太正常6 小时前
FlippedRAG——论文阅读
论文阅读·安全·大模型·rag
铮铭6 小时前
【论文阅读】纯视觉语言动作(VLA)模型:全面综述
论文阅读
红苕稀饭6666 小时前
Efficient Motion-Aware Video MLLM论文阅读
论文阅读
Vizio<15 小时前
《基于物理仿真和学习潜投影的机器人触觉感知模拟到真实》ICRA2021论文解读
论文阅读·人工智能·学习·机器人·触觉传感器
DuHz16 小时前
Phi-3 技术报告:手机本地运行的高能力语言模型——论文阅读
论文阅读·人工智能·语言模型·自然语言处理·智能手机
平和男人杨争争19 小时前
情绪识别论文阅读——Eyemotion
论文阅读
DuHz20 小时前
Stable Video Diffusion:将潜在视频扩散模型扩展到大规模数据集——论文阅读
论文阅读·人工智能·深度学习·神经网络·算法·音视频
STLearner20 小时前
AI论文速读 | 当大语言模型遇上时间序列:大语言模型能否执行多步时间序列推理与推断
大数据·论文阅读·人工智能·深度学习·机器学习·语言模型·自然语言处理