使大视觉语言模型成为好的短时学习器

Making Large Vision Language Models to be Good Few-shot Learners

2408.11297 (arxiv.org)

Few-shot classification (FSC) is a fundamental yet challenging task in computer vision that involves recognizing novel classes from limited data. While previous methods have focused on enhancing visual features or incorporating additional modalities, Large Vision Language Models (LVLMs) offer a promising alternative due to their rich knowledge and strong visual perception. However, LVLMs risk learning specific response formats rather than effectively extracting useful information from support data in FSC tasks. In this paper, we investigate LVLMs' performance in FSC and identify key issues such as insufficient learning and the presence of severe positional biases. To tackle above challenges, we adopt the meta-learning strategy to teach models "learn to learn". By constructing a rich set of meta-tasks for instruction fine-tuning, LVLMs enhance the ability to extract information from few-shot support data for classification. Additionally, we further boost LVLM's few-shot learning capabilities through label augmentation and candidate selection in the fine-tuning and inference stage, respectively. Label augmentation is implemented via a character perturbation strategy to ensure the model focuses on support information. Candidate selection leverages attribute descriptions to filter out unreliable candidates and simplify the task. Extensive experiments demonstrate that our approach achieves superior performance on both general and fine-grained datasets. Furthermore, our candidate selection strategy has been proved beneficial for training-free LVLMs.

**少样本分类(FSC)**是计算机视觉领域中的一个基础且具挑战性的任务,它涉及从有限数据中识别新类别。尽管以前的方法主要集中在增强视觉特征或结合其他模态,但大型视觉语言模型(LVLMs)因其丰富的知识和强大的视觉感知能力而成为一种有前景的替代方案。然而,LVLMs在FSC任务中可能倾向于学习特定的响应格式,而不是有效地从支持数据中提取有用信息。在本文中,本文研究了LVLMs在FSC中的性能,并识别了诸如学习不足和严重位置偏差等关键问题。为了应对这些挑战,本文采用了元学习策略来教模型"学会学习"。通过构建丰富的元任务集进行指令微调,LVLMs增强了从少量支持数据中提取信息进行分类的能力。此外,本文还分别在微调和推理阶段通过标签增强和候选选择进一步提升了LVLMs的少样本学习能力。标签增强通过字符扰动策略实现,以确保模型关注支持信息。候选选择则利用属性描述来过滤掉不可靠的候选项并简化任务。大量实验表明,本文的方法在一般和细粒度数据集上均取得了优越的性能。此外,本文的候选选择策略已被证明对无需训练的LVLMs有益。

Introduction

少样本分类(FSC)是少样本学习(FSL)的一个具体应用,它受到人类学习能力的启发。它使模型能够使用极少的标记数据对甚至之前未见过的类别进行分类。典型的研究集中在训练鲁棒的视觉嵌入网络[41]或利用额外的属性[32]来缓解监督不足的问题。然而,少量的数据往往导致不满意的泛化能力。

最近,像GPT-4V[1]和Qwen-VL[2]这样的大型视觉语言模型(LVLMs)将强大的语言模型与先进的视觉编码器相结合。它们通过在大规模多模态数据上的训练获得了丰富的感知能力和全面的知识。它们还具有上下文学习能力,能够从演示中学习,并因此有可能适用于FSC。然而,研究人员[39]发现,当前的LVLMs很难将未见过的图像-文本对联系起来,并从支持样本中识别出新类别。这是因为模型往往倾向于关注特定的答案格式,而不是掌握提供的信息。

然而,之前的工作并没有探索FSC中的基础到新颖的实验设置,即推理类别与训练类别不重叠。在本文中,本文尝试评估LVLMs在基础到新颖的少样本设置下的性能。本文观察到,LVLMs很难利用来自支持样本的信息,并且实现了次优的分类性能。通过检查它们的输出,本文注意到一个位置偏差:LVLMs倾向于偏向于它们遇到的前几个候选答案。鉴于LVLMs在FSC中面临的挑战,本文采用了元学习[12]策略来教模型有效地从支持样本中学习。这是一个个体逐渐管理其内部感知、探索、学习和成长习惯的过程[35]。自此以来,元学习已经发展成为"学会学习"的概念,并成为FSL中的经典范式。

为此,本文探索了将LVLM应用于FSC的挑战和机遇。首先,本文构建了来自不同领域的丰富指令遵循元任务集。这一操作使模型能够学习如何从支持数据中提取分类信息。为了进一步提高LVLMs的少样本学习能力,本文分别在微调和推理阶段设计了标签增强和候选选择方法。具体来说,LVLMs有时会过于自信,依赖现有知识而忽视来自支持数据的信息。考虑到LVLMs的自回归标记建模策略,本文在微调过程中采用了一种简单而有效的类别名称字符扰动策略作为标签增强。这种策略增强了模型对支持样本中候选类别的关注,而不是来自预训练的知识。此外,LVLM强大的思维链(CoT)[45]和图像描述能力激励本文开发了一个自适应属性描述生成器,为候选选择提供额外信息。直接将这些描述输入LVLM可能会使上下文复杂化并降低性能。相反,本文使用这些描述上的聚合文本相似度分数来选择候选者。这种方法过滤掉了不可靠的选项,并简化了分类任务。最后,本文对LVLMs在FSC中的初步次优性能进行了全面分析,并解释了为什么本文的方法能够有效解决这些问题并提升性能。

Method

1. 问题定义

FSL(Few-Shot Learning,少样本学习)的数据集通常被分为两部分:一个基础集,用于预训练以初始化模型;一个新颖集 ,用于测试。其中,x表示图像,y表示标签。这两个集合的标签空间是不相交的,即

在测试阶段,支持集是从D_novel中随机选择的,包含N个类别,每个类别包含K个样本。然后,模型必须将查询集中的图像准确分类到支持集S中存在的N个类别之一,其中M是每个类别的查询样本数。这个分类任务通常被称为N-way K-shot任务。

2. 带有标签增强的指令调整

为了探索LVLM(大型视觉语言模型)在FSL任务上的直接应用,本文首先将常用的FSL评估数据集整理成N-way K-shot格式。

本文设计了元任务指令来提示LVLM生成响应,如图2所示。然而,本文发现直接在N-way K-shot FSL上应用LVLM并未获得令人满意的性能。为了提升LVLM的性能,本文采用了一种元学习方式的指令调整方法。本文从场景识别、一般物体识别、情感分析、细粒度识别和遥感等领域收集了各种数据集,并将这些微调数据集整理成元任务指令。

在元任务指令调整之后,LVLM评估查询样本和支持样本之间的相似性,并将查询样本与候选答案对齐。因此,微调后的模型能够根据元任务指令提供的有限示例做出更准确的预测。然而,LVLM有时会过于自信,依赖于预训练数据中看到的类别,而在查询样本分类时忽视了支持信息。为了避免这个问题,本文提出了一种通过字符扰动策略的标签增强(Label Augmentation, LA)方法来增强模型对支持数据的关注。

在介绍字符扰动策略之前,本文应该首先深入了解模型的输出过程。LVLM的令牌嵌入W被训练以表示整个文本空间。当给定一个图像嵌入Xv时,LVLM识别图像并以以下方式输出预测的令牌:

其中,σ是softmax函数,f用于转换X_v以与W对齐,w表示X_v最可能的单个令牌。

基于本文的元任务指令,本文使用交错的M(M=N×K)图像-文本对,其中图像特征表示为,而提示"这是什么?{类别名}。"被标记化为。查询图像特征是X^q_v,查询提示"那么这是什么?输出是 [candidate class list] 之一"是X^q _p。然后,可以推导出输入的完整形式表达式:

其中⊕是连接操作,[IMG]是一个特殊标记,用于指示边界。假设一个类别C有T个标记。现在预测C等价于自回归地预测其标记:

其中w_t是C的第t个标记,w_<t 是第 t 个标记之前的标记序列。

通过上述分析,为了防止LVLM(大型视觉语言模型)变得过于自信,一个直接的方法是打断常见的标记序列。例如,在预训练期间,"yellow" 一词的标记序列 'yel'-'low' 是典型的。然而,在微调期间将原始单词 "yellow" 扰动为 "yelowla",则会产生一个新的标记序列 'yel'-'ow'-'la',这对LVLM来说是陌生的。因此,强制LVLM专注于支持数据指令以学习任务范式。以下是本文实现扰动的方法:

**拆分与合并:**根据特定符号(如空格)拆分类别名,然后重新组合拆分后的类别名。例如,"A330-300"变为"300-A330"。

**反转:**取类别名的最后几个字符并将其置于其他扰动方法结果的开头。例如,"elephant"变为"anteleph"。

**随机插入:**随机选择一个1到10之间的数字作为要从a到z中随机采样的字符数,并将这些采样的字符随机插入到类别名中的随机位置。例如,"streetcar"变为"sttrKeeutcEayrU"。

**打乱:**打乱类别名中的所有字符。例如,"shrew"变为"hsewr"。

3. 属性描述生成

在LVLM(大型视觉语言模型)执行少样本分类(FSC)的过程中,它隐式地利用了其内部化的知识。由于LVLM的知识对FSC有益,本文尝试显式地利用它。考虑到LVLM在图像描述方面表现出色,本文让LVLM生成与图像相关的描述,以辅助后续章节中的模型推理过程。

与以往仅使用类别名称、生成单个全局图像文本描述或手动选择相关属性作为附加信息的研究不同,本文设计了一个使用LVLM的自适应属性描述生成框架,以为每个类别的图像生成高质量属性和全局描述。具体步骤如下:

步骤1:自适应属性选择。在这一步中,指定要分析的数据集类型(如鸟类种类)和所需的属性数量(k)。然后,LVLM会推荐k个相关属性,并简要说明它们在描述指定数据集中的图像时的重要性。

步骤2:自动提示生成。在第一步获得属性后,需要LVLM为每个属性生成提示。这些提示作为LVLM在后续步骤中生成描述的指南。LVLM为所有k个属性提供简洁且量身定制的提示,确保生成的描述保持集中且信息丰富。

步骤3:特定属性描述生成。对于先前识别的每个k个属性,向LVLM提供来自步骤2的相应属性提示。作为响应,模型为图像生成该属性的具体详细描述。

步骤4:全局属性描述生成。最后,将步骤3中的特定属性描述合并成一个综合的描述句,并输入给LVLM。LVLM会给出对图像的概述。这种属性-全局描述不仅捕捉了图像的本质,还从多个细节方面突出了其独特特征。

通过本文的自适应属性描述生成框架,对于元任务指令中的每个支持或查询图像,可以获得关于每个图像的k+1个属性描述,以辅助后续的模型推理过程。有关属性描述生成过程的更多详细信息,请参阅附录。

4. 基于属性的候选选择

为了利用生成的属性描述,本文最初尝试将这些描述与元任务指令相结合,然后提示LVLM。然而,这种方法并未带来更好的结果,因为它增加了上下文长度并引入了额外的复杂性。相反,本文设计了一种简单而有效的基于语义的候选选择(CS)方法,如图2所示,使用这些描述进行候选选择。这种方法不仅降低了任务复杂性,还增强了LVLM的自洽性。

对于元任务指令中的M+1个样本,每个样本都有k+1个属性描述。第i个样本的第j个描述表示为T^i_j,其中。此外,T^q_j表示查询样本的第j个描述。

本文计算查询样本与支持样本之间描述T_j的文本相似度,以获得k+1个文本相似度矩阵。然后,本文将这些相似度聚合起来,以获得总体文本相似度S_aggr:

接着,本文利用S_aggr来确定前N//2个类别作为候选类别C_can,其余类别被视为不可靠。然后,本文将C_can与LVLM的初始推理结果A_ini进行比较。如果候选类别包含初始推理结果(A_ini ∈ C_can),本文则认为该结果被验证。否则,本文重新组织N//2+1个类别(N//2个类别来自C_can,1个类别来自A_ini)的元任务指令,以再次提示LVLM进行最终推理。最终推理降低了分类难度,因为它从较少的类别中生成答案。此外,这种方法利用自洽性来增强模型输出A_fin的可靠性。

相关推荐
Doctor老王3 分钟前
进击J6:ResNeXt-50实战
pytorch·深度学习
Invulnerabl_DL5 分钟前
《基于深度半监督学习的目标检测综述》泛读
笔记·深度学习·学习·目标检测·计算机视觉
AI实战6 分钟前
可信的人类与人工智能协作:基于人类反馈和物理知识的安全自主驾驶强化学习
人工智能·安全
dundunmm7 分钟前
分类评价指标
人工智能·分类·数据挖掘·分类指标
Tinalee-电商API接口呀17 分钟前
python爬虫爬取淘宝商品比价||淘宝商品详情API接口
大数据·开发语言·人工智能·爬虫·python·json
朗迪锋24 分钟前
航空维修培训中的虚拟现实辅助工程技术应用
大数据·人工智能·安全·vr·虚拟现实
张琪杭36 分钟前
卷积神经网络(二)CIFAR100类别分类
人工智能·分类·cnn
AI创客岛1 小时前
如何通过LlamaIndex工作流程简化我的研究和演示
人工智能·计算机视觉
标贝科技1 小时前
标贝科技个性化音色定制方案 解锁语音合成无限可能
人工智能·科技·人机交互·语音识别
廾匸07051 小时前
《人工智能安全治理框架》1.0版
人工智能·安全