LLM | 论文精读 | CVPR | SelTDA：将大型视觉语言模型应用于数据匮乏的视觉问答任务

**论文标题：**How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? Self-Train on Unlabeled Images!

**作者：**Zaid Khan, Vijay Kumar BG, Samuel Schulter, Xiang Yu, Yun Fu, Manmohan Chandraker

**期刊：**CVPR 2023

**DOI：**待更新

**email：**yuhan.huang@whu.edu.cn

创作不易，恳请大家点赞收藏支持:)

1. 引言

近年来，视觉问答（Visual Question Answering，VQA）任务在大规模视觉语言模型（Vision-Language Models，VLM）上取得了令人瞩目的成就。然而，当我们面对数据稀缺的专业任务时，如基于知识的VQA或非自然图像域的VQA，模型的表现仍然有些力不从心。对于这些高难度的任务，想要收集足够的标注数据十分困难，因此本文提出了一种名为SelTDA（Self-Taught Data Augmentation）的自我训练策略，试图通过一种聪明的方式来解决这一问题。在不需要额外人工标注的情况下，SelTDA能帮助大规模VLM在小规模数据集上表现得更好。这种方法有点像自学成才，模型自己想办法去理解和提升。

2. 研究动机与方法概述

在图1中，作者介绍了SelTDA的整体工作原理。简单来说，这个方法通过一个教师模型来生成图像的伪标签问题和答案，以此来扩充目标数据集。这样一来，我们就不需要额外的人工标注，只需要一些未标注的图像数据。这听起来是不是很省心？不仅省下了大量标注时间，还能让小规模数据集的训练变得更加可行且高效。

图1：SelTDA框架概述 图1生动地展示了SelTDA如何将未标注的图像变为有用的训练数据。首先，教师模型会对图像进行伪标签的生成，接着这些伪标签就被用于微调学生模型。在这个过程中，SelTDA不仅扩展了训练数据的数量，还大大提升了模型的鲁棒性和跨域泛化能力。就像让模型学会举一反三，不仅在原有的领域内学得好，在新领域也能应对自如。

3. 动机实验

在图2中，作者展示了SelTDA背后的动机实验。这个实验主要是为了测试一个有趣的想法：能不能利用预训练的大型VLM来生成文本，然后让它在VQA任务中使用这些文本？实验中使用了BLIP模型（图2的右侧面板）来给图像打标签，然后将这些生成的文本转换成问题，以测试模型在回答这些问题时的表现。

图2：生成文本与自我一致性 实验结果表明，尽管模型生成的文本具有一定的多样性，但在生成的问题中，有些答案却是错的（例如，模型回答"否"，但其实应该是"是"）。这表明，VLM内部其实隐藏着一些未被完全利用的知识，而这些知识通过直接生成文本可以更好地提取出来。这正是SelTDA方法的核心动机之一，即通过模型的生成能力为未标注的数据生成更多有价值的问题和答案。

4. 方法详细描述

SelTDA的训练框架主要包括三个阶段，过程简单而高效：

教师模型训练：首先，让教师模型通过图像到文本的生成任务进行训练，就像老师在学习如何出题。
伪标签生成：接着，教师模型对未标注的图像进行伪标签的生成，包含问题和答案的配对。这些伪标签相当于老师给出的练习题。
学生模型训练：最后，学生模型使用原始数据集与生成的伪标签进行微调，就像学生通过做练习题不断提高自己的能力。

在图3中，作者提供了SelTDA训练框架的概览。从教师模型的创建，到未标注图像的伪标注，再到学生模型的最终微调，这一过程被清晰地描述出来。教师模型通过生成"问题-答案"对来模拟目标数据集的分布，这使得原本小规模的数据集得以有效扩展，大大增强了模型的学习效果。

图3：SelTDA框架概览 图3的流程图详细说明了SelTDA的步骤，包括如何利用教师模型生成伪标签，以及如何利用这些标签微调学生模型。SelTDA的最大优势在于可以有效增加训练数据的多样性，从而提升模型的泛化能力和表现力。换句话说，这个方法就像是让学生在不同题目上多加练习，学得更扎实。

5. 实验与结果

5.1 A-OKVQA与ArtVQA上的自我训练

作者将SelTDA在两个数据集上进行了测试：A-OKVQA（自然图像中的外部知识VQA）和ArtVQA（艺术图像中的外部知识VQA）。结果显示，SelTDA在这两个数据稀缺的场景中显著提高了模型的准确性（如表1和表2所示）。

表1：A-OKVQA上的性能提升 表1中可以看到，使用SelTDA后的模型表现明显优于其他使用大规模预训练数据的基线模型，尤其是在没有使用额外的VQAv2数据的情况下，SelTDA依然取得了出色的表现。这证明了自我训练在增强小数据集任务中的有效性。

表2：ArtVQA上的性能提升 表2展示了SelTDA在艺术图像任务上的表现，特别是在那些需要依赖视觉细节的问题上（如"Grounded"部分），SelTDA使模型的准确率显著提高。可以说，SelTDA不仅让模型更聪明，还让它更具艺术鉴赏力！

5.2 伪标签的消融分析

在表3中，作者对教师模型生成的100个随机样本问题进行了手动评估。结果显示，生成的伪标签虽然存在一些噪声，但这种噪声并没有显著低于人类标注之间的一致性。这说明，尽管生成数据有些不完美，但其质量已经足够好，足以用于增强模型的训练。

表3：生成问题的手动评估 通过对生成的问题进行分类，作者发现，涉及外部知识或复杂推理的问题相对较难生成正确答案，而视觉识别类的问题则更容易生成正确答案。这一发现进一步表明，模型在生成一些特定类型的问题上还是具备相当能力的。

图5：t-SNE嵌入显示生成问题的相似性 图5使用t-SNE对教师模型生成的问题进行了可视化，展示了生成的问题与目标数据集中的真实问题在分布上的相似性。橙色代表ArtVQA中的生成问题，这些问题与ArtVQA中的真实问题非常接近，同时覆盖的范围更大，表明生成的问题具有更高的多样性。换句话说，模型不再局限于某些特定的"套路"，而是有更多的创新性。

图6：由教师模型生成的问题的Sunburst图 图6展示了由教师模型生成的问题类型分布，其中以"how"开头的问题最为常见。这种分布的多样性使得模型在训练过程中得到了更多不同类型的问题，这对于提升模型的泛化能力和多样性理解尤为重要。SelTDA的强大之处就在于，它不仅教会模型回答问题，还教会模型如何提出有价值的问题。

5.3 域泛化与鲁棒性分析

为了进一步验证SelTDA的泛化能力，作者还在不同领域的数据集上进行了测试，包括医学VQA（PathVQA）、艺术VQA（ArtVQA）和遥感VQA（RSVQA）。结果显示，无论在哪个领域，SelTDA都显著提高了模型的表现（如表6所示）。

表6：跨领域的泛化性能 表6显示，SelTDA在从自然图像到其他领域（如医学、艺术和遥感）的迁移上展现了强大的泛化能力。尤其是在艺术图像上，表现尤为显著。这说明了自然图像和艺术图像之间在视觉和语义上的某些共性，SelTDA成功地利用了这一共性。

5.4 数值推理能力的提升

在表7中，作者对模型在数值推理问题上的表现进行了评估。SelTDA显著增强了模型在数值推理上的能力，避免了小规模数据集训练中的"灾难性遗忘"现象。这一点尤其难能可贵，因为数值推理问题通常需要模型具备更高的理解能力和细节捕捉能力。

表7：数值推理能力评估 实验结果表明，SelTDA可以有效提升模型在需要数值推理的问题上的表现。这是因为在生成的问题中，"how many"这类问题占据了较高比例，这些问题为模型提供了更多的训练机会，使其在面对类似问题时更加得心应手。

6. 结论与未来工作

综上所述，SelTDA通过利用未标注图像为VQA任务生成伪标签，成功扩展了原本小规模的数据集，提高了模型的鲁棒性、域泛化能力以及数值推理能力。当然，SelTDA也有其不足之处，比如伪标签的噪声和在特定领域中的表现不够稳定。此外，由于自我训练的方式可能会放大训练数据中的偏差，因此未来的研究可以结合外部知识来进行事实核查，或者引入逻辑一致性的自我推理机制，以进一步提高伪标签的质量。

总结

通过对这篇论文的详细解析，我们了解到SelTDA的创新点以及其在解决数据稀缺问题上的强大之处。它不仅提升了小规模数据集的表现，还让模型具备了应对各种新领域的能力。SelTDA的成功展示了自我训练在增强模型泛化能力上的巨大潜力，未来，随着更多改进的加入，相信这一策略能带来更多惊喜。

希望这篇精读文档能够帮助您更好地理解这篇论文的内容。如果您有任何疑问或需要更详细的解释，随时联系我哦~