【LLAVA】Llava中在数据集制作过程中是怎么从CC3M中过滤出595K数据的？为什么这样做？

原文：CC3M. We extract noun-phrases using Spacy for each caption over the whole cc3m dataset, and count the frequency of each unique noun-phrase. We skip noun-phrases whose frequency is smaller than 3, as they are usually rare combinations concept and attributes that has already been covered by other captions. We then start from the noun-phrases with lowest remaining frequency, add the captions that contain this noun-phrase to the candidate pool. If the frequency of the noun-phrase is larger than 100, we randomly choose a subset of size 100 out of all its captions. This results in around 595K image-text pairs.

上面这段话是摘自LLAVA原论文。下面说明这个处理过程。

1. 请你具体讲一下他怎么做的，并解释为什么要这么做？

这段话描述了一个从CC3M数据集（一个包含约300万图像-文本对的大型数据集）中过滤和选择图像-文本对的过程，最终获得大约595K（59.5万）的图像-文本对。这个过程主要利用了自然语言处理库Spacy来识别和处理文本中的名词短语（noun-phrases）。具体步骤和原因如下：

具体步骤

提取名词短语: 利用Spacy从每个图像的文本描述（caption）中提取所有的名词短语。
计算频率: 对每一个独特的名词短语，计算它在整个数据集中出现的频率。
过滤低频名词短语: 忽略那些频率小于3的名词短语。这些通常是罕见的概念和属性组合，可能已经在其他图像的描述中被覆盖。
选择图像-文本对: 从频率最低的名词短语开始，将包含这个名词短语的所有图像-文本对加入候选池。
限制高频名词短语的选择: 如果一个名词短语的频率超过100，从包含此名词短语的所有图像-文本对中随机选择100个，而不是选择所有的。

为什么这么做

减少数据冗余: 通过忽略低频名词短语，可以避免那些可能只是偶然出现或特别罕见的图像-文本对。这有助于减少数据集中的冗余内容。
确保概念覆盖: 从频率低的名词短语开始选择，保证了数据集覆盖了较宽范围的概念，而不是仅仅聚焦于那些经常出现的主题。
控制数据集大小和质量: 通过对高频名词短语采取随机选择，可以有效控制数据集的大小，同时确保数据集中不会过度偏向于某些过于常见的概念。这样既保证了数据集的可管理性，也提高了数据集的多样性和质量。

通过这种方式，研究者能够从一个大规模的数据集中精选出一个较小但更为精致和多样化的图像-文本对子集，这对于训练高效和有效的机器学习模型非常有价值。

2. 上面"具体步骤"中第三条是什么意思？为什么说"可能已经在其他图像的描述中被覆盖"，请你举个例子说明一下

这句话的意思是，在处理CC3M数据集时，研究人员决定不考虑那些出现频率小于3次的名词短语。这样做的原因是这些名词短语往往代表非常特定或罕见的概念和属性组合，这些特定的组合可能在数据集的其他部分以不同的形式被提及或"覆盖"了。这种做法旨在减少数据集中的噪声和过度具体的信息，从而使数据集更加精简和通用。

为什么说"可能已经在其他图像的描述中被覆盖"？

"被覆盖"的含义在这里是指，尽管某个具体的名词短语可能没有直接被重复，但其代表的概念或属性可能已经通过其他更常见或更广泛的词汇在数据集中得到了表述。这样，即便忽略这些低频名词短语，它们代表的信息也不会完全丢失，因为相似或相关的概念已经通过其他方式被包含在数据集中了。

例子说明

假设在CC3M数据集中，有一个名词短语"红色的小型邮筒"，这个短语只在数据集中出现了两次，因此根据上述规则，它被认为是低频的，并且会被忽略。但是，数据集中可能还有其他描述像是"红色邮筒"或者"小型邮筒"，这些描述出现的频率较高。虽然"红色的小型邮筒"这一具体的组合被忽略了，但其包含的主要概念---即邮筒的颜色和大小---可能已经通过其他更常见的描述被覆盖。这意味着即便是在没有考虑这个具体短语的情况下，数据集依然能够代表与"红色"、"小型"和"邮筒"相关的概念。这种做法有助于保持数据集的多样性，同时避免因为过于具体的描述而造成的噪声。

补充原图。

The comparison of noun-phrase statistics before and after filtering CC3M is shown in Figure 2. The filtered dataset shows a good coverage of concepts whose frequency is higher from 3, but with a smaller number of image-text pairs.