InternVL(1~3.5版本)多模型大模型训练中的数据集构造总结

InternVL基于互联网开源数据采集了6B数据，经过滤后一阶段用了5B数据，二阶段用了1B数据。SFT阶段，用了4M数据（二阶段的0.4%）。InternVL1.5与上一版本相比，扩大了训练数据集的纳入范围（尤其是关于ORC任务，进行了细粒度的划分），并且设计了**翻译流程，**补充中文语料训练数据的不足，同时针对测试任务针对性设计了SFT数据。

InternVL2基于1.5版本的数据集，二次进行扩充，同时构建了包含医疗领域的二阶段高质量训练数据。

InternVL2.5 引入了有条件地应用JPEG 压缩，图像分块控制， 在总体的训练数据规模上，比v2模型多了近一倍，同时由于tille数量的变化，训练视觉token数提升的比例变得更大了。并提出了异常数据过滤.

InternVL3主要描述**将语言预训练与多模态对齐训练整合于同一预训练阶段，**混合输入多模态数据（图文、视频文本等）与大规模纯文本语料实现联合优化，同步学习语言与多模态能力。

InternVL3.5仅训练了1160M 样本（250B token，仅约 InternVL1的1/5）,但是在SFT阶段用了约600M样本。

InternVL

公开时间：2024年1月15日

仅介绍了其基于模型架构与训练步骤，只说明数据均来自开源环境，经过筛选后保留合格数据，并未详细介绍数据处理流程。具体使用的数据集来源可以查看论文附录：https://arxiv.org/pdf/2312.14238

整体可以看到用了5B 图文多模态数据集， 一条图文对：问题 + 回答 ≈ 200～500 token， 取中间保守值：1 条 ≈ 300 token， 5B 条样本 ≈ 5B × 300 = 1500B token

训练与测试时具体数据集划分。

InternVL1.5

Pre-training Dataset.

Fine-tuning Dataset.

在微调阶段，精心选择数据集，以提高在各种多模态任务中的模型性能。表1b总结了本阶段使用的数据集。在表1中，已经为每个数据集进行了语言注释。对于最初是英文的数据集，作为"zh"的注释表示我们已经使用翻译pipeline将其翻译成中文。例如，COYO $10$ 和GRIT $90$ 最初是英语数据集，已经将它们翻译成了中文。