学习周报三十九

文章目录

摘要
abstract
[一、LaVA-OneVision-1.5 :](#一、LaVA-OneVision-1.5 :)
- 1.1概括
- [1.2 数据](#1.2 数据)
- [1.3 结构](#1.3 结构)
- [1.4 训练](#1.4 训练)
- [1.5 后训练：强化学习](#1.5 后训练：强化学习)
- 1.6性能
总结

摘要

学习LLaVA-OneVision-1.5的核心工作：通过8500万概念平衡的预训练数据和2200万指令数据，配合离线并行数据打包策略实现高效训练。模型采用RICE-ViT与Qwen3架构，创新性地引入区域聚类判别损失和两阶段强化学习（仅答案RL→思维链RL），显著提升了复杂多模态推理能力。重点记录了概念平衡采样、区域感知注意力、差异驱动的RL数据选择等可借鉴方法。

abstract

This study focuses on the core work of LLaVA-OneVision-1.5: achieving efficient training through 85 million concept-balanced pre-training data points and 22 million instruction data points, coupled with an offline parallel data packaging strategy. The model employs the RICE-ViT and Qwen3 architectures, innovatively introducing region clustering discriminative loss and two-stage reinforcement learning (answer-only RL → thought chain RL), significantly improving complex multimodal reasoning capabilities. Key methods for reference, such as concept-balanced sampling, region-aware attention, and difference-driven RL data selection, are documented.

一、LaVA-OneVision-1.5 :

主要内容：1.8500 万概念平衡的预训练数据集 LLaVA-OneVision-1.5-Mid-Training，精心策划的 2200 万指令数据集 LLaVA-OneVision-1.5-Instruct。

2.离线并行数据打包策略，端到端高效训练框架下训练。

3.轻量级的强化学习（RL）阶段释放模型的潜在能力，激发出稳健的思维链推理能力，提升复杂多模态推理任务的性能。

1.1概括

思想：发现仅在中训练阶段扩展数据本身即可产生最先进的 LMMs，无需复杂的训练范式。

数据：8500 万概念平衡的预训练数据集 LLaVA-OneVision-1.5-Mid-Training，精心策划的 2200 万指令数据集 LLaVA-OneVision-1.5-Instruct。平衡策略。

LLaVA 系列的ViT--MLP--LLM结构：RICE-ViT作为视觉编码器。Qwen2.5-VL，将空间上相邻的四个补丁特征分组，然后将它们拼接并通过一个两层多层感知机（MLP）映射到 LLM 的文本嵌入空间。Qwen3 作为语言骨干。

训练：阶段 1）语言-图像对齐，阶段 1.5）高质量知识学习，阶段 2）视觉指令微调。数据打包策略提高效率。

后训练：强化学习

1.2 数据

数据：LLaVA-OneVision-1.5-Mid-Training 支撑，该数据集包含 8500 万高质量图像-文本对（2000 万中文和 6500 万英文）。

解决原始数据的长尾分布问题，受 MetaCLIP启发的概念平衡采样策略：采用基于特征的匹配方法来粗略分组图像来源。使用预训练的 MetaCLIP-H/14-Full-CC2.5B 编码器，将图像和 MetaCLIP 的 50 万概念条目投影到共享嵌入空间。

由于 MetaCLIP 嵌入已经是概念平衡的，使得基于相似性的概念归纳成为可能：对于每张图像，检索其 Top-K 最近邻概念嵌入，以构建增强的伪标题，从而提升语义对齐。

1.3 结构

RICE-ViT 保留标准的基本流程，但在位置编码、注意力机制和训练目标上进行了关键修改。

输入层：分块后，支持可变输入分辨率（采用2D旋转位置编码）根据补丁在图像中的绝对坐标动态生成位置嵌入，无需针对特定分辨率进行微调。

标准注意力：计算所有 Patch 之间的相关性。

区域感知注意力：聚类机制动态计算相关性。

区域聚类判别损失：语义相似的区域（即使来自不同图像，非传统图像整体作为正负样本）聚类在一起，同一聚类内的区域特征应相互靠近，反之远离。

投影器：将空间上相邻的四个补丁特征分组，然后将它们拼接并通过一个两层多层感知机映射到 LLM 的文本嵌入空间。下采样减少3/4的数据量，拼接保证视觉信息的完整性。

1.4 训练

阶段1：语言-图像对齐。使用 LLaVA-1.5 558K 预训练投影层，将视觉特征对齐到 LLM 的词嵌入空间。

阶段 1.5：高质量知识学习。对齐阶段的基础上，引入高质量知识学习阶段，以在计算效率和向 LMMs 注入新知识之间取得平衡。此阶段，使用 LLaVA-OneVision-1.5-Mid-Training 数据集对所有模块进行全参数训练。（之前没有的）

阶段 2：视觉指令微调。为使 LMMs 以期望的响应处理各种视觉任务，使用提出的 LLaVA-OneVision-1.5-Instruct 以及 FineVision数据集进行全参数训练。

1.5阶段数据打包实现负载均衡：传统填充数据，提出了一种离线并行数据打包方法，在预处理阶段将多个较短样本合并为打包序列。采用哈希桶来高效处理大规模数据，并利用多线程、策略感知的批处理来控制打包成功率、样本数量和批次组成。实现 11 倍的压缩比。

1.5 后训练：强化学习

差异驱动的数据选择：通过测量不同基准测试上 Pass@N 和 Pass@1 性能之间的差异来筛选训练数据。显著的差距表明模型具有解决该任务的潜在能力，因为正确的解确实出现在其采样分布中，但其策略分布未能可靠地为正确的推理路径分配高概率。RL激发机制而非知识注入，将概率质量重定向到模型已经能够生成但未一致优先选择的解上。

聚合多样化的公共数据源构建 RL 训练语料库：涵盖了广泛的能力，如 STEM 推理、编码、接地、计数、空间推理、图表理解和 OCR。

在这基础上：基于奖励的采样，进一步筛选高质量的训练实例，使用基础模型为每个样本生成多个候选响应，并计算它们的自动奖励。仅保留那些候选响应的平均奖励落在指定范围内的示例，使语料库偏向于提供最有价值学习信号的中等难度实例。

奖励系统：

RL 设置采用基于规则的奖励范式，奖励直接从任务结果推导，非学习的偏好模型。

不同类型的答案需要不同的验证策略。如：接地数据通过预测边界框与参考边界框之间的交并比（IoU）进行评估，并结合相关多选题的标准准确率。图表问题通过多选题准确率进行判断。...

训练过程：

采用组相对策略优化（GRPO）作为核心强化学习算法。为最大化训练效率和吞吐量，采用 AReaL中的 GRPO 实现，最先进的异步 RL 框架。AReaL 将生成与训练解耦，允许滚动工作器持续生成数据，同时训练工作器并行更新模型，与同步实现相比显著提高了 GPU 利用率。

关于优化目标，简化了标准的 GRPO 公式，省略了 KL 散度惩罚，转而依赖 PPO 风格的裁剪来维持训练稳定性。丢弃了常用于强制结构约束（如 XML 标记）的显式格式奖励。相反，仅依赖基于结果的正确性奖励。

两阶段训练：阶段 1：正常数据上的仅答案 RL，要求模型仅输出最终答案（防止简单问题过度思考）。阶段 2：长推理数据上的思维链 RL ，鼓励模型生成显式推理轨迹（混合策略在小批量中穿插少量仅答案示例，作为锚点防止模型遗忘简洁任务的能力。）。根据内的内容计算，内的推理作为辅助指导。

1.6性能

消融实验：强化学习的拓展能力分析。

高质量数据增加对模型性能的影响。

概念平衡数据，增强模型吸收更全面知识的能力。200 万概念平衡数据上训练的模型与在 200 万随机采样数据上训练的模型进行了比较分析。

总结

论文可学习使用的：1.数据的收集。基于特征的匹配，逆频率采样。解决原始大规模数据集中的长尾分布。

2.RICE-ViT的特征提取，不改变数据的像素，分辨率。同时平衡效率和性能。区域聚类判别损失：语义相似的区域（即使来自不同图像，非传统图像整体作为正负样本）聚类在一起，同一聚类内的区域特征应相互靠近，反之远离。

3.强化学习使用在最后结果生成和选择上。

代码还在继续实践。