多模态视觉语言模型：Molmo2训练数据、训练配方

如果想打造自己的VLM模型，不妨看看Molmo2，训练数据、训练配方均开源。

训练数据

最核心的还是这份开源数据。

模型架构

遵循经典的VLM架构：vit+connector（连接器并非使用 ViT 最后一层输出，而是选择ViT 倒数第三层（9th-from-last）和倒数第九层（3rd-from-last）特征（继承自前代 Molmo）+llm，但针对 "视频理解与像素级接地（Grounding）" 核心需求做了优化。目标是高效处理单图像、多图像及视频输入，同时实现时空定位与跨模态语义对齐。

视觉输入的核心挑战是高分辨率细节保留 与长视频计算成本控制。Molmo2 针对图像和视频设计了不同的裁剪方案。

1. 图像裁剪：多重叠裁剪实现高分辨率覆盖

为解决单裁剪丢失细节的问题，采用"单裁剪 + 多重叠裁剪"的组合策略：

基础裁剪：将图像下采样后生成 1 个"基础裁剪块"（默认尺寸与 ViT 输入匹配，如 384×384）；
重叠裁剪 ：额外生成最多 K K K 个重叠裁剪块平铺图像（训练时 K = 8 K=8 K=8，推理时 K = 24 K=24 K=24），覆盖图像边缘与细节区域；
适配逻辑 ：若图像尺寸无法被 K K K 个裁剪块整除，则先下采样至可平铺尺寸，避免黑边填充导致的特征噪声。

多裁剪策略让模型能捕捉图像局部细粒度特征（如小物体、文本），为"图像指向（Pointing）""计数"等定位任务提供像素级支撑。

2. 视频裁剪：低帧率采样 + 帧筛选控制token成本

视频处理的核心是平衡"时间覆盖范围"与"计算量"：

帧率采样 ：以 S = 2 S=2 S=2 FPS（帧/秒）采样视频帧，单帧按图像裁剪逻辑处理（仅用单裁剪，避免多裁剪导致的 Token 爆炸）；
帧数量限制 ：设置最大帧数 F F F（常规训练 F = 128 F=128 F=128，长上下文训练 F = 384 F=384 F=384）：
- 若视频时长 > F / S F/S F/S（如 128 帧 / 2 FPS = 64 秒），则均匀采样 F F F 帧，确保覆盖视频全时段；
- 强制保留"最后一帧"：因多数视频播放器结束后会停留在最后一帧，该帧对用户交互（如"视频结尾的物体是什么"）具有特殊意义。
时间戳对齐：采样帧的时间戳基于视频实际时长计算（而非帧索引），确保动态视频的时间维度准确性（如"0.5s 时物体位置"）。

注意力掩码

确保模型在高效打包训练（多个短示例合并为一个长序列）时，仍能精准学习单任务的语义关联。

上图：一个包含两个样本的 packed 序列的注意力掩码。第一个样本包含一张图像的两对问答。帧标记（深粉色）具有前向注意力，而掩码块则屏蔽了不同样本之间的交叉注意力（左下角空白块）以及同一样本内不同问答对之间的交叉注意力（上方空白块）。

跨示例掩码：不同训练示例的视觉 Token/文本之间不允许注意力交互，避免无关信息干扰；
跨任务掩码：同一示例的不同标注任务（如同一视频的" caption 生成"与"指向"）之间不互相关注，防止任务间梯度冲突；

训练配方

训练采用三阶段递进式 pipeline（预训练→监督微调→长上下文微调），核心目标是从"图像基础能力"逐步扩展到"视频-图像联合理解"与"长上下文Grounding"。

1. 阶段1：轻量级图像预训练

图像字幕数据：PixMo-Cap（ dense 图像字幕），占比 60%，用于学习视觉 - 文本语义关联；
图像指向数据：PixMo-Points（图像指向）、PixMo-Count（图像计数）、CoSyn-Point（文本 - rich 图像指向），占比 30%，提前让模型掌握 "像素级定位" 格式与逻辑；
NLP 数据：Tulu的监督微调数据（过滤非英文与代码），占比 10%，避免视觉训练导致语言能力退化。

2. 阶段2：SFT

整合图像、视频、多图像数据，让模型掌握"视频理解""跨模态 QA""视频指向/跟踪"等核心任务，是能力扩展的核心阶段。

3. 阶段3：长上下文微调

解决"长视频（>64 秒）理解"短板，支持更多帧输入与更长文本上下文，适配实际场景中长时序视频分析需求。序列长度从 16k 提升至 36,864，视频最大帧数从 128 增至 384（仍按 2 FPS 采样，覆盖最长 192 秒视频）

实验

总结

Molmo2 的训练设计围绕"从专到博、效率优先"原则：先通过图像预训练夯实基础，再用多源混合数据扩展多模态能力，最后通过长上下文微调补全短板；同时以 Token 加权、Packing、消息树等技巧解决多模态训练的核心痛点，最终实现"开源模型中视频接地性能领先"（如视频指向 F1 38.4 超越 Gemini 3 Pro 的 20.0）。

参考文献

Molmo2：Open Weights and Data for Vision-Language Models with Video Understanding and Grounding，https://arxiv.org/pdf/2601.10611