多模态视觉语言模型:Molmo2训练数据、训练配方

如果想打造自己的VLM模型,不妨看看Molmo2,训练数据、训练配方均开源。

训练数据

最核心的还是这份开源数据。

模型架构

遵循经典的VLM架构:vit+connector(连接器并非使用 ViT 最后一层输出,而是选择ViT 倒数第三层(9th-from-last)和倒数第九层(3rd-from-last)特征(继承自前代 Molmo)+llm,但针对 "视频理解与像素级接地(Grounding)" 核心需求做了优化。目标是高效处理单图像、多图像及视频输入,同时实现时空定位与跨模态语义对齐。

视觉输入的核心挑战是高分辨率细节保留长视频计算成本控制。Molmo2 针对图像和视频设计了不同的裁剪方案。

1. 图像裁剪:多重叠裁剪实现高分辨率覆盖

为解决单裁剪丢失细节的问题,采用"单裁剪 + 多重叠裁剪"的组合策略:

  • 基础裁剪:将图像下采样后生成 1 个"基础裁剪块"(默认尺寸与 ViT 输入匹配,如 384×384);
  • 重叠裁剪 :额外生成最多 K K K 个重叠裁剪块平铺图像(训练时 K = 8 K=8 K=8,推理时 K = 24 K=24 K=24),覆盖图像边缘与细节区域;
  • 适配逻辑 :若图像尺寸无法被 K K K 个裁剪块整除,则先下采样至可平铺尺寸,避免黑边填充导致的特征噪声。

多裁剪策略让模型能捕捉图像局部细粒度特征(如小物体、文本),为"图像指向(Pointing)""计数"等定位任务提供像素级支撑。

2. 视频裁剪:低帧率采样 + 帧筛选控制token成本

视频处理的核心是平衡"时间覆盖范围"与"计算量":

  • 帧率采样 :以 S = 2 S=2 S=2 FPS(帧/秒)采样视频帧,单帧按图像裁剪逻辑处理(仅用单裁剪,避免多裁剪导致的 Token 爆炸);
  • 帧数量限制 :设置最大帧数 F F F(常规训练 F = 128 F=128 F=128,长上下文训练 F = 384 F=384 F=384):
    • 若视频时长 > F / S F/S F/S(如 128 帧 / 2 FPS = 64 秒),则均匀采样 F F F 帧,确保覆盖视频全时段;
    • 强制保留"最后一帧":因多数视频播放器结束后会停留在最后一帧,该帧对用户交互(如"视频结尾的物体是什么")具有特殊意义。
  • 时间戳对齐:采样帧的时间戳基于视频实际时长计算(而非帧索引),确保动态视频的时间维度准确性(如"0.5s 时物体位置")。
注意力掩码

确保模型在高效打包训练(多个短示例合并为一个长序列)时,仍能精准学习单任务的语义关联。

上图:一个包含两个样本的 packed 序列的注意力掩码。第一个样本包含一张图像的两对问答。帧标记(深粉色)具有前向注意力,而掩码块则屏蔽了不同样本之间的交叉注意力(左下角空白块)以及同一样本内不同问答对之间的交叉注意力(上方空白块)。

  • 跨示例掩码:不同训练示例的视觉 Token/文本之间不允许注意力交互,避免无关信息干扰;
  • 跨任务掩码:同一示例的不同标注任务(如同一视频的" caption 生成"与"指向")之间不互相关注,防止任务间梯度冲突;

训练配方

训练采用三阶段递进式 pipeline(预训练→监督微调→长上下文微调),核心目标是从"图像基础能力"逐步扩展到"视频-图像联合理解"与"长上下文Grounding"。

1. 阶段1:轻量级图像预训练

  • 图像字幕数据:PixMo-Cap( dense 图像字幕),占比 60%,用于学习视觉 - 文本语义关联;
  • 图像指向数据:PixMo-Points(图像指向)、PixMo-Count(图像计数)、CoSyn-Point(文本 - rich 图像指向),占比 30%,提前让模型掌握 "像素级定位" 格式与逻辑;
  • NLP 数据:Tulu的监督微调数据(过滤非英文与代码),占比 10%,避免视觉训练导致语言能力退化。

2. 阶段2:SFT

整合图像、视频、多图像数据,让模型掌握"视频理解""跨模态 QA""视频指向/跟踪"等核心任务,是能力扩展的核心阶段。

3. 阶段3:长上下文微调

解决"长视频(>64 秒)理解"短板,支持更多帧输入与更长文本上下文,适配实际场景中长时序视频分析需求。序列长度从 16k 提升至 36,864,视频最大帧数从 128 增至 384(仍按 2 FPS 采样,覆盖最长 192 秒视频)

实验

总结

Molmo2 的训练设计围绕"从专到博、效率优先"原则:先通过图像预训练夯实基础,再用多源混合数据扩展多模态能力,最后通过长上下文微调补全短板;同时以 Token 加权、Packing、消息树等技巧解决多模态训练的核心痛点,最终实现"开源模型中视频接地性能领先"(如视频指向 F1 38.4 超越 Gemini 3 Pro 的 20.0)。

参考文献

往期相关:《【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)

相关推荐
民乐团扒谱机17 小时前
【深度横评】AI记忆功能全平台拆解:ChatGPT/Claude/Gemini/国产大模型谁真懂你?附隐私避坑指南
人工智能·chatgpt
gorgeous(๑>؂<๑)1 天前
【ICLR26-金玥明-新国立】MedAgent-Pro:通过推理智能体工作流实现基于证据的多模态医疗诊断
人工智能
hqyjzsb1 天前
企业AI人才库的搭建体系与长效运营管理方案
人工智能·学习·职场和发展·创业创新·学习方法·业界资讯·改行学it
码农小韩1 天前
AIAgent应用开发——大模型理论基础与应用(五)
人工智能·python·提示词工程·aiagent
拔刀能留住落樱吗、1 天前
AI 落地避坑实战(2026 最新):200 + 项目复盘,数据 + 方案 + 代码思路,少亏 50 万
人工智能
龙山云仓1 天前
No160:AI中国故事-对话耿恭——孤城坚守与AI韧性:极端环境与信念之光
大数据·人工智能·机器学习
Dcs1 天前
花 200 美刀买“黑盒”?Claude Code 这波更新,把程序员当傻子了吧…
人工智能·ai编程·claude
Mr_Lucifer1 天前
成本大幅降低、Agent效率显著提升:CodeFlicker 接入 MiniMax M2.5 与 GLM-5
人工智能·ai编程·产品
Jonathan Star1 天前
Ant Design (antd) Form 组件中必填项的星号(*)从标签左侧移到右侧
人工智能·python·tensorflow
挂科边缘1 天前
YOLOv12环境配置,手把手教你使用YOLOv12训练自己的数据集和推理(附YOLOv12网络结构图),全文最详细教程
人工智能·深度学习·yolo·目标检测·计算机视觉·yolov12