推理驱动的生成式通用多模态嵌入框架-UME-R1

VLM2Vec, MM-Embed等模型均为判别式：直接提取输入最后一个 token 的隐层状态作为嵌入，不生成新 token，无法利用 MLLM 的推理能力。UME-R1 提出生成式多模态嵌入，让模型先推理、再总结、最后生成嵌入，同时保留判别式嵌入能力。

构建冷启动 SFT 监督数据与RL 强化学习数据两套数据集，覆盖图像、视频、视觉文档三模态。

用GLM-4.1V-Thinking推理模型，为每条样本的 query 和 target 生成思维连和摘要。prompt如下：

剔除三类无效样本，最终得到146 万条高质量 SFT 数据：

模型设计目标 ：一个模型同时输出判别式嵌入 + 生成式嵌入。

其中 < image> 和 < video> 分别表示输入图像和视频的占位符。如图 a 所示：

双嵌入生成逻辑：

采用两阶段训练，先通过SFT赋予模型双嵌入+推理能力，再用RLVR优化生成式嵌入质量。

目标：让模型同时学会3件事

总损失：

生成式对比损失：对推理+摘要后的生成式嵌入 做对比学习，利用CoT语义提升精度：
- $o_i\^q$ ：查询 $q_i$ 的推理+摘要；
- $o_i\^t$ ：目标 $t_i$ 的推理+摘要。
自回归语言损失:对推理、摘要token做下一个token预测**，强制模型学会生成规范CoT：
- $L_q/L_t$ ：查询/目标的推理长度。

使用GRPO进一步优化推理轨迹对embedding的性能【仅用小数据集即可优化，不破坏判别式嵌入性能】。

奖励函数设计：

（1）格式奖励（Format Reward）

强制模型严格遵循模板：< think>推理< /think> < answer>摘要< /answer> < gen_emb>。符合得1分，偏差得0分，保障输出的结构化与可解释性。

（2）嵌入奖励（Embedding Reward）

融合排序 +相似度差，适配多模态嵌入：

UME-R1: EXPLORING REASONING-DRIVEN GENER ATIVE MULTIMODAL EMBEDDINGS，https://arxiv.org/pdf/2511.00405