推理驱动的生成式通用多模态嵌入框架-UME-R1

VLM2Vec, MM-Embed等模型均为判别式:直接提取输入最后一个 token 的隐层状态作为嵌入,不生成新 token,无法利用 MLLM 的推理能力。UME-R1 提出生成式多模态嵌入,让模型先推理、再总结、最后生成嵌入,同时保留判别式嵌入能力。

方法

数据构建

构建冷启动 SFT 监督数据与RL 强化学习数据两套数据集,覆盖图像、视频、视觉文档三模态。

用GLM-4.1V-Thinking推理模型,为每条样本的 query 和 target 生成思维连和摘要。prompt如下:

剔除三类无效样本,最终得到146 万条高质量 SFT 数据:

  • 大量连续 token 重复
  • 推理文本超长(>8192token)
  • 不遵循【< think>...< /think>< answer>...< /answer >】格式

UME-R1模型架构

模型设计目标 :一个模型同时输出判别式嵌入 + 生成式嵌入。

其中 < image> 和 < video> 分别表示输入图像和视频的占位符。如图 a 所示:

  • 判别式嵌入:提示中 <disc_emb> token 对应的最后一层隐状态。
  • 生成式嵌入:模型生成的 <gen_emb> token 对应的最后一层隐状态

双嵌入生成逻辑:

  • 判别式嵌入 :直接提取输入占位符的隐状态,无生成步骤,速度快。
  • 生成式嵌入 :先自主生成推理过程+摘要 ,再结合原始输入生成最终表示,精度更高
模型训练

采用两阶段训练,先通过SFT赋予模型双嵌入+推理能力,再用RLVR优化生成式嵌入质量。

Stage 1:冷启动监督微调

目标:让模型同时学会3件事

  1. 生成判别式嵌入;
  2. 生成带推理+摘要的生成式嵌入;
  3. 掌握基础的分步推理能力。

总损失:

  1. 判别式对比损失:传统损失,优化判别式嵌入的检索性能。
  1. 生成式对比损失:对推理+摘要后的生成式嵌入 做对比学习,利用CoT语义提升精度:

    • o_i\^q :查询 q_i 的推理+摘要;
    • o_i\^t :目标 t_i 的推理+摘要。
  2. 自回归语言损失:对推理、摘要token做下一个token预测**,强制模型学会生成规范CoT:

    • L_q/L_t :查询/目标的推理长度。
Stage 2:可验证奖励强化学习(RLVR)

使用GRPO进一步优化推理轨迹对embedding的性能【仅用小数据集即可优化,不破坏判别式嵌入性能】。

奖励函数设计:

(1)格式奖励(Format Reward)

强制模型严格遵循模板:< think>推理< /think> < answer>摘要< /answer> < gen_emb>。符合得1分,偏差得0分,保障输出的结构化与可解释性。

(2)嵌入奖励(Embedding Reward)

融合排序 +相似度差,适配多模态嵌入:

  • 排序得分:正样本在Top-G中的占比,对齐下游检索任务;
  • 相似度差:正/负样本平均相似度之差,细粒度优化区分度;
  • 优势:替代固定阈值奖励,适配不同模态的相似度分布。

实验

参考文献

UME-R1: EXPLORING REASONING-DRIVEN GENER ATIVE MULTIMODAL EMBEDDINGS,https://arxiv.org/pdf/2511.00405

code:https://github.com/XMUDeepLIT/UME-R1

相关推荐
To_OC2 小时前
搞懂 Token 和 Embedding 后,我终于明白大模型是怎么 "读" 文字的
人工智能·llm·agent
冬奇Lab4 小时前
每日一个开源项目(第139篇):Voicebox - 本地运行的开源 ElevenLabs 替代品
人工智能·开源·资讯
冬奇Lab4 小时前
Skill 系列(03):Skill 设计范式——5 个模式让输出从混沌到可预测
人工智能·开源·agent
IT_陈寒6 小时前
Python搞不定字符串编码?这破玩意坑我两小时!
前端·人工智能·后端
大模型真好玩8 小时前
什么是Loop Engineering?最通俗易懂的Loop Engineering核心概念
人工智能·agent·deepseek
叁两8 小时前
前端转型AI Agent该如何学习?(前置篇)
前端·人工智能·node.js
LaiYoung_8 小时前
🎁 送你一套超好用超实用的 FE AI-Coding Skills
前端·人工智能·开源
ZzT11 小时前
怎么做才不会被 AI 替代?
人工智能·程序员
道友可好11 小时前
从今天开始:你的第一个 Harness Engineering 实践
前端·人工智能·后端