推理驱动的生成式通用多模态嵌入框架-UME-R1

VLM2Vec, MM-Embed等模型均为判别式:直接提取输入最后一个 token 的隐层状态作为嵌入,不生成新 token,无法利用 MLLM 的推理能力。UME-R1 提出生成式多模态嵌入,让模型先推理、再总结、最后生成嵌入,同时保留判别式嵌入能力。

方法

数据构建

构建冷启动 SFT 监督数据与RL 强化学习数据两套数据集,覆盖图像、视频、视觉文档三模态。

用GLM-4.1V-Thinking推理模型,为每条样本的 query 和 target 生成思维连和摘要。prompt如下:

剔除三类无效样本,最终得到146 万条高质量 SFT 数据:

  • 大量连续 token 重复
  • 推理文本超长(>8192token)
  • 不遵循【< think>...< /think>< answer>...< /answer >】格式

UME-R1模型架构

模型设计目标 :一个模型同时输出判别式嵌入 + 生成式嵌入。

其中 < image> 和 < video> 分别表示输入图像和视频的占位符。如图 a 所示:

  • 判别式嵌入:提示中 <disc_emb> token 对应的最后一层隐状态。
  • 生成式嵌入:模型生成的 <gen_emb> token 对应的最后一层隐状态

双嵌入生成逻辑:

  • 判别式嵌入 :直接提取输入占位符的隐状态,无生成步骤,速度快。
  • 生成式嵌入 :先自主生成推理过程+摘要 ,再结合原始输入生成最终表示,精度更高
模型训练

采用两阶段训练,先通过SFT赋予模型双嵌入+推理能力,再用RLVR优化生成式嵌入质量。

Stage 1:冷启动监督微调

目标:让模型同时学会3件事

  1. 生成判别式嵌入;
  2. 生成带推理+摘要的生成式嵌入;
  3. 掌握基础的分步推理能力。

总损失:

  1. 判别式对比损失:传统损失,优化判别式嵌入的检索性能。
  1. 生成式对比损失:对推理+摘要后的生成式嵌入 做对比学习,利用CoT语义提升精度:

    • o_i\^q :查询 q_i 的推理+摘要;
    • o_i\^t :目标 t_i 的推理+摘要。
  2. 自回归语言损失:对推理、摘要token做下一个token预测**,强制模型学会生成规范CoT:

    • L_q/L_t :查询/目标的推理长度。
Stage 2:可验证奖励强化学习(RLVR)

使用GRPO进一步优化推理轨迹对embedding的性能【仅用小数据集即可优化,不破坏判别式嵌入性能】。

奖励函数设计:

(1)格式奖励(Format Reward)

强制模型严格遵循模板:< think>推理< /think> < answer>摘要< /answer> < gen_emb>。符合得1分,偏差得0分,保障输出的结构化与可解释性。

(2)嵌入奖励(Embedding Reward)

融合排序 +相似度差,适配多模态嵌入:

  • 排序得分:正样本在Top-G中的占比,对齐下游检索任务;
  • 相似度差:正/负样本平均相似度之差,细粒度优化区分度;
  • 优势:替代固定阈值奖励,适配不同模态的相似度分布。

实验

参考文献

UME-R1: EXPLORING REASONING-DRIVEN GENER ATIVE MULTIMODAL EMBEDDINGS,https://arxiv.org/pdf/2511.00405

code:https://github.com/XMUDeepLIT/UME-R1

相关推荐
jerryinwuhan1 小时前
analysis_report
人工智能
世优科技虚拟人1 小时前
3D卡通与写实数字人制作,AI数字人公司厂商重塑品牌形象升级
人工智能·ai数字人·3d数字人·大屏数字人·展厅数字人·卡通数字人
Ada's1 小时前
【LLM基础研究】工具02:MinerU
人工智能
彬鸿科技2 小时前
bhSDR Studio/Matlab入门指南(十二):AI神经网络训练(Resnet-SE) 实验界面全解析
人工智能·神经网络·matlab·软件无线电·sdr
TMT星球2 小时前
齐向东:AI时代,三类安全需求集中爆发
人工智能·安全
暗夜猎手-大魔王2 小时前
转载--Hermes Agent 05 | 记忆系统(上):内置记忆的冻结快照模式与 agent-curated 策展
人工智能
zhangfeng11332 小时前
如果模型h200训练好的模型 要部署到华为 升腾 950导致的误差怎么处理
人工智能·机器学习
贺国亚2 小时前
Agent 工程实践 · 生产落地 Playbook
java·人工智能·aigc
羊羊小栈2 小时前
非物质文化宣传系统(基于前后端Web开发)
前端·人工智能·毕业设计·大作业