图文混合文档的轻量级多模态listwise重排框架:Rank-Nexus

  • Pairwise:逐对比较文档,预测更相关的样本,累计得分后排序;仅关注局部两两关系。
  • Listwise同时处理全部候选,基于Plackett-Luce概率模型直接输出全局排序;优化整体重排质量,是本文核心范式。

本文介绍的方法Rank-Nexus将Listwise重排序扩展至多模态场景,联合处理文本段落和图像,生成排序。

定义:给定查询 q 、第一阶段检索得到的候选文档集 \\mathcal{D}={d_1,d_2,...,d_n} (文档可含文本/图像/图文混合),目标是学习排序函数 \\pi ,输出按查询相关性从高到低的文档排列。

采用CLIP获取图文对齐表征:

  • 图像嵌入 e_I=Enc_{img}(I) ,文本嵌入 e_t=Enc_{text}(t)
  • 余弦相似度计算图文相关性: sim(I,t)=\\frac{e_I \\cdot e_t}{\|e_I\|_2\|e_t\|_2}

Rank-Nexus 方法

如上图,数据构造方面主要是蒸馏闭源模型和数据筛选策略:阶段1先从 Claude-4.5 中提炼多样多模态文档的成列表排序,生成包含相关性排序和解释的结构化输出。阶段2质量过滤通过 CLIP 得分阈值去除低置信度样本生成高质量的训练数据。

训练pipeline采用分模块训练方法(渐进式):首先分别在文本和图像模态上进行训练,然后进行联合多模态微调。

VLM backbone:InternVL-3-2BQwen3-VL-2B,保证轻量与性能平衡。

(1)文本重排:蒸馏 + 数据精选

解决文本重排的知识迁移数据冗余问题:

知识蒸馏
  • 教师模型:GPT-4、Claude3.5-Sonnet(生成最优列表级排序 \\pi\^\* );

  • 学生模型:Rank-Nexus文本分支,拟合教师输出,最小化列表级文本重排损失

    其中 \\tau=0.1 为温度系数, s_\\theta 为模型相关性打分。

数据精选

实验发现:文本训练数据并非越多越好 ,存在收益递减

  • 1k→4k样本:性能大幅提升;
  • 4k→10k样本:性能下降(冗余、噪声、过拟合)。
    最终仅选取4k高质量样本 (为标准100k数据的7.5%),通过置信度过滤保留教师模型高置信度排序结果。

(2)图像重排:稀缺数据的蒸馏与多样性筛选

解决图像列表级重排数据极度稀缺 的问题,基于MMDocIR基准构建数据,分三步:

用CLIP计算查询-图像余弦相似度 ,过滤低相关样本,剔除噪声监督信号;使用贪婪最大多样性选择;图像数据蒸馏:用Claude-4.5-Haiku对每个查询的Top-20图像候选生成列表级重排标签。

(3)联合多模态微调

完成文本、图像单模态训练后,做图文混合文档联合微调

  1. 初始化:加载图像训练后的模型权重(已融合文本排序能力);
  2. 优化目标:混合模态列表级重排损失 \\mathcal{L}_{mm} (与文本损失形式一致,适配图文混合候选);
  3. 伪标签生成:用闭源LLM对图文混合列表蒸馏排序标签。

各阶段输出(Prompt控制):

  • 文本列表级:输出 [2] > [1] > [3] 格式;
  • 图像成对:仅输出 Yes/No
  • 图像列表级:同文本格式,融合图文信息排序。

实验

参考文献

When Vision Meets Texts in Listwise Reranking,https://arxiv.org/pdf/2601.20623

相关推荐
Dillon Dong11 小时前
【风电控制】TI TMS320F28379D 双CPU架构解析与任务分布设计
嵌入式硬件·算法·变流器·风电控制
久违 °16 小时前
【AI-Agent】TagMatrix 数据标注工具开发
人工智能·数据分析·go·agent·数据隐私
小羊在睡觉16 小时前
力扣84. 柱状图中最大的矩形
后端·算法·leetcode·golang·go
AI360labs_atyun16 小时前
腾讯推出电子牛马Marvis,好用吗?
人工智能·科技·ai
Dfreedom.16 小时前
Windows、虚拟机、开发板组网通信原理及调试通联步骤
人工智能·windows·部署·边缘计算·开发板·模型加速
3DVisionary16 小时前
蓝光三维扫描:医疗制造的精度焦虑怎么解
人工智能·算法·制造·蓝光三维扫描·医疗制造·三维检测·义齿检测
Are_You_Okkk_16 小时前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
好评笔记16 小时前
机器学习面试八股——常用损失函数
人工智能·深度学习·算法·机器学习·校招
weixin_4684668516 小时前
全局与局部注意力机制新手实战指南
人工智能·python·深度学习·算法·自然语言处理·transformer·注意力机制
weixin_4684668517 小时前
工业相机成像原理新手入门指南
人工智能·自动化·机器视觉·工业相机·光学·光学系统·成像原理