图文混合文档的轻量级多模态listwise重排框架:Rank-Nexus

  • Pairwise:逐对比较文档,预测更相关的样本,累计得分后排序;仅关注局部两两关系。
  • Listwise同时处理全部候选,基于Plackett-Luce概率模型直接输出全局排序;优化整体重排质量,是本文核心范式。

本文介绍的方法Rank-Nexus将Listwise重排序扩展至多模态场景,联合处理文本段落和图像,生成排序。

定义:给定查询 q 、第一阶段检索得到的候选文档集 \\mathcal{D}={d_1,d_2,...,d_n} (文档可含文本/图像/图文混合),目标是学习排序函数 \\pi ,输出按查询相关性从高到低的文档排列。

采用CLIP获取图文对齐表征:

  • 图像嵌入 e_I=Enc_{img}(I) ,文本嵌入 e_t=Enc_{text}(t)
  • 余弦相似度计算图文相关性: sim(I,t)=\\frac{e_I \\cdot e_t}{\|e_I\|_2\|e_t\|_2}

Rank-Nexus 方法

如上图,数据构造方面主要是蒸馏闭源模型和数据筛选策略:阶段1先从 Claude-4.5 中提炼多样多模态文档的成列表排序,生成包含相关性排序和解释的结构化输出。阶段2质量过滤通过 CLIP 得分阈值去除低置信度样本生成高质量的训练数据。

训练pipeline采用分模块训练方法(渐进式):首先分别在文本和图像模态上进行训练,然后进行联合多模态微调。

VLM backbone:InternVL-3-2BQwen3-VL-2B,保证轻量与性能平衡。

(1)文本重排:蒸馏 + 数据精选

解决文本重排的知识迁移数据冗余问题:

知识蒸馏
  • 教师模型:GPT-4、Claude3.5-Sonnet(生成最优列表级排序 \\pi\^\* );

  • 学生模型:Rank-Nexus文本分支,拟合教师输出,最小化列表级文本重排损失

    其中 \\tau=0.1 为温度系数, s_\\theta 为模型相关性打分。

数据精选

实验发现:文本训练数据并非越多越好 ,存在收益递减

  • 1k→4k样本:性能大幅提升;
  • 4k→10k样本:性能下降(冗余、噪声、过拟合)。
    最终仅选取4k高质量样本 (为标准100k数据的7.5%),通过置信度过滤保留教师模型高置信度排序结果。

(2)图像重排:稀缺数据的蒸馏与多样性筛选

解决图像列表级重排数据极度稀缺 的问题,基于MMDocIR基准构建数据,分三步:

用CLIP计算查询-图像余弦相似度 ,过滤低相关样本,剔除噪声监督信号;使用贪婪最大多样性选择;图像数据蒸馏:用Claude-4.5-Haiku对每个查询的Top-20图像候选生成列表级重排标签。

(3)联合多模态微调

完成文本、图像单模态训练后,做图文混合文档联合微调

  1. 初始化:加载图像训练后的模型权重(已融合文本排序能力);
  2. 优化目标:混合模态列表级重排损失 \\mathcal{L}_{mm} (与文本损失形式一致,适配图文混合候选);
  3. 伪标签生成:用闭源LLM对图文混合列表蒸馏排序标签。

各阶段输出(Prompt控制):

  • 文本列表级:输出 [2] > [1] > [3] 格式;
  • 图像成对:仅输出 Yes/No
  • 图像列表级:同文本格式,融合图文信息排序。

实验

参考文献

When Vision Meets Texts in Listwise Reranking,https://arxiv.org/pdf/2601.20623

相关推荐
懒惰的coder1 小时前
MPC算法
算法
醉舞经阁半卷书11 小时前
LangGraph详解
开发语言·人工智能·python·深度学习·机器学习·自然语言处理
小许同学记录成长1 小时前
三维编辑功能实现
qt·算法·无人机
平行侠1 小时前
026FFT快速乘法 - 从信号处理到大数计算的革命
数据结构·算法·信号处理
byte轻骑兵1 小时前
【HID】规范精讲[12]: 蓝牙HID设备的连接信息存储机制深度解析
人工智能·人机交互·交互·键盘·鼠标·hid
码上掘金1 小时前
基于YOLO和大语言模型的农田杂草智能检测系统(代码、数据集、模型和论文)
人工智能·yolo·语言模型
测试员周周1 小时前
【AI测试功能6】功能测试的自动化率:哪些该自动、哪些必须人工——AI测试人机协作决策指南
开发语言·人工智能·python·功能测试·单元测试·自动化·测试用例
啦啦啦_99991 小时前
1. 决策树简介
机器学习
Controller-Inversion1 小时前
240. 搜索二维矩阵 II
线性代数·算法·矩阵