【多模态RAG】Purifying Multimodal Retrieval

note

现有 MRAG 框架均采用文档级检索与重排，默认文档内所有内容同等有效，但是检索文档含大量无关、冗余、矛盾噪声，引发 MLLM 幻觉，图像仅小区域感兴趣（ROI）有用，文本仅少量句子相关。所以，搞了个Retrieve--Rerank--Select--Generate四阶段 pipeline，新增片段级筛选模块净化证据，目标是在量化证据的边际效用，从而能够过滤掉通常会损害下游推理的无关、冗余或矛盾噪声
多模态RAG去噪：碎片筛选阶段【使用训练完成的轻量学生选择器，对混合候选池中所有条目进行效用打分，按得分从高到低排序，选取Top-5最高效用碎片作为最终纯净上下文】

文章目录

note
[一、Purifying Multimodal Retrieval](#一、Purifying Multimodal Retrieval)
Reference

一、Purifying Multimodal Retrieval

【多模态RAG进展】打的点一个去噪工作。是现有 MRAG 框架均采用文档级检索与重排，默认文档内所有内容同等有效，但是检索文档含大量无关、冗余、矛盾噪声，引发 MLLM 幻觉，图像仅小区域感兴趣（ROI）有用，文本仅少量句子相关。所以，搞了个Retrieve--Rerank--Select--Generate四阶段 pipeline，新增片段级筛选模块净化证据，目标是在量化证据的边际效用，从而能够过滤掉通常会损害下游推理的无关、冗余或矛盾噪声，工作在《Purifying Multimodal Retrieval: Fragment-Level Evidence Selection for RAG》，https://arxiv.org/pdf/2604.27600

核心思路是不直接用整段文档，而是把检索回来的图文切成最小有用单元 → 计算每个碎片的价值 → 只留高价值碎片 → 再给大模型生成，分成采用Retrieve--Rerank--Select--Generate四阶段 pipeline，也就是先把检索到的图文切成最小有用单元，用大模型算出每个碎片对生成答案的帮助，再蒸馏一个小模型快速挑出最有用的碎片，最后只给大模型喂这些纯净碎片生成答案。

1）具体步骤：

step1.粗检索阶段【采用Visualized BGE多模态稠密检索器，将用户查询与多模态数据库中的文档编码至统一向量空间，执行近似最近邻检索，召回Top-100候选文档构成初始候选集】

->step2.粗重排阶段【使用Jina-Reranker-m0跨编码器重排模型，对Top-100候选文档逐篇计算与查询的语义相关性得分，按得分从高到低排序，选取Top-15文档进入细粒度处理】

->step3.文本碎片分割阶段【对Top-15中的文本文档执行递归二元分割：以Jina-Reranker-m0为打分器，先计算整段文档得分，再按句子中点切分为左右两段，若分段后最高分高于整段得分则保留高分段并递归分割，直至分割为单句或分段无增益，得到句子级原子文本碎片】

->step4.视觉碎片分割阶段【对Top-15中的图像文档使用Grounding DINO模型，根据查询生成候选目标区域，按目标置信度＞0.4、语义对齐分数＞0.35、区域面积＞2500像素三个条件过滤，裁剪保留符合条件的区域作为ROI视觉原子碎片】

->step5.碎片信息增益FIG计算阶段【以Qwen3-VL-32B作为教师MLLM，分别计算"仅输入查询"与"输入查询+单个碎片"两种条件下，模型生成真实答案的长度归一化对数似然概率，两者差值即为该碎片的Fragment Information Gain（FIG），用于量化碎片对生成的边际效用，这里的逻辑是FIG 用于量化每个文本 / 视觉片段对 MLLM 生成正确答案的边际贡献，计算逻辑是对比模型加入片段与不加片段时，生成真实答案的长度归一化对数似然差值，值越高代表片段对生成的支撑作用越强，为选择器提供精准监督信号】

->step6.监督标签构建阶段【设定FIG阈值0.2，将FIG＞0.2的文本/视觉碎片标记为有效证据（标签1），FIG≤0.2的碎片标记为无效噪声（标签0），构建（查询，碎片，二分类标签）的监督训练数据集】

->step7.轻量选择器蒸馏训练阶段【以Qwen3-VL-32B为教师模型、Jina-Reranker-2B为轻量学生模型，采用混合损失函数训练：包含拟合二分类标签的二元交叉熵损失，以及拟合教师软概率分布的KL散度损失，设置蒸馏温度T=2、蒸馏权重α=0.7，让学生模型学习碎片效用判别能力】

->step8.推理混合候选池构建阶段【将文本碎片、ROI视觉碎片与粗排阶段未分割的剩余文档合并，构建包含细粒度碎片与粗粒度文档的统一混合候选证据池】

->step9.碎片筛选阶段【使用训练完成的轻量学生选择器，对混合候选池中所有条目进行效用打分，按得分从高到低排序，选取Top-5最高效用碎片作为最终纯净上下文】

->step10.纯净生成阶段【将Top-5高效用碎片与用户查询拼接，输入MLLM生成器，模型仅基于高信息密度、低噪声的纯净上下文生成最终答案，降低幻觉并提升事实准确性】。2）看结果，在 M²RAG 基准上实现最高 27% 的 CIDEr 相对提升，同时降低 20.4%--33.1% 的上下文 token 消耗。

Reference

1\] 《Purifying Multimodal Retrieval: Fragment-Level Evidence Selection for RAG》，https://arxiv.org/pdf/2604.27600