【论文极速读】视频检索中的模态均衡方法

【论文极速读】视频检索中的模态均衡方法
FesianXu 20231206 at Baidu Search Team

前言

传统的视频搜索系统相关性部分主要以文本匹配为基础手段,在其中引入多模态向量容易收到『模态不均衡』的问题,论文[1]尝试对其进行解决,本文进行笔记。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。

∇ \nabla ∇ 联系方式:

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用(https://www.zhihu.com/column/c_1265262560611299328)

微信公众号:机器学习杂货铺3号店


传统的视频搜索系统相关性部分主要以文本语义匹配/字面匹配为基本手段,其模型的输入基本上都是文本,并无视觉的语义向量。如果希望在这样一个纯文本的系统中加入视觉语义向量(此处的视觉语义向量可以是上游模型的产出,比如CLIP的产出),那么很容易遇到所谓的『模态不均衡』的问题,即是由于文本匹配更为简单(毕竟骨架网络都是基于文本进行过很多次迭代了),那么新引入的视觉语义向量就很容易在整个训练过程中被视为噪声,或者被忽视,其视觉本身的作用不容易建模出来。在论文[1]中,作者同样报告了这样一个现象,并且提出了通过『模态混洗(Modality-Shuffle)』的方法进行优化,整个框架被称之为MBVR (Modality-Balanced Video Retrieve)。如Fig 1.所示,对于一个文本-视觉成对的样本 < Q i , T i , V i > <Q_i, T_i, V_i> <Qi,Ti,Vi>,通过在batch内混洗视觉输入,得到难负样本 < Q i , T i , V j > , i ≠ j , i , j ∈ B <Q_i, T_i, V_j>, i \neq j, i,j \in \mathcal{B} <Qi,Ti,Vj>,i=j,i,j∈B,此时对于其文本检索 Q i Q_i Qi而言, Q i Q_i Qi和 T i T_i Ti是匹配的,但和视觉 V j V_j Vj不匹配,通过这种方法构建出的难负样本,有利于加强视觉特征的作用力度。

Fig 1. 模态混洗的方式构建出文本匹配,但是视觉不匹配的难负样本。

除此之外,作者还提出用动态margin去建模,不过笔者觉得并不关键,因此就不阐述了。从整体来看,其loss如公式(1-1)所示,其中的 L b i = L q m + L m q \mathcal{L}{bi} = \mathcal{L}{qm} + \mathcal{L}{mq} Lbi=Lqm+Lmq,表示Query-Doc匹配和Doc-Query匹配的损失, L v \mathcal{L}{v} Lv表示 < Q i , V i > <Q_i, V_i> <Qi,Vi>的匹配损失,同理 L t \mathcal{L}{t} Lt表示了 < Q i , T i > <Q_i, T_i> <Qi,Ti>的匹配损失,而 L m s \mathcal{L}{ms} Lms即是通过模态混洗构建难负样本带来的损失,如公式(1-2)所示,其中的 M m s \mathcal{M}_{ms} Mms表示构建出来的模态混洗负样本。

L = L b i + α L v + β L t + γ L m s (1-1) \mathcal{L} = \mathcal{L}_{bi} + \alpha \mathcal{L}_v + \beta \mathcal{L}t + \gamma \mathcal{L}{ms} \tag{1-1} L=Lbi+αLv+βLt+γLms(1-1)

L m s = − log ⁡ exp ⁡ ( s ( q , m ) / τ ) exp ⁡ ( s ( q , m ) / τ ) + ∑ m ^ ∈ M m s exp ⁡ ( s ( q , m ^ ) / τ ) (1-2) \mathcal{L}{ms} = -\log \dfrac{\exp(s(q,m)/\tau)}{\exp(s(q,m)/\tau)+\sum{\hat{m} \in \mathcal{M}_{ms}} \exp(s(q,\hat{m})/\tau)} \tag{1-2} Lms=−logexp(s(q,m)/τ)+∑m^∈Mmsexp(s(q,m^)/τ)exp(s(q,m)/τ)(1-2)

那么如何验证效果呢?作者进行了一些离线消融实验,并且进行了线上实验(该论文来自于快手,本方案应该是在线上进行了实验),均发现有所收益,这些常规指标就不在这里累述了。同时作者通过定向的分析,验证了模态混洗带来的优势,如公式(1-3)所示,作者定义了一个 R v t R_{vt} Rvt,其中的 F v , F t , F m \mathcal{F}_v,\mathcal{F}t,\mathcal{F}m Fv,Ft,Fm分别表示视觉、文本以及联合视觉文本模型的表征,那么 R v t R{vt} Rvt指数表示了视觉在该联合模型中,占据的重要程度与文本在该联合模型中占据的重要程度的比例,这个值越高表示了视觉在模型中地位越重。(注,此处的联合模型可表示为 L m = H ( F v , F t ) \mathcal{L}{m} = \mathcal{H}(\mathcal{F}_v,\mathcal{F}t) Lm=H(Fv,Ft))
R v t = cos ⁡ ( F v , F m ) cos ⁡ ( F t , F m ) (1-3) R
{vt} = \dfrac{\cos(\mathcal{F}_v, \mathcal{F}_m)}{\cos(\mathcal{F}_t, \mathcal{F}_m)} \tag{1-3} Rvt=cos(Ft,Fm)cos(Fv,Fm)(1-3)

在Fig 2 (a) 中,作者对基线模型和MBVR模型的 R v t R_{vt} Rvt分布的绘制,我们可以明显看出引入了MBVR之后,视觉特征在视文联合模型 H ( ⋅ , ⋅ ) \mathcal{H(\cdot, \cdot)} H(⋅,⋅)中的作用力度更大了,同时作者在Fig 2 (b)和(c)中对比了正样本和难负样本在基线模型和MBVR模型中的打分分布变化,可以明显看出引入了MBVR模型之后,难负样本打分更低,和正样本打分分布产生了明显的变化。

Fig 2. (a) R值分布变化,引入了MBVR之后视觉的作用力度有明显提升;(b)基线模型中,正样本和难负样本区分度小,(c)引入了MBVR之后,正样本和难负样本有了明显的区分度。

笔者认为这篇论文对于工业界落地多模态特征还是具有一定指导意义的,模态不均衡的问题在实际落地过程中真实存在,作者提出的解决方法不失一种有效可行的手段,在构造MS难负样本这块,后续可以继续探索,构造一些更合适的难负样本应该是有一定收益空间的。同时,也可以引入类似于MLM的,某种跨模态mask机制,去建模模态间的关系,笔者认为同样可以缓解模态不均衡的问题。

Reference

1\]. Wang, Xun, et al. "Modality-Balanced Embedding for Video Retrieval." Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.

相关推荐
科研前沿13 小时前
镜像视界浙江科技有限公司的核心引擎关键技术有哪些?
人工智能·数码相机·计算机视觉
帅次13 小时前
Android AI 面试速刷版
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·数据分析
MediaTea13 小时前
Scikit-learn:preprocessing 模块
人工智能·深度学习·机器学习·计算机视觉·scikit-learn
Zzj_tju13 小时前
大语言模型技术指南:RAG 为什么能补知识盲区?检索、切块、重排与生成参数详解
人工智能·语言模型·自然语言处理
财经资讯数据_灵砚智能15 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月29日
人工智能·python·信息可视化·自然语言处理·ai编程
SunnyDays101115 小时前
如何使用 C# 转换 PowerPoint 为 HTML:完整指南
人工智能·opencv·计算机视觉·c#
帅次15 小时前
Android 高级工程师 AI 面试专题:AI 驱动开发与工程落地
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·数据挖掘
RWKV元始智能1 天前
RWKV超并发项目教程,RWKV-LM训练提速40%
人工智能·rnn·深度学习·自然语言处理·开源
zhihuishuxia__1 天前
Multiplex通讯(多路复用通讯)
网络·图像处理·数码相机·计算机视觉·自动化
懷淰メ1 天前
【AI加持】基于PyQt+YOLO+DeepSeek的钢材焊接缺陷检测系统(详细介绍)
yolo·目标检测·计算机视觉·pyqt·缺陷检测·deepseek·钢材缺陷