【Web信息处理与应用课程笔记5】多模态信息检索

**【本节概要】**面对当前网络世界丰富的多模态信息，这一节主要讨论如何检索出好的多模态信息。

一、引言

什么是多模态搜索？它主要指的是面向"多媒体文档"的搜索技术 / 系统。多模态搜索系统可以简单分为以下几类：面向单一模态的检索、跨模态检索（如借助文字标签搜索图片、视频等）、真 · 多模态搜索（建立在多模态特征融合基础之上的搜索任务）。

从上面的定义可以看出，多模态信息有着更高的语义密度，其有效解读将对其他模态信息起到很好的补充。其中的核心难点在于 "语义鸿沟" 问题导致简单文字表述往往难以涵盖多模态信息真正的语义内涵，甚至可能因为视觉上的 "相似性"，而忽略了更本质的语义差异。

总体而言，多模态检索可笼统地划分为特征/语义两种方向的检索：

基于特征的检索：对多媒体文件本身进行特征刻画；
基于语义的检索：通过多媒体文件对应的文本/标签信息进行检索。

二、面向图像的检索

2.1 基于内容的图像检索（CBIR）

这里我们允许用户输入一张图片，以查找具有相同或相似内容的其他图片。输入的图片往往被称作样例图。CBIR中的内容，往往指图像或视频的特征描述，基于这一特征描述，采用数学模型衡量相似性，用户可根据满意度进行反馈和结果修正。

具体到图像查询而言，主要依据图像的颜色、纹理、形状等进行查询。

颜色查询：查询与用户所选图片颜色（或颜色分布）相似的图像。（颜色特征是最为可靠和通常的视觉特征）常用的颜色特征提取方式是颜色直方图
形状查询：用户给出某一形状或勾勒草图，利用形状特征进行检索。
纹理查询：用户给出包含某种纹理的图像，查询含有相似纹理的图像。（纹理包含了关于表面的结构布局及周围环境等信息）

对于图像的相似性度量，单一特征往往难以有效衡量，一般而言，采用多种特征的加权和进行整体相似性度量。同时，除了图像的整体相似性，还要考虑各个区域之间的相似性，甚至各个区域之间空间关系的相似性。

整体而言，CBIR试图从信号处理角度入手，使检索过程符合人类的视听觉特性（所见即所得）。然而，CBIR面临着前面所述的"语义鸿沟"（Semantic Gap）问题，低层视觉特征与高层语义特征不存在直接联系，特征相似 ≠ 语义相似。

2.2 基于文本的图像检索

更为直接、更为便利的查询方式，同时也是更为传统的查询方式则是依赖于对于图像/视频信息的高质量语义描述。

文本信息的来源可以是手工标注（可以保证文本的代表性与相关性，但完全保证不了效率）、元数据分析（抓取图片时，同时获取的其他信息，如链接文字、标题、关联页面等，但是元数据可能缺失，即使有，也未必与图像内容相关）、算法标注（通过各种机器学习的算法，对图像进行有监督/无监督的标注，本质上可以看作一个多分类问题）或是社交标注（基于用户已有的部分标注，补充更多的标签）。

不过基于文本的图像检索中，用户的需求难以用文字精确描述，用户可能不愿意表达或是根本不知道如何表达。相比于文字，图像的需求更抽象，往往需要浏览更多文档才能发现和理解需求。更重要的是多媒体文档往往难以用文字准确形容。

三、面向视频的检索

视频是序列化的帧（图像）的集合，但又不是简单的图像串联。视频包含更丰富的语义信息，如前后连续的动作、场景、剧情、人物关系等，相比于语料标注积累日益丰富的图像数据集，视频数据更缺乏高质量的标注。

面向整个视频的检索，往往基于视频元数据 / 标注 / 视频摘要进行。但这样的缺陷很明显，标签可能无法涵盖视频全部内容，无法进行更细粒度的检索。针对这个缺陷，前辈们曾提出了多种解决方案：

逐帧分析：重识别（Re-identification）可能有助于将离散的画面串联起来。例如，对监控画面中特定人物的重识别，可以捕捉人物的连续行为轨迹。然而，除去计算开支大外，这一技术在影视作品等视频中因假设不满足而难以运用。
重要片段提取：从视频中提取出最有意义的片段或者最有代表性的帧，并对这些内容进行标注。用户对于整段视频各个部分的关注程度是不一样的，高潮部分最受关注。提取最受关注的部分进行标注，有助于用户检索与快速浏览。
视频的时序化标注：结合语义信息（如文本或标注），对视频各部分内容进行时序化标注，也就是对不同时间的视频内容进行不同的标注。其难点在于缺乏足够语义标注，算法无法理解视频的高层次语义内容。
基于场景图的细粒度视频描述：借助场景图（Scene Graph）技术，实现视频内各种主体及其关系的描述。然而，此类方法受限于语义信息的获取难度，在图结构的自动构建上仍存在诸多瓶颈。（场景图可以参考下图右侧所示）

四、面向音频的检索

早先对于音频的搜索往往依赖于单纯的文字信息，例如，对歌名、歌手等元信息或歌词进行搜索，容易因错漏而无法得到结果。

随着音频数据库的建立与完善，和音频匹配技术的发展，基于旋律搜索音乐已成为日常。对于音频而言，其所包含的信息，除了基本的歌词语义外，还有许多其他种类的信息，比如说音乐的种类：流行、摇滚、民谣......

常见的计算机音乐类型包括：

MIDI文件：乐器数字接口（Musical Instrument Digital Interface），编曲界最广泛的音乐标准格式，可称为"计算机能理解的乐谱"。MIDI只能记录标准所规定的有限种乐器的组合，缺乏重现真实自然声音的能力，因此难以合成语音。
对于MIDI文件，一般每个音轨对应一个通道，而主旋律的音符会有更大的演奏力度和更长的发声时间（对应MIDI文件中的"发声面积"，可以用这两者加以区别）

波形文件包括MP3、Audio、Wave等大部分常用的音乐格式。使用范围相比MIDI文件更为广泛，也更适合记录音乐，但提取特征则相对更困难。