**【本节概要】**面对当前网络世界丰富的多模态信息,这一节主要讨论如何检索出好的多模态信息。
一、引言
什么是多模态搜索?它主要指的是面向"多媒体文档"的搜索技术 / 系统。多模态搜索系统可以简单分为以下几类:面向单一模态的检索、跨模态检索(如借助文字标签搜索图片、视频等)、真 · 多模态搜索(建立在多模态特征融合基础之上的搜索任务)。
从上面的定义可以看出,多模态信息有着更高的语义密度,其有效解读将对其他模态信息起到很好的补充。其中的核心难点在于 "语义鸿沟" 问题导致简单文字表述往往难以涵盖多模态信息真正的语义内涵,甚至可能因为视觉上的 "相似性",而忽略了更本质的语义差异。
总体而言,多模态检索可笼统地划分为特征/语义两种方向的检索:
- 基于特征的检索:对多媒体文件本身进行特征刻画;
- 基于语义的检索:通过多媒体文件对应的文本/标签信息进行检索。
二、面向图像的检索
2.1 基于内容的图像检索(CBIR)
这里我们允许用户输入一张图片,以查找具有相同或相似内容的其他图片。输入的图片往往被称作样例图。CBIR中的内容,往往指图像或视频的特征描述,基于这一特征描述,采用数学模型衡量相似性,用户可根据满意度进行反馈和结果修正。
具体到图像查询而言,主要依据图像的颜色、纹理、形状等进行查询。
- 颜色查询:查询与用户所选图片颜色(或颜色分布)相似的图像。(颜色特征是最为可靠和通常的视觉特征)常用的颜色特征提取方式是颜色直方图
- 形状查询:用户给出某一形状或勾勒草图,利用形状特征进行检索。
- 纹理查询:用户给出包含某种纹理的图像,查询含有相似纹理的图像。(纹理包含了关于表面的结构布局及周围环境等信息)
对于图像的相似性度量,单一特征往往难以有效衡量,一般而言,采用多种特征的加权和进行整体相似性度量。同时,除了图像的整体相似性,还要考虑各个区域之间的相似性,甚至各个区域之间空间关系的相似性。
整体而言,CBIR试图从信号处理角度入手,使检索过程符合人类的视听觉特性(所见即所得)。然而,CBIR面临着前面所述的"语义鸿沟"(Semantic Gap)问题,低层视觉特征与高层语义特征不存在直接联系,特征相似 ≠ 语义相似。

2.2 基于文本的图像检索
更为直接、更为便利的查询方式,同时也是更为传统的查询方式则是依赖于对于图像/视频信息的高质量语义描述。
文本信息的来源可以是手工标注(可以保证文本的代表性与相关性,但完全保证不了效率)、元数据分析(抓取图片时,同时获取的其他信息,如链接文字、标题、关联页面等,但是元数据可能缺失,即使有,也未必与图像内容相关)、算法标注(通过各种机器学习的算法,对图像进行有监督/无监督的标注,本质上可以看作一个多分类问题)或是社交标注(基于用户已有的部分标注,补充更多的标签)。
不过基于文本的图像检索中,用户的需求难以用文字精确描述,用户可能不愿意表达或是根本不知道如何表达。相比于文字,图像的需求更抽象,往往需要浏览更多文档才能发现和理解需求。更重要的是多媒体文档往往难以用文字准确形容。
三、面向视频的检索
视频是序列化的帧(图像)的集合,但又不是简单的图像串联。视频包含更丰富的语义信息,如前后连续的动作、场景、剧情、人物关系等,相比于语料标注积累日益丰富的图像数据集,视频数据更缺乏高质量的标注。
面向整个视频的检索,往往基于视频元数据 / 标注 / 视频摘要进行。但这样的缺陷很明显,标签可能无法涵盖视频全部内容,无法进行更细粒度的检索。针对这个缺陷,前辈们曾提出了多种解决方案:
- 逐帧分析:重识别(Re-identification)可能有助于将离散的画面串联起来。例如,对监控画面中特定人物的重识别,可以捕捉人物的连续行为轨迹。然而,除去计算开支大外,这一技术在影视作品等视频中因假设不满足而难以运用。
- 重要片段提取:从视频中提取出最有意义的片段或者最有代表性的帧,并对这些内容进行标注。用户对于整段视频各个部分的关注程度是不一样的,高潮部分最受关注。提取最受关注的部分进行标注,有助于用户检索与快速浏览。
- 视频的时序化标注:结合语义信息(如文本或标注),对视频各部分内容进行时序化标注,也就是对不同时间的视频内容进行不同的标注。其难点在于缺乏足够语义标注,算法无法理解视频的高层次语义内容。
- 基于场景图的细粒度视频描述:借助场景图(Scene Graph)技术,实现视频内各种主体及其关系的描述。然而,此类方法受限于语义信息的获取难度,在图结构的自动构建上仍存在诸多瓶颈。(场景图可以参考下图右侧所示)

四、面向音频的检索
早先对于音频的搜索往往依赖于单纯的文字信息,例如,对歌名、歌手等元信息或歌词进行搜索,容易因错漏而无法得到结果。
随着音频数据库的建立与完善,和音频匹配技术的 发展,基于旋律搜索音乐已成为日常。对于音频而言,其所包含的信息,除了基本的歌词 语义外,还有许多其他种类的信息,比如说音乐的种类:流行、摇滚、民谣......
常见的计算机音乐类型包括:
- MIDI文件:乐器数字接口 (Musical Instrument Digital Interface),编曲界最广泛的音乐标准格式,可称为"计算机能理解的乐谱"。MIDI只能记录标准所规定的有限种乐器的组合,缺乏重现真实自然 声音的能力,因此难以合成语音。
对于MIDI文件,一般每个音轨对应一个通 道,而主旋律的音符会有更大的演奏力度和 更长的发声时间(对应MIDI文件中的"发声面积",可以用这两者加以区别)

- 波形文件包括MP3、Audio、Wave等大部分常用的音乐格式。使用范围相比MIDI文件更为广泛,也更适合记录音乐,但提取特征则相对更困难。