【Web信息处理与应用课程笔记5】多模态信息检索

**【本节概要】**面对当前网络世界丰富的多模态信息,这一节主要讨论如何检索出好的多模态信息。

一、引言

什么是多模态搜索?它主要指的是面向"多媒体文档"的搜索技术 / 系统。多模态搜索系统可以简单分为以下几类:面向单一模态的检索、跨模态检索(如借助文字标签搜索图片、视频等)、真 · 多模态搜索(建立在多模态特征融合基础之上的搜索任务)。

从上面的定义可以看出,多模态信息有着更高的语义密度,其有效解读将对其他模态信息起到很好的补充。其中的核心难点在于 "语义鸿沟" 问题导致简单文字表述往往难以涵盖多模态信息真正的语义内涵,甚至可能因为视觉上的 "相似性",而忽略了更本质的语义差异。

总体而言,多模态检索可笼统地划分为特征/语义两种方向的检索:

  1. 基于特征的检索:对多媒体文件本身进行特征刻画;
  2. 基于语义的检索:通过多媒体文件对应的文本/标签信息进行检索。

二、面向图像的检索

2.1 基于内容的图像检索(CBIR)

这里我们允许用户输入一张图片,以查找具有相同或相似内容的其他图片。输入的图片往往被称作样例图。CBIR中的内容,往往指图像或视频的特征描述,基于这一特征描述,采用数学模型衡量相似性,用户可根据满意度进行反馈和结果修正。

具体到图像查询而言,主要依据图像的颜色、纹理、形状等进行查询。

  1. 颜色查询:查询与用户所选图片颜色(或颜色分布)相似的图像。(颜色特征是最为可靠和通常的视觉特征)常用的颜色特征提取方式是颜色直方图
  2. 形状查询:用户给出某一形状或勾勒草图,利用形状特征进行检索。
  3. 纹理查询:用户给出包含某种纹理的图像,查询含有相似纹理的图像。(纹理包含了关于表面的结构布局及周围环境等信息)

对于图像的相似性度量,单一特征往往难以有效衡量,一般而言,采用多种特征的加权和进行整体相似性度量。同时,除了图像的整体相似性,还要考虑各个区域之间的相似性,甚至各个区域之间空间关系的相似性。

整体而言,CBIR试图从信号处理角度入手,使检索过程符合人类的视听觉特性(所见即所得)。然而,CBIR面临着前面所述的"语义鸿沟"(Semantic Gap)问题,低层视觉特征与高层语义特征不存在直接联系,特征相似 ≠ 语义相似。

2.2 基于文本的图像检索

更为直接、更为便利的查询方式,同时也是更为传统的查询方式则是依赖于对于图像/视频信息的高质量语义描述。

文本信息的来源可以是手工标注(可以保证文本的代表性与相关性,但完全保证不了效率)、元数据分析(抓取图片时,同时获取的其他信息,如链接文字、标题、关联页面等,但是元数据可能缺失,即使有,也未必与图像内容相关)、算法标注(通过各种机器学习的算法,对图像进行有监督/无监督的标注,本质上可以看作一个多分类问题)或是社交标注(基于用户已有的部分标注,补充更多的标签)。

不过基于文本的图像检索中,用户的需求难以用文字精确描述,用户可能不愿意表达或是根本不知道如何表达。相比于文字,图像的需求更抽象,往往需要浏览更多文档才能发现和理解需求。更重要的是多媒体文档往往难以用文字准确形容。

三、面向视频的检索

视频是序列化的帧(图像)的集合,但又不是简单的图像串联。视频包含更丰富的语义信息,如前后连续的动作、场景、剧情、人物关系等,相比于语料标注积累日益丰富的图像数据集,视频数据更缺乏高质量的标注。

面向整个视频的检索,往往基于视频元数据 / 标注 / 视频摘要进行。但这样的缺陷很明显,标签可能无法涵盖视频全部内容,无法进行更细粒度的检索。针对这个缺陷,前辈们曾提出了多种解决方案:

  1. 逐帧分析:重识别(Re-identification)可能有助于将离散的画面串联起来。例如,对监控画面中特定人物的重识别,可以捕捉人物的连续行为轨迹。然而,除去计算开支大外,这一技术在影视作品等视频中因假设不满足而难以运用。
  2. 重要片段提取:从视频中提取出最有意义的片段或者最有代表性的帧,并对这些内容进行标注。用户对于整段视频各个部分的关注程度是不一样的,高潮部分最受关注。提取最受关注的部分进行标注,有助于用户检索与快速浏览。
  3. 视频的时序化标注:结合语义信息(如文本或标注),对视频各部分内容进行时序化标注,也就是对不同时间的视频内容进行不同的标注。其难点在于缺乏足够语义标注,算法无法理解视频的高层次语义内容。
  4. 基于场景图的细粒度视频描述:借助场景图(Scene Graph)技术,实现视频内各种主体及其关系的描述。然而,此类方法受限于语义信息的获取难度,在图结构的自动构建上仍存在诸多瓶颈。(场景图可以参考下图右侧所示)

四、面向音频的检索

早先对于音频的搜索往往依赖于单纯的文字信息,例如,对歌名、歌手等元信息或歌词进行搜索,容易因错漏而无法得到结果。

随着音频数据库的建立与完善,和音频匹配技术的 发展,基于旋律搜索音乐已成为日常。对于音频而言,其所包含的信息,除了基本的歌词 语义外,还有许多其他种类的信息,比如说音乐的种类:流行、摇滚、民谣......

常见的计算机音乐类型包括:

  • MIDI文件:乐器数字接口 (Musical Instrument Digital Interface),编曲界最广泛的音乐标准格式,可称为"计算机能理解的乐谱"。MIDI只能记录标准所规定的有限种乐器的组合,缺乏重现真实自然 声音的能力,因此难以合成语音。
    对于MIDI文件,一般每个音轨对应一个通 道,而主旋律的音符会有更大的演奏力度和 更长的发声时间(对应MIDI文件中的"发声面积",可以用这两者加以区别)
  • 波形文件包括MP3、Audio、Wave等大部分常用的音乐格式。使用范围相比MIDI文件更为广泛,也更适合记录音乐,但提取特征则相对更困难。
相关推荐
臭东西的学习笔记14 小时前
论文学习——机器学习引导的蛋白质工程
人工智能·学习·机器学习
夜流冰14 小时前
Motor - 电机扭矩和电机大小的关系
笔记
大王小生15 小时前
说说CSV文件和C#解析csv文件的几种方式
人工智能·c#·csv·csvhelper·csvreader
m0_4626052215 小时前
第G3周:CGAN入门|生成手势图像
人工智能
AI视觉网奇15 小时前
LiveTalking 部署笔记
笔记
bubiyoushang88815 小时前
基于LSTM神经网络的短期风速预测实现方案
人工智能·神经网络·lstm
中烟创新15 小时前
烟草专卖文书生成智能体与法规案卷评查智能体获评“年度技术最佳实践奖”
人工智能
得一录15 小时前
大模型中的多模态知识
人工智能·aigc
倘若猫爱上鱼15 小时前
关于系统能检测到固态可移动硬盘(或U盘),系统资源管理器却始终无法扫描到固态可移动硬盘(或U盘)的解决办法
笔记
Github掘金计划15 小时前
Claude Work 开源平替来了:让 AI 代理从“终端命令“变成“产品体验“
人工智能·开源