AI多模态理论基础高频考点

《三年面试五年模拟》项目介绍

$三年面试五年模拟\] AIGC算法工程师面试秘籍。涵盖AIGC、LLM大模型、AIAgent、传统深度学习、自动驾驶、机器学习、计算机视觉、自然语言处理、强化学习、大数据挖掘、具身智能、元宇宙、AGI等AI行业面试笔试干货经验与核心知识。 Github：https://github.com/WeThinkIn/AIGC-Interview-Book$

1.介绍一下多模态与语言大模型的区别
2.介绍一下多模态词嵌入的定义
3.介绍一下多模态中预训练和微调的区别
4.介绍一下多模态解决的代表性任务

1.介绍一下多模态与语言大模型的区别

难度评分：⭐⭐ (2/5) | 考察频率：⭐⭐⭐⭐ (4/5)

从本质上看，多模态大模型并非独立于语言大模型的全新体系，而是在语言大模型的基础上扩展了视觉、听觉等多模态感知能力。

两者的核心区别可从以下四个维度进行分析：

模态边界不同。 LLM仅接受文本输入并生成文本输出，GPT-3.5和Llama 3均属此类。多模态模型（MLLM）则能够同时处理文本、图像、音频甚至视频------例如输入一张图像并提问"这是什么"，模型可以生成相应的文字回答。

架构新增两个关键模块。 LLM的架构较为简洁，本质上是一个Decoder-only Transformer，以Token序列作为输入和输出。多模态模型在此基础上增加了两个关键组件：其一是模态编码器 ，例如使用ViT将图像编码为向量序列，使用音频编码器将语音转换为向量表示；其二是投影层（Projector），负责将非文本模态的向量映射到LLM的文本嵌入空间中，实现跨模态对齐。LLM基座可以保持冻结，也可以参与联合微调。

训练数据不同。 LLM的预训练依赖海量纯文本语料（书籍、网页、论文等），规模通常达万亿Token级别。多模态模型则额外需要大量配对数据，如图文对、视频-字幕对等，例如LAION-5B数据集包含约58亿组图文配对。同时需要混入一定比例的纯文本数据，以防止模型的语言能力在多模态训练过程中发生退化。

应用能力不同。 LLM擅长文本生成、代码编写、文本摘要等纯文本任务。多模态模型的应用范围则更为广泛，涵盖以图搜物、医学影像辅助诊断、短视频内容合规审核等场景，这些任务均需要模型同时具备视觉理解与语言推理能力。

2.介绍一下多模态词嵌入的定义

难度评分：⭐⭐⭐ (3/5) | 考察频率：⭐⭐⭐⭐ (4/5)

理解多模态词嵌入，需要先回顾传统词嵌入的基本概念。Word2Vec、BERT等模型的核心任务是将每个词映射为一个向量，使语义相近的词在向量空间中具有较小的距离。例如，"猫"与"猫咪"的向量距离较近，而"猫"与"汽车"的向量距离较远。

多模态词嵌入（也称跨模态嵌入）是将上述思路扩展到图像、音频等其他模态的产物。其核心目标是：将文本、图像、音频等不同类型的信息统一映射到同一个向量空间中。

这一映射需要满足两个基本条件：

模态内一致性：同一模态中语义相近的内容在向量空间中彼此接近，与传统词嵌入的要求一致。
跨模态对齐性：不同模态中语义一致的内容也应在向量空间中彼此接近。例如，文本"猫"、一张猫的照片、一段猫叫的音频，三者的向量应当聚集在一起，并远离"汽车"相关内容的向量。

形式化表述如下：文本编码器 f t ( ⋅ ) f_t(\cdot) ft(⋅) 和图像编码器 f v ( ⋅ ) f_v(\cdot) fv(⋅) 分别将文本 t t t 和图像 v v v 映射到同一个 d d d 维空间，对于匹配的图文对 ⟨ t , v ⟩ \langle t, v \rangle ⟨t,v⟩ 和不匹配的 ⟨ t , v ′ ⟩ \langle t, v' \rangle ⟨t,v′⟩，需要满足：

sim ( f t ( t ) , f v ( v ) ) > sim ( f t ( t ) , f v ( v ′ ) ) \text{sim}(f_t(t), f_v(v)) > \text{sim}(f_t(t), f_v(v')) sim(ft(t),fv(v))>sim(ft(t),fv(v′))

上述公式正是对比学习损失函数的核心思想------拉近匹配对的距离，推远不匹配对的距离。CLIP的训练目标即基于该原理。

多模态词嵌入是众多下游任务的理论基础：跨模态检索依赖于嵌入向量之间的相似度计算，多模态理解依赖于对齐后的嵌入进行语义交互，跨模态生成则依赖于在嵌入空间中完成模态转换。CLIP所构建的图文嵌入空间是最具代表性的实例------无需额外标注，即可直接应用于零样本图文检索任务。

3.介绍一下多模态中预训练和微调的区别

难度评分：⭐⭐⭐ (3/5) | 考察频率：⭐⭐⭐⭐⭐ (5/5)

多模态大模型的训练遵循"先预训练、再微调"的两阶段范式，这一点与纯文本LLM一致。但多模态训练的特殊之处在于，"跨模态对齐"贯穿整个训练流程。

预训练阶段的核心目标是什么？ 可以用一个词概括：对齐。即让模型学会将图像、文本、音频等不同模态的信息映射到同一语义空间中。预训练所使用的数据以大规模弱标注配对数据为主，例如LAION-5B包含约58亿组图文对，主要通过互联网爬取获得，标注质量参差不齐但规模庞大。同时会混入一定比例的纯文本语料，以维持模型的语言能力。

预训练阶段主要包含三类训练任务：

跨模态对比学习（ITC）：采用InfoNCE损失函数，拉近匹配图文对的距离，推远不匹配对的距离。
图文匹配（ITM）：输入一组图文对，由模型判断二者是否匹配，本质上是一个二分类任务。
掩码建模：随机遮蔽图像中的部分Patch或文本中的部分Token，要求模型预测被遮蔽的内容，从而学习模态内的语义表示。

预训练的计算代价十分高昂------需要对编码器、投影层、LLM基座进行全参数更新。千亿参数级别的模型，单次预训练成本可达数百万美元，训练周期通常为数周乃至数月。

微调阶段的核心目标是什么？ 将通用基座模型适配到特定下游任务。例如，针对医疗影像检索任务，可使用10万条标注好的影像-报告配对数据进行微调。训练目标与下游任务直接对齐------视觉问答（VQA）优化问答损失，检索任务优化排序损失，图像描述任务优化语言模型的交叉熵损失。

微调阶段注重计算效率：通常采用LoRA、Adapter等参数高效微调（PEFT）方法，仅更新不到1%的参数，甚至可以冻结LLM基座和编码器，仅更新投影层。微调成本约为预训练的千分之一到百分之一，训练周期通常为数小时至数天。

两个阶段各有侧重：预训练产出的模型具备较强的通用能力，但在垂直领域难以达到工业部署标准；微调后的模型在目标任务上性能显著提升，但通用能力可能出现一定程度的退化（即"灾难性遗忘"现象）。

4.介绍一下多模态解决的代表性任务

难度评分：⭐⭐ (2/5) | 考察频率：⭐⭐⭐ (3/5)

多模态技术所涵盖的任务类型十分广泛，可归纳为以下四个主要类别，每类包含若干典型任务及其对应的落地场景。

第一类：跨模态检索。 以一种模态的信息作为查询条件，从另一种模态的数据中检索匹配结果。最常见的形式是图文检索------电商平台的"拍照搜商品"功能属于以图搜文/搜商品，搜索引擎的图片搜索属于以文搜图。此外还包括视频检索，例如安防系统中通过输入文字描述来定位监控视频中的目标片段。这是最早实现产业化落地的多模态任务。

第二类：跨模态生成。 以一种模态的信息作为输入条件，生成另一种模态的内容，是当前AIGC领域最为活跃的研究方向。代表性任务包括：文本生成图像、文本生成视频（如Midjourney、Sora），图像描述生成（为给定图像生成自然语言描述），文字转语音（TTS），语音转文字（ASR），以及语音驱动数字人等。

第三类：多模态理解与推理。 同时接收多种模态的信息，进行综合理解或推理判断。典型任务是视觉问答（VQA）：输入一张图像及一个相关问题（如"图中的猫戴了帽子吗？"），模型生成对应答案。该类任务在工业场景中应用广泛，例如短视频平台需要综合画面与配文判断内容是否违规，医疗领域需要结合CT影像与病历文本进行辅助诊断。

第四类：跨模态对齐与转换。 实现不同模态之间的语义对齐或风格转换。例如图像风格迁移------将一张照片转换为梵高风格的画作；音画对齐------将语音与视频中人物的唇形进行同步，广泛应用于视频配音与数字人直播等场景。此类任务常作为其他多模态任务的中间环节。