AI多模态理论基础高频考点

《三年面试五年模拟》项目介绍

三年面试五年模拟\] AIGC算法工程师面试秘籍。涵盖AIGC、LLM大模型、AIAgent、传统深度学习、自动驾驶、机器学习、计算机视觉、自然语言处理、强化学习、大数据挖掘、具身智能、元宇宙、AGI等AI行业面试笔试干货经验与核心知识。 Github:https://github.com/WeThinkIn/AIGC-Interview-Book

1.介绍一下多模态与语言大模型的区别

难度评分:⭐⭐ (2/5) | 考察频率:⭐⭐⭐⭐ (4/5)

从本质上看,多模态大模型并非独立于语言大模型的全新体系,而是在语言大模型的基础上扩展了视觉、听觉等多模态感知能力。

两者的核心区别可从以下四个维度进行分析:

模态边界不同。 LLM仅接受文本输入并生成文本输出,GPT-3.5和Llama 3均属此类。多模态模型(MLLM)则能够同时处理文本、图像、音频甚至视频------例如输入一张图像并提问"这是什么",模型可以生成相应的文字回答。

架构新增两个关键模块。 LLM的架构较为简洁,本质上是一个Decoder-only Transformer,以Token序列作为输入和输出。多模态模型在此基础上增加了两个关键组件:其一是模态编码器 ,例如使用ViT将图像编码为向量序列,使用音频编码器将语音转换为向量表示;其二是投影层(Projector),负责将非文本模态的向量映射到LLM的文本嵌入空间中,实现跨模态对齐。LLM基座可以保持冻结,也可以参与联合微调。

训练数据不同。 LLM的预训练依赖海量纯文本语料(书籍、网页、论文等),规模通常达万亿Token级别。多模态模型则额外需要大量配对数据,如图文对、视频-字幕对等,例如LAION-5B数据集包含约58亿组图文配对。同时需要混入一定比例的纯文本数据,以防止模型的语言能力在多模态训练过程中发生退化。

应用能力不同。 LLM擅长文本生成、代码编写、文本摘要等纯文本任务。多模态模型的应用范围则更为广泛,涵盖以图搜物、医学影像辅助诊断、短视频内容合规审核等场景,这些任务均需要模型同时具备视觉理解与语言推理能力。


2.介绍一下多模态词嵌入的定义

难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐ (4/5)

理解多模态词嵌入,需要先回顾传统词嵌入的基本概念。Word2Vec、BERT等模型的核心任务是将每个词映射为一个向量,使语义相近的词在向量空间中具有较小的距离。例如,"猫"与"猫咪"的向量距离较近,而"猫"与"汽车"的向量距离较远。

多模态词嵌入(也称跨模态嵌入)是将上述思路扩展到图像、音频等其他模态的产物。其核心目标是:将文本、图像、音频等不同类型的信息统一映射到同一个向量空间中。

这一映射需要满足两个基本条件:

  • 模态内一致性:同一模态中语义相近的内容在向量空间中彼此接近,与传统词嵌入的要求一致。
  • 跨模态对齐性:不同模态中语义一致的内容也应在向量空间中彼此接近。例如,文本"猫"、一张猫的照片、一段猫叫的音频,三者的向量应当聚集在一起,并远离"汽车"相关内容的向量。

形式化表述如下:文本编码器 f t ( ⋅ ) f_t(\cdot) ft(⋅) 和图像编码器 f v ( ⋅ ) f_v(\cdot) fv(⋅) 分别将文本 t t t 和图像 v v v 映射到同一个 d d d 维空间,对于匹配的图文对 ⟨ t , v ⟩ \langle t, v \rangle ⟨t,v⟩ 和不匹配的 ⟨ t , v ′ ⟩ \langle t, v' \rangle ⟨t,v′⟩,需要满足:

sim ( f t ( t ) , f v ( v ) ) > sim ( f t ( t ) , f v ( v ′ ) ) \text{sim}(f_t(t), f_v(v)) > \text{sim}(f_t(t), f_v(v')) sim(ft(t),fv(v))>sim(ft(t),fv(v′))

上述公式正是对比学习损失函数的核心思想------拉近匹配对的距离,推远不匹配对的距离。CLIP的训练目标即基于该原理。

多模态词嵌入是众多下游任务的理论基础:跨模态检索依赖于嵌入向量之间的相似度计算,多模态理解依赖于对齐后的嵌入进行语义交互,跨模态生成则依赖于在嵌入空间中完成模态转换。CLIP所构建的图文嵌入空间是最具代表性的实例------无需额外标注,即可直接应用于零样本图文检索任务。


3.介绍一下多模态中预训练和微调的区别

难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐⭐ (5/5)

多模态大模型的训练遵循"先预训练、再微调"的两阶段范式,这一点与纯文本LLM一致。但多模态训练的特殊之处在于,"跨模态对齐"贯穿整个训练流程。

预训练阶段的核心目标是什么? 可以用一个词概括:对齐。即让模型学会将图像、文本、音频等不同模态的信息映射到同一语义空间中。预训练所使用的数据以大规模弱标注配对数据为主,例如LAION-5B包含约58亿组图文对,主要通过互联网爬取获得,标注质量参差不齐但规模庞大。同时会混入一定比例的纯文本语料,以维持模型的语言能力。

预训练阶段主要包含三类训练任务:

  • 跨模态对比学习(ITC):采用InfoNCE损失函数,拉近匹配图文对的距离,推远不匹配对的距离。
  • 图文匹配(ITM):输入一组图文对,由模型判断二者是否匹配,本质上是一个二分类任务。
  • 掩码建模:随机遮蔽图像中的部分Patch或文本中的部分Token,要求模型预测被遮蔽的内容,从而学习模态内的语义表示。

预训练的计算代价十分高昂------需要对编码器、投影层、LLM基座进行全参数更新。千亿参数级别的模型,单次预训练成本可达数百万美元,训练周期通常为数周乃至数月。

微调阶段的核心目标是什么? 将通用基座模型适配到特定下游任务。例如,针对医疗影像检索任务,可使用10万条标注好的影像-报告配对数据进行微调。训练目标与下游任务直接对齐------视觉问答(VQA)优化问答损失,检索任务优化排序损失,图像描述任务优化语言模型的交叉熵损失。

微调阶段注重计算效率:通常采用LoRA、Adapter等参数高效微调(PEFT)方法,仅更新不到1%的参数,甚至可以冻结LLM基座和编码器,仅更新投影层。微调成本约为预训练的千分之一到百分之一,训练周期通常为数小时至数天。

两个阶段各有侧重:预训练产出的模型具备较强的通用能力,但在垂直领域难以达到工业部署标准;微调后的模型在目标任务上性能显著提升,但通用能力可能出现一定程度的退化(即"灾难性遗忘"现象)。


4.介绍一下多模态解决的代表性任务

难度评分:⭐⭐ (2/5) | 考察频率:⭐⭐⭐ (3/5)

多模态技术所涵盖的任务类型十分广泛,可归纳为以下四个主要类别,每类包含若干典型任务及其对应的落地场景。

第一类:跨模态检索。 以一种模态的信息作为查询条件,从另一种模态的数据中检索匹配结果。最常见的形式是图文检索------电商平台的"拍照搜商品"功能属于以图搜文/搜商品,搜索引擎的图片搜索属于以文搜图。此外还包括视频检索,例如安防系统中通过输入文字描述来定位监控视频中的目标片段。这是最早实现产业化落地的多模态任务。

第二类:跨模态生成。 以一种模态的信息作为输入条件,生成另一种模态的内容,是当前AIGC领域最为活跃的研究方向。代表性任务包括:文本生成图像、文本生成视频(如Midjourney、Sora),图像描述生成(为给定图像生成自然语言描述),文字转语音(TTS),语音转文字(ASR),以及语音驱动数字人等。

第三类:多模态理解与推理。 同时接收多种模态的信息,进行综合理解或推理判断。典型任务是视觉问答(VQA):输入一张图像及一个相关问题(如"图中的猫戴了帽子吗?"),模型生成对应答案。该类任务在工业场景中应用广泛,例如短视频平台需要综合画面与配文判断内容是否违规,医疗领域需要结合CT影像与病历文本进行辅助诊断。

第四类:跨模态对齐与转换。 实现不同模态之间的语义对齐或风格转换。例如图像风格迁移------将一张照片转换为梵高风格的画作;音画对齐------将语音与视频中人物的唇形进行同步,广泛应用于视频配音与数字人直播等场景。此类任务常作为其他多模态任务的中间环节。

相关推荐
珹洺2 小时前
C++AI多模型聊天系统(三)AI多模型(豆包/Kimi/千问)接入与实现
开发语言·c++·人工智能
啷咯哩咯啷2 小时前
纯本地运行的私人文档知识库
前端·人工智能·后端
FrontAI2 小时前
深入浅出 LangGraph —— 第7章:持久化与检查点机制
人工智能·langchain·ai agent·langgraph
探物 AI2 小时前
【感知·车道线检测】UFLDv2车道线检测与车道偏离预警(LDWS)实战
人工智能·算法·目标检测·计算机视觉
Swilderrr2 小时前
学术研读报告:MEM1面向长视距智能体的记忆 - 推理协同框架
人工智能
aLTttY2 小时前
Spring Boot整合AI大模型实现智能问答系统实战
人工智能·spring boot·后端
easy_coder2 小时前
《工程化视角下的Prompt设计与迭代:云诊断与CICD变更风控中的实践》
人工智能·云计算·prompt
AI木马人2 小时前
7.【RAG系统完整实战】如何让AI读取你的私有数据?(从原理到落地)
人工智能·深度学习·神经网络·自然语言处理
精益数智工坊3 小时前
红牌作战是什么?红牌作战的实施步骤与核心要点
大数据·运维·前端·人工智能·精益工程