【论文阅读20】MM-LLMs:多模态大语言模型的最新进展

(8 条消息) 【必看】历史技术文章导航 - 知乎

😊文章背景

题目:MM-LLMs: Recent Advances in MultiModal Large Language Models

期刊:arxiv.org

作者:Duzhen Zhang1*‡ , Yahan Yu3* , Jiahua Dong4†, Chenxing Li1 , Dan Su1, Chenhui Chu3† and Dong Yu2

单位:腾讯AI实验室,中国 2腾讯AI实验室,美国 3京都大学,日本

发表年份: 2024

网址:[2401.13601] MM-LLMs: Recent Advances in MultiModal Large Language Models

📌重要公式

公式 1:模态编码 (Modality Encoding)
  • 含义:这是处理的第一步,将原始数据转化为机器能理解的特征。
  • 变量解释
    • IX(Input):原始模态输入。XX 代表模态类型(如图像、视频、音频)。
    • EX​ (Encoder) :模态编码器。通常是预训练好的模型(如 ViT-L/14 , CLIP 的视觉塔)。
    • FX​ (Features):输出的特征向量。例如,一张图片经过 CLIP 编码后,可能会变成 256×1024256×1024 维度的张量。
  • :这一步通常不进行梯度更新(即 Frozen),目的是保留编码器强大的特征提取能力。
公式 2:输入投影/对齐 (Input Projection)

  • 含义这是 MM-LLM 最关键的一步! 它的作用是"翻译"。因为 LLM 只能理解文本(Text, T),看不懂图像特征 (FX)。这个公式把图像特征映射到文本特征空间。
  • 变量解释
    • PX (Prompts) :对齐后的特征,我们称之为 Soft Prompts
    • FT:用户输入的文本特征
    • ​ (Input Projector) :输入投影器。有两种类型:
      • 简单的 Linear Layer(如 LLaVA);
      • 复杂的 Q-Former(如 BLIP-2)。
  • 直观理解:经过这一步,原本的图片在 LLM 眼里就变成了"一串特殊的单词向量",LLM 可以像处理文本一样处理这些向量。
公式 3:LLM 处理与输出 (LLM Backbone)
  • 含义:LLM 接收多模态 Prompt 和 文本 Prompt,进行推理,并输出结果。
  • 变量解释
    • FT​:用户输入的纯文本特征。
    • PX:公式2得到的其他模态 Prompt。
    • t​:LLM 生成的文本回复(Text Response)。
    • SX (Signal Token) :来自其他模态的信号token作为指令,指导生成器是否产生MM内容 。例如如果模型需要画图,LLM 会输出一个特殊的触发词(如 <Image>),这个 token 包含了生成的指令信息。
公式 4:输出投影器的对齐 (Alignment of Output Projector)

注:训练输出投影器,让它把 LLM 想要表达的内容(HX),尽可能模仿成生成模型最熟悉的文本特征(τX(t)。目的是让 LLM 的输出"伪装"成标准文本编码器的输出,这样后面的生成模型就不需要重新大规模训练,直接拿来用即可。

公式 5:基于扩散模型的生成 (Generation via Diffusion Model)

注:这是扩散模型的标准训练逻辑------去噪(Denoising) 。 模型试图预测加在图像上的噪声 ϵϵ,如果预测得准(ϵϵ 和 ϵXϵX​ 的差值越小),模型就能成功地从纯噪声中还原出清晰的图像。 与传统 SD 的区别在于 :这里的引导条件不是用户输入的 prompt,而是 LLM 输出并经过对齐的特征 HXHX​

🧠 核心背景与动机

  • 从传统到 MM-LLMs: 过去的多模态(MM)预训练模型随着规模扩大,计算成本极高。 现在的研究趋势是利用现成的、功能强大的单模态基础模型(特别是 LLM)来降低计算成本并提高效率 。

  • MM-LLMs 的定义: 利用 LLM 作为「认知引擎(Cognitive Powerhouse)」来驱动多模态任务。 LLM 提供了语言生成、零样本迁移(Zero-shot transfer)和上下文学习(ICL)等能力。

  • 核心挑战: 如何有效地连接 LLM 与其他模态模型以进行协同推理 。

⭐通用模型框架( Model Architecture)

论文提出了一个由五个组件构成的通用架构 :

  • 模态编码器(Modality Encoder, MEX​)
    • 负责将图像、视频、音频等输入编码为特征。
    • 常见选择:Visual (ViT, CLIP, NFNet-F6), Audio (C-Former, HuBERT), 3D (ULIP-2) 等 。
  • 输入投影器 (Input Projector, ΘX→T​)
    • 负责将其他模态的特征对齐到文本特征空间,使其能被 LLM 理解。
    • 实现方式:线性投影器 (Linear Projector)、MLP、Cross-attention、Q-Former (BLIP-2)、P-Former 等 。
  • LLM 骨干 (LLM Backbone)
    • 核心代理,负责语义理解、推理和决策。
    • 常见模型:Flan-T5, LLaMA, Vicuna, Qwen 等 。
    • 高效微调 (PEFT):通常使用 LoRA, Prefix-tuning 等方法,仅训练极少量的参数(<0.1%)。
  • 输出投影器 (Output Projector, ΘT→X​)
    • 将 LLM 输出的信号 token 映射为后续生成器可理解的特征 。
    • 实现方式:Tiny Transformer 或 MLP 。
  • 模态生成器 (Modality Generator, MGX​)
    • 负责生成特定的多模态输出(如图像、视频)。
    • 常见模型:Stable Diffusion (图像), Zeroscope (视频), AudioLDM (音频) 。

注:专注于"理解"的模型通常只包含前三个部件 。

🗡 训练流程 (Training Pipeline)

MM-LLMs 的训练主要分为两个阶段 :

  1. MM PT (多模态预训练):利用 X-Text 数据集(如图形-文本对)训练输入和输出投影仪,以实现模态间的对齐 。

  2. MM IT (多模态指令微调)

  • SFT (监督微调):使用指令格式的数据集微调模型,使其能遵循新指令并泛化到未见过的任务 。

    • RLHF (基于人类反馈的强化学习):进一步根据人类反馈(如 NLF)进行微调,以对齐人类意图并增强互动能力 。

🌙 发展趋势和分类( SOTA MM-LLMs)

论文将 126 个 SOTA 模型进行了分类 :

  • 功能演进:

    • 从专注于 MM 理解( 如 BLIP-2, LLaVA) 。

    • 发展到 特定模态生成 (如 MiniGPT-5, SpeechGPT) 。

    • 最终迈向 任意模态转换 (Any-to-Any) (如 NEXT-GPT, Gemini) 。

  • 主要趋势 :

    1. 从单一理解向任意模态转换发展 。

    2. 训练流程不断优化(PT -> SFT -> RLHF)。

    3. 扩展到更多样化的模态(如 3D、视频)。

    4. 使用更高质量的训练数据集 。

    5. 采用更高效的模型架构(从复杂的 Q-Former 转向简单的线性投影器)。

🍎 性能与训练秘诀 (Benchmarks & Recipes)

通过对18个视觉-语言基准测试的分析,论文总结了提升MM-LLMs性能的关键秘诀:

  • 图像分辨率: 更高的分辨率(如 336x336 或 448x448)能提供更多细节,有利于细粒度任务,但会增加成本 。

  • 高质量 SFT 数据: 加入高质量的指令微调数据(如 ShareGPT4V)能显著提升性能 。

  • **数据混合策略:**交错的(Interleaved)图像-文本数据比单纯的图文对更有利 。在 SFT 期间混合纯文本指令数据有助于保持 LLM 的纯文本能力并提升视觉语言任务的准确性

🔮 未来研究方向

  • 更通用与智能的模型: 扩展更多模态(如网页、热力图)、多样化 LLM 选择、提升 MM 生成能力(结合检索增强 RAG)。
  • 更具挑战性的基准测试: 构建更大规模、包含更多模态且评估标准统一的基准(如评估幻觉、信任度、数学推理等)。
  • 移动/轻量化部署: 在资源受限设备上运行(如 MobileVLM, TinyGPT-V)。
  • 具身智能(Embodied Intelligence): 应用于机器人,使其能像人类一样感知和与环境互动(如 PaLM-E)。
  • 持续学习 (Continual Learning): 让模型能学习新任务而不遗忘旧知识(解决灾难性遗忘问题)。
  • 减少幻觉( Mitigating Hallucination): 解决模型生成与视觉事实不符的描述问题 。

📕专业名词

🔷 一、模型总体概念

术语 / 缩写 全称 专业定义 外行解释
MM-LLM MultiModal Large Language Model 能处理图像、文本、视频、音频等多种模态的大模型 "不仅能看文字,还能看图、听声音的视频版 ChatGPT"
Modality(模态) --- 信息格式,如图像/文本/音频等 一种"感知方式",比如视觉、听觉等
Any-to-Any 模态转换 --- 输入/输出任意模态的统一模型 "给什么都能理解,要什么都能生成"

🔷 二、训练流程相关

术语 / 缩写 全称 专业定义 外行解释
PT Pre-Training 大规模预训练阶段,学习基础知识 打基础:让模型"识字""看图"
MM PT MultiModal Pre-Training 多模态预训练,用图文/视频文等训练 让模型既能看图又能看字
IT Instruction Tuning 指令微调 教模型听懂命令
MM IT MultiModal Instruction Tuning 多模态指令微调(图+文指令) 教模型听懂"看图后做事"的命令
SFT Supervised Fine-Tuning 有标注的数据微调 通过例子教模型规范回答
RLHF Reinforcement Learning from Human Feedback 人类反馈强化学习 人类告诉模型"怎么回答更好"

🔷 三、模型结构组件

术语 / 缩写 全称 专业定义 外行解释
Modality Encoder(ME) --- 把图/音/视频转为模型可处理的特征 把图片变成数字
Input Projector --- 把非文本模态特征投射到文本空间 把"图像特征"翻译成"文本语言"
LLM Backbone --- 核心文字大脑(如 LLaMA、Qwen) 模型的"语言引擎"
Output Projector --- 把 LLM 输出转为可供图像/音频生成器使用的特征 让模型能把想法变成图片
Modality Generator(MG) --- 负责生成图像/视频/音频的模块 模型的"画图器 / 合成器"

🔷 四、常见子模块结构

术语 / 缩写 全称 专业定义 外行解释
Q-Former Query-Former 用可学习 query 提取多模态关键信息 "只抓图像里最重要的细节"
P-Former Prompt-Former 生成参考提示,指导对齐 让模型学会"按规则提取信息"
MQ-Former Multi-Scale Q-Former 多尺度对齐视觉与文本特征 更精细地"看图"
Cross-Attention --- 让不同模态互相关注 告诉模型:图片哪个部分与这句话相关

🔷 五、编码器(视觉/音频等)

术语 / 缩写 全称 专业定义 外行解释
ViT Vision Transformer Transformer 架构的视觉编码器 把图切成小块再理解
CLIP Contrastive Language--Image Pretraining 学会对齐图像与文字 "看图 + 配对文字"模型
EVA-CLIP / OpenCLIP --- 加强版 CLIP 更强的"图文对齐器"
BEATs / HuBERT --- 自监督音频编码器 听声音并转成特征
ImageBind --- 把多模态统一到同一个向量空间 图像、声音等"同一种语言"

🔷 六、生成模型相关术语

术语 / 缩写 全称 专业定义 外行解释
LDM Latent Diffusion Model 潜空间扩散模型(如 Stable Diffusion) AI 画图的主流方法
Stable Diffusion --- 常用 LDM 图像生成器 AI 画图软件本体
Zeroscope --- 视频扩散模型 AI 生成视频
AudioLDM --- 音频扩散模型 AI 生成声音
VAE Variational AutoEncoder 将图像压缩到 latent 空间 把图像压成"潜在数字"

🔷 七、训练目标与损失

术语 / 缩写 全称 外行解释
Ltxt-gen 文本生成损失 让模型"用图片生成正确文字"
LX-gen X 模态生成损失 让模型画图/生成音频时更逼真
Lmse MSE 损失(均方误差) 让投影后的特征更接近真正生成器需要的特征

🔷 八、评测与任务数据集

缩写 全称 外行解释
VQAv2 Visual Question Answering v2 看图问答
OKVQA Open Knowledge VQA 需要常识的看图问答
MMBench Multi-Modal Benchmark 综合多模态能力测评
MM-Vet MultiModal Vet 评估推理能力的测试

🔷 九、典型能力与现象

术语 含义 外行解释
Hallucination(幻觉) 模型胡编不存在的内容 "AI 乱说"
CoT(Chain-of-Thought) 思维链推理 "展示解题步骤"
Catastrophic Forgetting(灾难性遗忘) 持续学习忘旧知识 学新任务忘老任务
相关推荐
一个处女座的程序猿28 分钟前
AI之Algorithms:TheAlgorithms_Python(所有用 Python 实现的算法)的简介、安装和使用方法、案例应用之详细攻略
人工智能·python·算法
西猫雷婶28 分钟前
CNN计算|原始矩阵扩充后的多维度卷积核计算效果
人工智能·pytorch·深度学习·神经网络·机器学习·矩阵·cnn
大白的编程笔记30 分钟前
语言模型(Language Model, LM)系统详解
人工智能·语言模型·自然语言处理
谷歌开发者31 分钟前
Web 开发指向标|在来源面板中使用 Chrome 开发者工具的 AI 辅助功能
前端·人工智能·chrome
. . . . .33 分钟前
Chrome底层及Chrome-devtools-mcp
人工智能·chrome
aneasystone本尊34 分钟前
学习 LiteLLM 的防护栏机制
人工智能
szxinmai主板定制专家35 分钟前
RK3588+zynq7045 ARM+FPGA+AI解决方案,支持复旦微全国产化,应用于智能机器人等领域
arm开发·人工智能·fpga开发
serve the people35 分钟前
TensorFlow 中 “延迟变量创建(Deferred Variable Creation)” 机制
人工智能·python·tensorflow
MilieStone36 分钟前
抢占心血管诊疗高地:引入超导心磁图仪,为医院注入增长新动能
大数据·人工智能