【论文阅读20】MM-LLMs:多模态大语言模型的最新进展

(8 条消息) 【必看】历史技术文章导航 - 知乎

😊文章背景

题目:MM-LLMs: Recent Advances in MultiModal Large Language Models

期刊:arxiv.org

作者:Duzhen Zhang1*‡ , Yahan Yu3* , Jiahua Dong4†, Chenxing Li1 , Dan Su1, Chenhui Chu3† and Dong Yu2

单位:腾讯AI实验室,中国 2腾讯AI实验室,美国 3京都大学,日本

发表年份: 2024

网址:[2401.13601] MM-LLMs: Recent Advances in MultiModal Large Language Models

📌重要公式

公式 1:模态编码 (Modality Encoding)
  • 含义:这是处理的第一步,将原始数据转化为机器能理解的特征。
  • 变量解释
    • IX(Input):原始模态输入。XX 代表模态类型(如图像、视频、音频)。
    • EX​ (Encoder) :模态编码器。通常是预训练好的模型(如 ViT-L/14 , CLIP 的视觉塔)。
    • FX​ (Features):输出的特征向量。例如,一张图片经过 CLIP 编码后,可能会变成 256×1024256×1024 维度的张量。
  • :这一步通常不进行梯度更新(即 Frozen),目的是保留编码器强大的特征提取能力。
公式 2:输入投影/对齐 (Input Projection)

  • 含义这是 MM-LLM 最关键的一步! 它的作用是"翻译"。因为 LLM 只能理解文本(Text, T),看不懂图像特征 (FX)。这个公式把图像特征映射到文本特征空间。
  • 变量解释
    • PX (Prompts) :对齐后的特征,我们称之为 Soft Prompts
    • FT:用户输入的文本特征
    • ​ (Input Projector) :输入投影器。有两种类型:
      • 简单的 Linear Layer(如 LLaVA);
      • 复杂的 Q-Former(如 BLIP-2)。
  • 直观理解:经过这一步,原本的图片在 LLM 眼里就变成了"一串特殊的单词向量",LLM 可以像处理文本一样处理这些向量。
公式 3:LLM 处理与输出 (LLM Backbone)
  • 含义:LLM 接收多模态 Prompt 和 文本 Prompt,进行推理,并输出结果。
  • 变量解释
    • FT​:用户输入的纯文本特征。
    • PX:公式2得到的其他模态 Prompt。
    • t​:LLM 生成的文本回复(Text Response)。
    • SX (Signal Token) :来自其他模态的信号token作为指令,指导生成器是否产生MM内容 。例如如果模型需要画图,LLM 会输出一个特殊的触发词(如 <Image>),这个 token 包含了生成的指令信息。
公式 4:输出投影器的对齐 (Alignment of Output Projector)

注:训练输出投影器,让它把 LLM 想要表达的内容(HX),尽可能模仿成生成模型最熟悉的文本特征(τX(t)。目的是让 LLM 的输出"伪装"成标准文本编码器的输出,这样后面的生成模型就不需要重新大规模训练,直接拿来用即可。

公式 5:基于扩散模型的生成 (Generation via Diffusion Model)

注:这是扩散模型的标准训练逻辑------去噪(Denoising) 。 模型试图预测加在图像上的噪声 ϵϵ,如果预测得准(ϵϵ 和 ϵXϵX​ 的差值越小),模型就能成功地从纯噪声中还原出清晰的图像。 与传统 SD 的区别在于 :这里的引导条件不是用户输入的 prompt,而是 LLM 输出并经过对齐的特征 HXHX​

🧠 核心背景与动机

  • 从传统到 MM-LLMs: 过去的多模态(MM)预训练模型随着规模扩大,计算成本极高。 现在的研究趋势是利用现成的、功能强大的单模态基础模型(特别是 LLM)来降低计算成本并提高效率 。

  • MM-LLMs 的定义: 利用 LLM 作为「认知引擎(Cognitive Powerhouse)」来驱动多模态任务。 LLM 提供了语言生成、零样本迁移(Zero-shot transfer)和上下文学习(ICL)等能力。

  • 核心挑战: 如何有效地连接 LLM 与其他模态模型以进行协同推理 。

⭐通用模型框架( Model Architecture)

论文提出了一个由五个组件构成的通用架构 :

  • 模态编码器(Modality Encoder, MEX​)
    • 负责将图像、视频、音频等输入编码为特征。
    • 常见选择:Visual (ViT, CLIP, NFNet-F6), Audio (C-Former, HuBERT), 3D (ULIP-2) 等 。
  • 输入投影器 (Input Projector, ΘX→T​)
    • 负责将其他模态的特征对齐到文本特征空间,使其能被 LLM 理解。
    • 实现方式:线性投影器 (Linear Projector)、MLP、Cross-attention、Q-Former (BLIP-2)、P-Former 等 。
  • LLM 骨干 (LLM Backbone)
    • 核心代理,负责语义理解、推理和决策。
    • 常见模型:Flan-T5, LLaMA, Vicuna, Qwen 等 。
    • 高效微调 (PEFT):通常使用 LoRA, Prefix-tuning 等方法,仅训练极少量的参数(<0.1%)。
  • 输出投影器 (Output Projector, ΘT→X​)
    • 将 LLM 输出的信号 token 映射为后续生成器可理解的特征 。
    • 实现方式:Tiny Transformer 或 MLP 。
  • 模态生成器 (Modality Generator, MGX​)
    • 负责生成特定的多模态输出(如图像、视频)。
    • 常见模型:Stable Diffusion (图像), Zeroscope (视频), AudioLDM (音频) 。

注:专注于"理解"的模型通常只包含前三个部件 。

🗡 训练流程 (Training Pipeline)

MM-LLMs 的训练主要分为两个阶段 :

  1. MM PT (多模态预训练):利用 X-Text 数据集(如图形-文本对)训练输入和输出投影仪,以实现模态间的对齐 。

  2. MM IT (多模态指令微调)

  • SFT (监督微调):使用指令格式的数据集微调模型,使其能遵循新指令并泛化到未见过的任务 。

    • RLHF (基于人类反馈的强化学习):进一步根据人类反馈(如 NLF)进行微调,以对齐人类意图并增强互动能力 。

🌙 发展趋势和分类( SOTA MM-LLMs)

论文将 126 个 SOTA 模型进行了分类 :

  • 功能演进:

    • 从专注于 MM 理解( 如 BLIP-2, LLaVA) 。

    • 发展到 特定模态生成 (如 MiniGPT-5, SpeechGPT) 。

    • 最终迈向 任意模态转换 (Any-to-Any) (如 NEXT-GPT, Gemini) 。

  • 主要趋势 :

    1. 从单一理解向任意模态转换发展 。

    2. 训练流程不断优化(PT -> SFT -> RLHF)。

    3. 扩展到更多样化的模态(如 3D、视频)。

    4. 使用更高质量的训练数据集 。

    5. 采用更高效的模型架构(从复杂的 Q-Former 转向简单的线性投影器)。

🍎 性能与训练秘诀 (Benchmarks & Recipes)

通过对18个视觉-语言基准测试的分析,论文总结了提升MM-LLMs性能的关键秘诀:

  • 图像分辨率: 更高的分辨率(如 336x336 或 448x448)能提供更多细节,有利于细粒度任务,但会增加成本 。

  • 高质量 SFT 数据: 加入高质量的指令微调数据(如 ShareGPT4V)能显著提升性能 。

  • **数据混合策略:**交错的(Interleaved)图像-文本数据比单纯的图文对更有利 。在 SFT 期间混合纯文本指令数据有助于保持 LLM 的纯文本能力并提升视觉语言任务的准确性

🔮 未来研究方向

  • 更通用与智能的模型: 扩展更多模态(如网页、热力图)、多样化 LLM 选择、提升 MM 生成能力(结合检索增强 RAG)。
  • 更具挑战性的基准测试: 构建更大规模、包含更多模态且评估标准统一的基准(如评估幻觉、信任度、数学推理等)。
  • 移动/轻量化部署: 在资源受限设备上运行(如 MobileVLM, TinyGPT-V)。
  • 具身智能(Embodied Intelligence): 应用于机器人,使其能像人类一样感知和与环境互动(如 PaLM-E)。
  • 持续学习 (Continual Learning): 让模型能学习新任务而不遗忘旧知识(解决灾难性遗忘问题)。
  • 减少幻觉( Mitigating Hallucination): 解决模型生成与视觉事实不符的描述问题 。

📕专业名词

🔷 一、模型总体概念

术语 / 缩写 全称 专业定义 外行解释
MM-LLM MultiModal Large Language Model 能处理图像、文本、视频、音频等多种模态的大模型 "不仅能看文字,还能看图、听声音的视频版 ChatGPT"
Modality(模态) --- 信息格式,如图像/文本/音频等 一种"感知方式",比如视觉、听觉等
Any-to-Any 模态转换 --- 输入/输出任意模态的统一模型 "给什么都能理解,要什么都能生成"

🔷 二、训练流程相关

术语 / 缩写 全称 专业定义 外行解释
PT Pre-Training 大规模预训练阶段,学习基础知识 打基础:让模型"识字""看图"
MM PT MultiModal Pre-Training 多模态预训练,用图文/视频文等训练 让模型既能看图又能看字
IT Instruction Tuning 指令微调 教模型听懂命令
MM IT MultiModal Instruction Tuning 多模态指令微调(图+文指令) 教模型听懂"看图后做事"的命令
SFT Supervised Fine-Tuning 有标注的数据微调 通过例子教模型规范回答
RLHF Reinforcement Learning from Human Feedback 人类反馈强化学习 人类告诉模型"怎么回答更好"

🔷 三、模型结构组件

术语 / 缩写 全称 专业定义 外行解释
Modality Encoder(ME) --- 把图/音/视频转为模型可处理的特征 把图片变成数字
Input Projector --- 把非文本模态特征投射到文本空间 把"图像特征"翻译成"文本语言"
LLM Backbone --- 核心文字大脑(如 LLaMA、Qwen) 模型的"语言引擎"
Output Projector --- 把 LLM 输出转为可供图像/音频生成器使用的特征 让模型能把想法变成图片
Modality Generator(MG) --- 负责生成图像/视频/音频的模块 模型的"画图器 / 合成器"

🔷 四、常见子模块结构

术语 / 缩写 全称 专业定义 外行解释
Q-Former Query-Former 用可学习 query 提取多模态关键信息 "只抓图像里最重要的细节"
P-Former Prompt-Former 生成参考提示,指导对齐 让模型学会"按规则提取信息"
MQ-Former Multi-Scale Q-Former 多尺度对齐视觉与文本特征 更精细地"看图"
Cross-Attention --- 让不同模态互相关注 告诉模型:图片哪个部分与这句话相关

🔷 五、编码器(视觉/音频等)

术语 / 缩写 全称 专业定义 外行解释
ViT Vision Transformer Transformer 架构的视觉编码器 把图切成小块再理解
CLIP Contrastive Language--Image Pretraining 学会对齐图像与文字 "看图 + 配对文字"模型
EVA-CLIP / OpenCLIP --- 加强版 CLIP 更强的"图文对齐器"
BEATs / HuBERT --- 自监督音频编码器 听声音并转成特征
ImageBind --- 把多模态统一到同一个向量空间 图像、声音等"同一种语言"

🔷 六、生成模型相关术语

术语 / 缩写 全称 专业定义 外行解释
LDM Latent Diffusion Model 潜空间扩散模型(如 Stable Diffusion) AI 画图的主流方法
Stable Diffusion --- 常用 LDM 图像生成器 AI 画图软件本体
Zeroscope --- 视频扩散模型 AI 生成视频
AudioLDM --- 音频扩散模型 AI 生成声音
VAE Variational AutoEncoder 将图像压缩到 latent 空间 把图像压成"潜在数字"

🔷 七、训练目标与损失

术语 / 缩写 全称 外行解释
Ltxt-gen 文本生成损失 让模型"用图片生成正确文字"
LX-gen X 模态生成损失 让模型画图/生成音频时更逼真
Lmse MSE 损失(均方误差) 让投影后的特征更接近真正生成器需要的特征

🔷 八、评测与任务数据集

缩写 全称 外行解释
VQAv2 Visual Question Answering v2 看图问答
OKVQA Open Knowledge VQA 需要常识的看图问答
MMBench Multi-Modal Benchmark 综合多模态能力测评
MM-Vet MultiModal Vet 评估推理能力的测试

🔷 九、典型能力与现象

术语 含义 外行解释
Hallucination(幻觉) 模型胡编不存在的内容 "AI 乱说"
CoT(Chain-of-Thought) 思维链推理 "展示解题步骤"
Catastrophic Forgetting(灾难性遗忘) 持续学习忘旧知识 学新任务忘老任务
相关推荐
NAGNIP9 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab11 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab11 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP14 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年14 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼15 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS15 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区16 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈16 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang17 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx