【大模型入门系列】之多模态大模型综述

晓山清2026-05-26 9:33

参考：MM-LLMs综述、

编码器（Modality Encoder）：将多模态的数据编码成向量空间特征，该模块通常是单独进行预训练的，典型的方法有基于CNN的ResNET，基于Transformer的ViT等。
输入投影层（Input Projector）：将模态编码器的输出映射到LLM的输入特征空间的适配层，一般模型结构比较简单，不同的多模态模型一般是随机初始化该模块的参数做冷启训练。典型的网络层：MLP，Cross-Attention等
LLM主干网络（LLM Backbone）：LLM是经过预训练的模型，一般还要串联多个模块继续做Post-Pretrain和微调，使得模型能识别多模态的特殊token和多模态的特征输入。
输出投影层（Output Projector）：将LLM生成的数据，映射成Modality Generator 可理解的特征空间，一般是简单的Transformer层或MLP层。
模态生成器（Modality Generator）：多模态的生成器，最终输出多模态的结果如图像、语音、视频等。模型基本都是基于LDM（Latent Diffusion Models）的衍生模型，如图片领域的Stable Diffusion方法。

TBD

敬请期待