【大模型入门系列】之多模态大模型综述

文章目录

参考:MM-LLMs综述

  • 编码器(Modality Encoder):将多模态的数据编码成向量空间特征,该模块通常是单独进行预训练的,典型的方法有基于CNN的ResNET,基于Transformer的ViT等。
  • 输入投影层(Input Projector):将模态编码器的输出映射到LLM的输入特征空间的适配层,一般模型结构比较简单,不同的多模态模型一般是随机初始化该模块的参数做冷启训练。典型的网络层:MLP,Cross-Attention等
  • LLM主干网络(LLM Backbone):LLM是经过预训练的模型,一般还要串联多个模块继续做Post-Pretrain和微调,使得模型能识别多模态的特殊token和多模态的特征输入。
  • 输出投影层(Output Projector):将LLM生成的数据,映射成Modality Generator 可理解的特征空间,一般是简单的Transformer层或MLP层。
  • 模态生成器(Modality Generator):多模态的生成器,最终输出多模态的结果如图像、语音、视频等。模型基本都是基于LDM(Latent Diffusion Models)的衍生模型,如图片领域的Stable Diffusion方法。

TBD

敬请期待

相关推荐
AI导出鸭2 分钟前
智谱清言复制表格|AI 导出鸭一站式解决表格导出各类难题
人工智能
江畔柳前堤4 分钟前
github实战指南03-Pull Request 全流程实战
开发语言·人工智能·python·深度学习·github·word
小二·7 分钟前
AI 编程工具深度实战:从 Copilot 到 Coding Agent
人工智能·copilot
米小虾7 分钟前
让AI自主运行:Loop Engineering设计指南
人工智能·agent
shelutai8 分钟前
大模型折扣站66ai.ai使用方法
人工智能
微学AI9 分钟前
递阶式智能体开发范式(HADP):从超级Agent到智能体应用的层级架构理论与工程实践
人工智能·架构·agent
小易撩挨踢10 分钟前
[特殊字符] Spring AI 2.0.0 正式发布:大版本升级,MCP 原生集成 + Anthropic SDK 全线重构
人工智能·spring·重构
萤丰信息10 分钟前
从数字化到AI自治!2026智慧园区全新运营变革趋势
人工智能·智慧城市
老刘说AI10 分钟前
类Sora模型:解锁动态视觉艺术的密码
人工智能·stable diffusion·架构·embedding
basketball61611 分钟前
AI Infra 硬件体系与编程模型:17. CUDA编程基础:底层驱动 API 调用
人工智能·microsoft·nvidia·cuda