模态生成器:原理详解与推荐开源项目

把一种或多种输入模态,转换、补全或生成另一种目标模态的模块。

例如:

text 复制代码
文本 → 图像
图像 → 文本
文本 → 语音
语音 → 文本
图像 + 文本 → 视频
图像 + 文本 → 机器人动作
图像 → 深度图 / mask / 结构化检测结果
缺失模态 → 伪模态补全

在 sVLM / MLLM / VLA 系统里,模态生成器通常不是单独一个网络,而是由 模态编码器、跨模态对齐层、核心推理模型、目标模态解码器 共同组成。


1. 模态生成器的核心结构

典型结构如下:

text 复制代码
输入模态 x_m
  ↓
模态编码器 Encoder_m
  ↓
语义 latent / token 表示 z_m
  ↓
跨模态对齐 / 融合模块
  ↓
统一推理核心:LLM / Transformer / Diffusion / DiT / Flow
  ↓
目标模态解码器 Decoder_n
  ↓
输出模态 y_n

可以抽象成:

text 复制代码
z_m = Encoder_m(x_m)

h = Fusion(z_m, prompt, task)

y_n = Decoder_n(h)

训练目标一般包含:

text 复制代码
L = L_generation + L_alignment + L_reconstruction + L_instruction + L_contrastive

其中:

损失 作用
L_generation 让模型生成目标模态,如图像、文本、语音、动作
L_alignment 让不同模态进入同一语义空间
L_reconstruction 用于 VAE / VQ-VAE / diffusion 的重建质量
L_instruction 让模型听懂人类指令
L_contrastive 类似 CLIP / ImageBind 的跨模态相似度约束

2. 三类主流技术路线

2.1 路线一:编码器 + 专用解码器

这是最常见、最工程化的路线。

text 复制代码
文本 Encoder → 图像 Diffusion Decoder
图像 Encoder → 文本 LLM Decoder
文本 Encoder → 语音 TTS Decoder
图像/文本 Encoder → 动作 Policy Decoder

典型例子:

方向 模态生成
Stable Diffusion 文本 → 图像
LLaVA / MiniCPM-V 图像 + 文本 → 文本
Coqui TTS 文本 → 语音
OpenVLA 图像 + 语言 → 机器人动作
ControlNet 图像条件 / 边缘 / 姿态 / mask → 可控图像

优点是工程成熟、效果稳定;缺点是不同模态通常要接不同 decoder,系统复杂度较高。

Stable Diffusion 本质上是 CLIP 文本编码器 + latent diffusion 图像生成器,官方仓库也明确说明它是由 CLIP ViT-L/14 文本嵌入条件控制的 latent diffusion 模型。([GitHub][1])


2.2 路线二:统一 token 化,多模态都当成"语言"

这类方法把图像、语音、视频、动作都离散化成 token,然后统一交给 Transformer / LLM 做 next-token prediction。

text 复制代码
文本 token
图像 token
音频 token
动作 token
bbox token
mask token
        ↓
统一 Transformer
        ↓
生成目标模态 token
        ↓
目标模态 Decoder 还原

代表项目:

项目 说明
Unified-IO 2 统一处理图像、文本、音频、动作、bbox 等输入输出
AnyGPT 把语音、文本、图像、音乐表示为离散 token,用 LLM 做统一建模
VILA-U 用单一自回归 next-token 框架统一视觉理解与视觉生成

Unified-IO 2 被描述为可以理解并生成 image、text、audio、action 的自回归多模态模型,并把图像、文本、音频、动作、bbox 等统一 token 化到共享空间中。([arXiv][2])

AnyGPT 则强调通过离散表示统一处理 speech、text、image、music,并且尽量不改动现有 LLM 架构和训练范式。([GitHub][3])

这条路线很适合未来 sVLM,因为它可以把"检测框、OCR、mask、动作、商品属性"都统一成 token。


2.3 路线三:多模态生成专家 / Any-to-Any 架构

这类方法不强求所有模态都由一个 decoder 生成,而是:

text 复制代码
LLM 做中枢调度
图像由 diffusion 生成
音频由 audio generator 生成
视频由 video diffusion 生成
文本由 LLM 生成

典型代表:

项目 特点
NExT-GPT 任意模态输入 → 任意模态输出
CoDi Composable Diffusion,支持任意模态组合生成
ImageBind + 生成器 先绑定多模态语义空间,再接不同生成器

NExT-GPT 官方说明其通过连接 LLM、多模态适配器和不同 diffusion decoder,实现 text、image、video、audio 的任意输入输出。([next-gpt.github.io][4])

CoDi 的核心是 Composable Diffusion,可以从任意输入模态组合生成语言、图像、视频或音频等输出模态。([codi-gen.github.io][5])

ImageBind 则不是直接生成模型,而是把 image、text、audio、depth、thermal、IMU 六种模态映射到统一 embedding 空间,可作为模态生成器前面的"跨模态语义枢纽"。([GitHub][6])


3. 模态生成器的关键模块

3.1 模态编码器

负责把原始输入变成统一 latent / token。

输入模态 常见编码器
图像 CNN、ViT、CLIP、SigLIP、SAM encoder
文本 BERT、T5、LLaMA、Qwen、Mistral tokenizer + embedding
音频 Whisper encoder、HuBERT、Wav2Vec2、EnCodec
视频 TimeSformer、VideoMAE、3D Conv、ViT + temporal adapter
点云 / 深度 PointNet、Point-BERT、SparseConv、Voxel encoder
动作 Action tokenizer、轨迹编码器、VLA policy encoder

3.2 跨模态对齐层

作用是把不同模态对齐到一个语义空间。

常见方法:

text 复制代码
1. Contrastive Learning
   图像-文本相似度对齐,如 CLIP / SigLIP

2. Projection / Adapter
   把视觉特征投影到 LLM token 空间,如 LLaVA projector

3. Q-Former / Resampler
   用少量 query token 压缩视觉信息,如 BLIP-2 / Flamingo 类路线

4. Cross-Attention
   文本 token 通过 cross-attention 读取视觉 / 音频 / 视频特征

5. Unified Tokenizer
   直接把不同模态变成 token 序列

LLaVA 的典型结构就是 视觉编码器 + 投影层 + LLM,通过 visual instruction tuning 让图像输入可以被语言模型理解和回答。([GitHub][7])


3.3 目标模态解码器

这是"生成器"的核心。

目标模态 常见生成器
文本 LLM decoder
图像 Diffusion / VAE decoder / DiT
视频 Video Diffusion / 3D U-Net / DiT
语音 TTS acoustic model + vocoder
音乐 Audio token autoregressive model
机器人动作 Policy decoder / diffusion policy / flow policy
mask / bbox Detection head / segmentation decoder
深度图 Dense prediction decoder

AudioCraft 是典型音频模态生成器工具,包含 AudioGen 和 MusicGen 的推理与训练代码,用于高质量音频生成。([GitHub][8])

Coqui TTS 则是文本到语音方向的成熟开源工具,提供 1100+ 语言的预训练模型以及训练、微调、数据分析工具。([GitHub][9])


4. 在 sVLM 中,模态生成器主要做什么?

对 sVLM 来说,模态生成器不一定要生成漂亮图片,更重要的是生成 任务有用的中间模态


5. 推荐开源项目

5.1 通用多模态生成 / Any-to-Any

项目 推荐指数 适合用途
NExT-GPT ★★★★★ 任意模态输入输出框架,适合研究"LLM + 多模态 decoder"架构
CoDi / i-Code ★★★★☆ 任意模态组合生成,适合研究 composable diffusion
AnyGPT ★★★★☆ 离散 token 统一建模,适合研究统一多模态 LLM
Unified-IO 2 ★★★★☆ 图像、文本、音频、动作统一建模,适合理论和大一统架构研究
VILA-U ★★★★☆ 单一自回归框架统一视觉理解和生成

NExT-GPT 适合看"LLM 中枢 + 多个模态解码器"的工程组织方式;AnyGPT 和 Unified-IO 2 更适合看"所有模态 token 化"的统一建模路线。([GitHub][10])


5.2 图像生成 / 图像编辑 / 可控生成

项目 推荐指数 适合用途
Hugging Face Diffusers ★★★★★ diffusion 模型训练、推理、微调、部署基础库
Stable Diffusion ★★★★★ 文本到图像、图像编辑、LoRA 微调
ControlNet ★★★★★ 边缘图、深度图、姿态、mask 条件控制生成
ComfyUI ★★★★☆ 节点化搭建复杂生成 pipeline

Diffusers 是目前最常用的 diffusion 工程库之一,官方说明其覆盖图像、音频甚至 3D 分子结构生成模型。([GitHub][11])

ControlNet 的核心价值是给 diffusion 模型加入额外条件,例如边缘、姿态、深度、mask,让生成结果可控。([GitHub][12])

ComfyUI 适合做工程原型,因为它用节点/流程图方式搭建 Stable Diffusion 工作流,不需要大量手写代码。([GitHub][13])


5.3 视觉语言理解生成:图像 / 视频 → 文本

项目 推荐指数 适合用途
LLaVA / LLaVA-NeXT ★★★★★ VLM 架构学习、visual instruction tuning
MiniCPM-V ★★★★★ 端侧多模态理解,适合 sVLM / edge VLM
VILA ★★★★☆ 高效视频、多图理解
SmolVLM ★★★★☆ 轻量级 VLM baseline

MiniCPM-V 系列定位为高性能、可端侧部署的多模态大模型,MiniCPM-o 进一步扩展到实时 video/audio 输入和 text/speech 输出。([GitHub][14])

VILA 是一系列开放 VLM,重点优化高效视频理解和多图理解。([GitHub][15])


5.4 音频 / 语音生成

项目 推荐指数 适合用途
Coqui TTS ★★★★★ 文本转语音、语音克隆、TTS 微调
AudioCraft / MusicGen / AudioGen ★★★★★ 音乐生成、环境音生成、音频 token 生成
Bark / XTTS 类项目 ★★★★☆ 多语言语音生成、对话式语音输出

AudioCraft 的 MusicGen 是单阶段自回归 Transformer,基于 EnCodec tokenizer 的多 codebook 音频 token 生成。([GitHub][16])


5.5 视频生成

项目 推荐指数 适合用途
Open-Sora ★★★★★ 文本到视频、图像到视频、开源视频生成研究
Open-Sora-Plan ★★★★☆ 文生视频模型组合与训练方案参考
VideoCrafter / ModelScope T2V ★★★☆☆ 传统开源文生视频 baseline

Open-Sora 官方说明其模型优化了 image-to-video,同时也支持 text-to-video,并提供 text-to-image-to-video pipeline。([GitHub][17])

Open-Sora-Plan 中的 Allegro 支持最高 6 秒、15 FPS、720p 的文本到视频生成,是可关注的开源视频生成路线。([GitHub][18])


5.6 机器人动作 / VLA 模态生成

项目 推荐指数 适合用途
OpenVLA ★★★★★ 图像 + 指令 → 机器人动作
LeRobot ★★★★★ 机器人数据、训练、策略部署工具链
openpi ★★★★★ flow-based / autoregressive VLA 动作生成
Open X-Embodiment ★★★★☆ 大规模机器人轨迹数据

OpenVLA 是开源 Vision-Language-Action 模型,面向通用机器人操作,支持训练和微调机器人 manipulation policy。([GitHub][19])

OpenVLA-7B 模型使用 Open X-Embodiment 的 970K 机器人操作 episode 训练,输入语言指令和相机图像,输出机器人动作。([Hugging Face][20])

openpi 仓库包含 π₀ flow-based VLA 和 π₀-FAST autoregressive VLA,后者基于 FAST action tokenizer。([GitHub][21])

LeRobot 提供真实机器人机器学习所需的模型、数据集和工具,目标是降低机器人学习门槛。([Hugging Face][22])


5.7 缺失模态生成 / 模态补全

这个方向对工业落地很重要,例如:

text 复制代码
摄像头缺失 → 用历史图像 / 结构先验补全
音频缺失 → 用视觉事件估计
图像局部遮挡 → 用语义先验恢复
缺少 OCR → 用商品 embedding + SKU 库补全

推荐项目:

项目 推荐指数 适合用途
SMIL ★★★★☆ 严重缺失模态场景的多模态学习
MD²N ★★★★☆ diffusion 式缺失模态恢复
MissRAG ★★★★☆ 用多模态 RAG 解决 MLLM 缺失模态问题
MPLMM / missing-aware prompts ★★★☆☆ prompt learning 处理缺失模态

SMIL 明确研究训练和测试阶段都可能存在模态缺失的问题,甚至考虑 90% 样本存在不完整模态的严重缺失场景。([GitHub][23])

MD²N 使用 multi-stage duplex diffusion 做缺失模态恢复,通过 global structure generation、modality transfer、local cross-modal refinement 三阶段完成补全。([crystal-punk.github.io][24])

MissRAG 则通过从训练集原型池检索相关模态数据,缓解 MLLM 输入模态缺失问题。([GitHub][25])


8. 最推荐的开源清单

综合工程价值,建议重点跟踪:

text 复制代码
1. Hugging Face Diffusers
2. Stable Diffusion
3. ControlNet
4. ComfyUI
5. LLaVA / LLaVA-NeXT
6. MiniCPM-V
7. VILA / VILA-U
8. NExT-GPT
9. AnyGPT
10. Unified-IO 2
11. ImageBind
12. Coqui TTS
13. AudioCraft
14. Open-Sora
15. OpenVLA
16. LeRobot
17. openpi
18. SMIL
19. MD²N
20. MissRAG

总结:

模态生成器的本质,是把不同模态统一成可计算的语义表示,再通过目标模态 decoder 生成图像、文本、音频、视频、动作或结构化结果。未来 sVLM 的重点不是单纯"生成图片",而是生成能服务任务决策的中间模态:mask、bbox、OCR、embedding、属性文本、库存差异和动作。

参考链接:

1\]: https://github.com/compvis/stable-diffusion?utm_source=chatgpt.com "CompVis/stable-diffusion: A latent text-to-image ..." \[2\]: https://arxiv.org/abs/2312.17172?utm_source=chatgpt.com "Unified-IO 2: Scaling Autoregressive Multimodal Models ..." \[3\]: https://github.com/OpenMOSS/AnyGPT?utm_source=chatgpt.com "Code for "AnyGPT: Unified Multimodal LLM with Discrete ..." \[4\]: https://next-gpt.github.io/?utm_source=chatgpt.com "NExT-GPT" \[5\]: https://codi-gen.github.io/?utm_source=chatgpt.com "CoDi: Generate Anything from Anything All At Once through ..." \[6\]: https://github.com/facebookresearch/imagebind?utm_source=chatgpt.com "ImageBind One Embedding Space to Bind Them All" \[7\]: https://github.com/haotian-liu/llava?utm_source=chatgpt.com "haotian-liu/LLaVA: \[NeurIPS'23 Oral\] Visual Instruction ..." \[8\]: https://github.com/facebookresearch/audiocraft?utm_source=chatgpt.com "GitHub - facebookresearch/audiocraft" \[9\]: https://github.com/coqui-ai/tts?utm_source=chatgpt.com "coqui-ai/TTS: 🐸💬 - a deep learning toolkit for Text-to- ..." \[10\]: https://github.com/NExT-GPT/NExT-GPT?utm_source=chatgpt.com "NExT-GPT: Any-to-Any Multimodal LLM" \[11\]: https://github.com/huggingface/diffusers?utm_source=chatgpt.com "State-of-the-art diffusion models for image, video, and ..." \[12\]: https://github.com/lllyasviel/controlnet?utm_source=chatgpt.com "lllyasviel/ControlNet: Let us control diffusion models!" \[13\]: https://github.com/Comfy-Org/ComfyUI?utm_source=chatgpt.com "Comfy-Org/ComfyUI: The most powerful and modular ..." \[14\]: https://github.com/OpenBMB/MiniCPM-V?utm_source=chatgpt.com "OpenBMB/MiniCPM-V: A Pocket-Sized MLLM for Ultra- ..." \[15\]: https://github.com/NVlabs/VILA?utm_source=chatgpt.com "VILA is a family of state-of-the-art vision language models ..." \[16\]: https://github.com/facebookresearch/audiocraft/blob/main/docs/MUSICGEN.md?utm_source=chatgpt.com "audiocraft/docs/MUSICGEN.md at main" \[17\]: https://github.com/hpcaitech/Open-Sora?utm_source=chatgpt.com "Open-Sora: Democratizing Efficient Video Production for All" \[18\]: https://github.com/PKU-YuanGroup/Open-Sora-Plan?utm_source=chatgpt.com "PKU-YuanGroup/Open-Sora-Plan" \[19\]: https://github.com/openvla/openvla?utm_source=chatgpt.com "OpenVLA: An Open-Source Vision-Language-Action Model" \[20\]: https://huggingface.co/openvla/openvla-7b?utm_source=chatgpt.com "openvla/openvla-7b" \[21\]: https://github.com/Physical-Intelligence/openpi?utm_source=chatgpt.com "Physical-Intelligence/openpi" \[22\]: https://huggingface.co/lerobot?utm_source=chatgpt.com "LeRobot" \[23\]: https://github.com/deep-real/SMIL?utm_source=chatgpt.com "SMIL: Multimodal Learning with Severely Missing Modality" \[24\]: https://crystal-punk.github.io/?utm_source=chatgpt.com "Unbiased Missing-modality Multimodal Learning" \[25\]: https://github.com/aimagelab/MissRAG?utm_source=chatgpt.com "MissRAG: Addressing the Missing Modality Challenge in ..."

相关推荐
ws2019073 小时前
AUTO TECH China 2026广州汽车零部件展:从整机集成迈向核心部件的产业跃升
大数据·人工智能·科技·汽车
文歌子3 小时前
DeepEarth 深度解析:AI 如何理解地球的时空规律
深度学习
MomentYY3 小时前
第 3 篇:让 Agent 学会分工,LangGraph 构建多 Agent系统
人工智能·python·agent
初心未改HD3 小时前
深度学习之Transformer架构详解
人工智能·深度学习·transformer
拾年2753 小时前
一个项目教你玩转Claude Code 常用命令
人工智能
阿里云大数据AI技术3 小时前
PAI-FA|突破 TMEM 瓶颈:FlashAttention-4 大 Head Dimension (256) 高性能算子实现与优化
人工智能
Mr数据杨3 小时前
【CanMV K210】传感器实验 MPU6050 六轴数据与四元数姿态融合
人工智能·硬件开发·canmv k210
Das13 小时前
MCP Is Dead
人工智能
测试员周周3 小时前
【Appium 系列】第13节-混合测试执行器 — API + UI 的协同执行
开发语言·人工智能·python·功能测试·ui·appium·pytest