NExT-GPT: Any-to-Any Multimodal LLM论文笔记

论文 https://arxiv.org/pdf/2309.05519.pdf
代码 https://github.com/NExT-GPT/NExT-GPT/tree/main

1. Motivation

  • 现有的多模态大模型大都只是支持输入端的多模态(Text、Image、Video、Audio等),但是输出端都是Text。
  • 也有一些现有的输入输出都是多模态的工作,如CoDi、Visual-ChatGPT、 HuggingGPT等,这一类工作又存在下述问题

因此,本文提出一种端到端训练的,支持任意模态输入输出MM-LLM(Multimodal Large Language Model)------NExT-GPT。

2. Overall Architecture

NExT-GPT主要包含三层架构:

  1. Encoder+Input Projection:利用现有的开源编码器(ImageBind)对多模态输入进行编码,随后通过各自的Projection 模块将多模态Embedding对齐到Text Embedding。

  2. LLM:利用开源 的LLM (Vicuna)作为来处理输入多模态Embedding,进行语义理解和推理。LLM 可以直接输出文本,同时其还将输出一种模态信号指令,来决定调用哪个模态的解码器进行解码输出。

  3. 对于特定模态的指令,调用对应模态的Projection模块以及相应的开源Diffusion解码器 (Stable Diffusion (SD) for image synthesis, Zeroscope for video synthesis, and AudioLDM for audio synthesis) 生成对应输出。

整个MM-LLM系统中,Encoder、LLM、Diffusion都是现成的开源预训练模型,只有输入端和输出端的Projection模块需要训练,只有1%的参数需要更新。

  • 这样首先避免了难度较大的从头训练人工;
  • 其次,这种模块化的预训练模型拼接方式能够方便集成更多的模态;

3. 输入端和输出端 Projection 模块训练方式

为了解决不同模态输入和输出之间特征对齐问题,本文分别设计了 Encoding-side LLM-centric Multimodal Alignment 和 Decoding-side Instruction-following Alignment 来进行 Projection 模块的训练。

3.1 Encoding-side LLM-centric Multimodal Alignment

  • 目标:aligning different inputting multimodal features with the text feature space;
  • 做法:prepare the 'X-caption' pair ('X' stands for image, audio, or video) data from existing corpus and benchmarks. And enforce LLM to produce the caption of each input modality against the gold caption。

3.2 Decoding-side Instruction-following Alignment

  • 背景:现有的Diffusion Model 大多采用 textual token inputs 作为condition 。
  • 目标:minimizing the distance between the LLM's modal signal token representations (after each Transformer-based project layer) and the conditional text representations of the diffusion models。

4. Modality-switching Instruction Tuning

尽管讲输入和输出都对齐到了LLM的Embedding 空间,但是为了让模型能够生成用户想要的模态的输出,还要进行指令微调。这需要对整个MM-LLM模型采用 (INPUT, OUTPUT) 对进行训练。采用LoRA对一NeXT-GPT的小部分参数进行更新,同时,Projection 模块也需要有两层也需要进行更新。

为此,作者还构建了一个 Modality-switching Instruction Tuning (MosIT) 数据集。

这一部分开的还不是很明白,暂时略过。

5. Limitation and Future work

  1. 模态与任务扩展: 扩展到更多的模态(例如,网页、3D 视觉、热图、表格和图表)和任务(例如,对象检测、分割、定位和跟踪);

  2. 考虑更多基座 LLM: 整合不同大小的 LLM,以及其他 LLM 类型。

  3. 多模态生成策略: 目前版本的 NExT-GPT 系统仅考虑了基于扩散模型的纯输出方式的多模态输出。然而生成模式容易输出错误幻想内容(Hallucination),并且输出内容的质量往往容易受到扩散模型能力的限制。因此,进一步提升扩散模型的性能很关键,这能直接帮助提高多模态内容的输出质量。另外,实际上可以整合基于检索的方法来补充基于生成的过程的弊端,从而提升整体系统的输出可靠性。

  4. MosIT 数据集扩展:目前 NExT-GPT 所使用的 MosIT 数据集规模受限,这也会限制其与用户的交互表现。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。(这个实际使用确实遇到了这种问题,模型在提供很明确的生成图片或者音频的指令情况下无法执行生成任务,只会输出一句话)

相关推荐
AIGC小火龙果12 小时前
OpenAI的开源王牌:gpt-oss上手指南与深度解析
人工智能·经验分享·gpt·搜索引擎·aigc·ai编程
*星星之火*14 小时前
【GPT入门】第66 课 llamaIndex调用远程llm模型与embedding模型的方法
gpt·embedding
golang学习记14 小时前
Claude Code 平替:OpenAI发布 Codex CLI ,GPT-5 国内直接使用
gpt
z千鑫14 小时前
【OpenAI】性价比极高的轻量级多模态模型GPT-4.1-mini介绍 + API KEY的使用教程!
人工智能·gpt·ai·语言模型·chatgpt
张较瘦_15 小时前
[论文阅读] 人工智能 + 软件工程 | 大模型破局跨平台测试!LLMRR让iOS/安卓/鸿蒙脚本无缝迁移
论文阅读·人工智能·ios
闲看云起1 天前
从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型
gpt·架构·llama
北京地铁1号线1 天前
GPT(Generative Pre-trained Transformer)模型架构与损失函数介绍
gpt·深度学习·transformer
Matrix_111 天前
论文阅读:VGGT Visual Geometry Grounded Transformer
论文阅读·计算摄影
CV-杨帆1 天前
论文阅读:ICLR 2021 BAG OF TRICKS FOR ADVERSARIAL TRAINING
论文阅读
*星星之火*1 天前
【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题
gpt