统一多模态基础模型：发展、架构与挑战的全面综述

传送锚点

- [1. 引言](#1. 引言)
- [2. 统一多模态基础模型的演进与定义](#2. 统一多模态基础模型的演进与定义)
- - [2.1. 演进历程](#2.1. 演进历程)
  - [2.2. 形式化定义](#2.2. 形式化定义)
- [3. 核心建模范式](#3. 核心建模范式)
- - [3.1. 外部专家集成建模](#3.1. 外部专家集成建模)
  - [3.2. 模块化联合建模](#3.2. 模块化联合建模)
  - - [3.2.1. 提示词媒介建模](#3.2.1. 提示词媒介建模)
    - [3.2.2. 表征媒介建模](#3.2.2. 表征媒介建模)
  - [3.3. 端到端统一建模](#3.3. 端到端统一建模)
  - - [3.3.1. 自回归建模](#3.3.1. 自回归建模)
    - [3.3.2. 扩散建模](#3.3.2. 扩散建模)
    - [3.3.3. 自回归-扩散混合建模](#3.3.3. 自回归-扩散混合建模)
    - [3.3.4. 其他架构](#3.3.4. 其他架构)
- [4. 关键技术组件：编码与解码](#4. 关键技术组件：编码与解码)
- - [4.1. 编码策略](#4.1. 编码策略)
  - - [4.1.1. 连续表示](#4.1.1. 连续表示)
    - [4.1.2. 离散表示](#4.1.2. 离散表示)
    - [4.1.3. 混合表示](#4.1.3. 混合表示)
  - [4.2. 解码策略](#4.2. 解码策略)
  - - [4.2.1. 连续表示解码](#4.2.1. 连续表示解码)
    - [4.2.2. 离散表示解码](#4.2.2. 离散表示解码)
    - [4.2.3. 视频与音频解码的特殊性](#4.2.3. 视频与音频解码的特殊性)
- [5. 训练与微调策略](#5. 训练与微调策略)
- - [5.1. 预训练](#5.1. 预训练)
  - - [5.1.1. 编码器-解码器的构建](#5.1.1. 编码器-解码器的构建)
    - [5.1.2. 对齐模块的构建](#5.1.2. 对齐模块的构建)
    - [5.1.3. 骨干网络的构建](#5.1.3. 骨干网络的构建)
  - [5.2. 微调](#5.2. 微调)
  - - [5.2.1. 监督微调 (Supervised Fine-tuning, SFT)](#5.2.1. 监督微调 (Supervised Fine-tuning, SFT))
    - [5.2.2. 对齐微调 (Alignment Fine-tuning, AFT)](#5.2.2. 对齐微调 (Alignment Fine-tuning, AFT))
- [6. 核心挑战与未来展望](#6. 核心挑战与未来展望)
- - [6.1. 挑战一：数据工程](#6.1. 挑战一：数据工程)
  - [6.2. 挑战二：评估基准](#6.2. 挑战二：评估基准)
  - [6.3. 未来研究方向](#6.3. 未来研究方向)
- [7. 结论](#7. 结论)

1. 引言

统一多模态基础模型（Unified Foundation Models, UFM）正站在人工智能研究的最前沿，代表着构建更通用、更强大人工智能系统的核心方向。物理学家理查德·费曼曾言："我无法创造之物，亦无法理解之（What I cannot create, I do not understand）。"这句名言深刻揭示了"理解"与"创造"之间不可分割的协同关系，并为人工智能的发展提供了核心指导原则。这种向统一化的迈进并非简单的增量式进步，它代表着一场范式转移------从过去十年碎片化、专业化的模型，转向一种更全面、更整合的机器智能愿景，以此模拟人类认知本身的多面性。在技术层面，统一模型的内在动机和不可替代的价值主要体现在两个方面。

首先，理解与生成能力相互促进。深度理解是实现可控、高质量生成的基础。例如，要生成"一个表面反射着燃烧森林的水晶玻璃国际象棋棋子"，模型必须首先精确理解"水晶般透明"、"玻璃材质"和"反射"等概念及其背后的物理与艺术约束。反之，生成能力也是复杂推理不可或缺的一部分，例如在解决几何问题时绘制辅助线，或通过"生成图像来思考"以增强空间推理能力。这种反馈循环使得统一模型能够深化其认知与推理，这是仅专注于单一能力的模型所不具备的。

其次，统一模型是应对高难度现实世界任务的必然选择。许多现实世界的复杂任务，如根据剧本生成一部短片，要求模型能同时理解叙事结构、视觉语义和时间动态，并在此基础上迭代生成连贯的场景。这类任务本质上要求理解与生成能力的无缝协作。因此，构建一个能够同时处理感知和创造的统一模型，不仅是技术上的追求，更是迈向更通用人工智能的必经之路。

本综述将全面回顾统一多模态基础模型的发展。我们将首先追溯其演进历程并提供一个严谨的形式化定义。随后，我们将系统性地剖析其核心建模范式与关键技术组件，并深入探讨模型的训练与微调策略。最后，我们将分析当前该领域面临的核心挑战，并对未来的研究方向进行展望。

2. 统一多模态基础模型的演进与定义

本章旨在追溯统一多模态基础模型（UFM）的演进脉络，并为其提供一个严谨的学术定义，从而为后续的技术讨论奠定坚实的概念基础。通过梳理其发展阶段和明确其核心特征，我们可以更清晰地理解这一前沿领域的研究边界与目标。

2.1. 演进历程

统一多模态模型的发展并非一蹴而就，而是经历了一个从孤立到组合，并最终迈向能力涌现的演进过程。其历程可被理解为以下三个独特阶段：

第一阶段：特定能力阶段 (Specific Stage) 此阶段的显著特点是模型能力的"孤立专业化"。理解模型（如图像字幕生成、动作识别）与生成模型（如文本到图像生成、图像修复）作为独立的实体被分开研究和训练。它们各自在特定任务上表现出色，但彼此之间缺乏有效的协同机制，无法共同完成需要综合能力的任务。
第二阶段：组合能力阶段 (Combine Stage) 随着技术的发展，模型开始进入能力组合阶段。在这一阶段，模型能够结合理解与生成能力，以应对更复杂的任务。例如，"视觉标注驱动的理解"（通过绘制辅助线来更好地理解几何问题）和"基于知识的图像生成"（根据现实世界背景信息创作图像），都体现了两种能力的初步融合。这种组合使模型能够执行超越单一功能的复合型任务。
第三阶段：涌现能力阶段 (Emergent Stage) 此阶段目前仍是一个未来的愿景，其核心是实现"交错推理（Interleaved Reasoning）"能力，即在解决一个复杂问题的过程中，能够灵活地交替使用理解和生成能力。这类任务的难度极高，例如"基于脚本的多模态电影生成"（模型需完整理解剧本并生成对应的电影片段）和"基于图像的空间迷宫导航"（模型需利用视觉信息进行路径推理）。目前，尚无任何模型能完全实现这一阶段所描绘的复杂能力。

2.2. 形式化定义

尽管统一基础模型已取得显著进展，但学术界对其确切定义仍存在模糊之处。为了构建一个严谨的研究框架，我们有必要为其建立一个清晰的形式化定义。

首先，我们定义两种基础的任务集合：

理解任务集 (TU): 包含所有理解类任务的集合，如图像分类、目标检测、视频问答等。
生成任务集 (TG): 包含所有生成类任务的集合，如文本到图像生成、视频编辑、语音合成等。

需要强调的是，TU 和 TG 均为开放集，意味着随着研究的深入，新的任务类型可以被不断地补充进来。

在此基础上，我们引入统一任务集 (UniSet) 的概念。一个任务集若要被称为 UniSet，它必须同时包含至少一个理解任务和一个生成任务。所有合格的 UniSet 的集合，我们称之为 PowerUniSet。形式上，PowerUniSet 是 TU ∪ TG 的幂集，从中减去 TU 的幂集和 TG 的幂集。这个数学定义确保了 PowerUniSet 中的任何任务集 I 都必须同时包含至少一个理解任务和一个生成任务，从而排除了那些仅由单一类型任务构成的集合。

最后，我们可以精确地陈述统一多模 μπορεί基础模型（UFM） 的形式化定义：

一个模型被称为统一基础模型（UFM），当且仅当它能够处理一个属于 PowerUniSet 的任务集 I。该任务集 I 的广度（即 |I| 的大小）决定了模型统一能力的强弱。一个更强大的UFM能够覆盖更广泛、更多样的理解与生成任务。

通过对UFM的演进和定义的梳理，我们为其理论框架奠定了基础。接下来，我们将深入探讨实现这些模型的具体架构范式。

3. 核心建模范式

当前，实现统一多模态基础模型（UFM）的研究主要遵循三种主流的建模范式：外部专家集成建模、模块化联合建模和端到端统一建模。每种范式在架构设计、资源需求和能力边界上都有其独特的权衡。理解这些范式的差异对于评估其技术优劣和选择合适的应用场景至关重要。本章将对这三种范式进行系统性的剖析。

3.1. 外部专家集成建模

此范式的核心思想是将一个强大的大型语言模型（LLM）作为中央控制器或"大脑"，通过规划、调度和调用一系列外部的、预训练好的专业模型（如图像识别、语音生成、视频理解等）来协同完成复杂的多模态任务。

其典型工作流程可分为三个步骤：

任务规划与调度：LLM首先解析用户的多模态指令，将其分解为一系列可执行的子任务，并确定调用哪些外部专家模型以及它们的执行顺序。
任务执行：LLM生成结构化的控制指令（通常是自然语言提示），依次调用选定的外部模型来执行相应的子任务。
响应后处理与集成：LLM收集所有外部模型的执行结果，进行整合、提炼，并最终生成一个统一、连贯的响应给用户。

这一范式的代表性工作包括 Visual ChatGPT、HuggingGPT 和 AudioGPT。例如，HuggingGPT 利用LLM连接HuggingFace社区中的海量模型，动态地解决复杂AI任务，展示了极强的灵活性和可扩展性。

3.2. 模块化联合建模

模块化联合建模是一种介于完全集成和完全统一之间的折衷方案。它通常由一个核心的语言模型和一个或多个独立的生成模块组成，二者通过特定的"媒介"连接，协同工作。根据媒介的不同，该范式可进一步分为两种技术路线。

3.2.1. 提示词媒介建模

这种方法以自然语言提示词作为连接LLM与外部生成模块的桥梁。LLM负责理解用户意图，并生成一段详细的、结构化的文本描述，这段描述随后被用作提示词来驱动一个独立的生成模型（如Stable Diffusion）完成图像或音频的生成。

例如，M2-Omni 在处理图像生成任务时，就是通过其LLM核心生成精确的自然语言描述，再调用Stable Diffusion来创建最终的视觉内容。

优点：架构简单，耦合度低，易于扩展和维护。由于中间媒介是可读的自然语言，因此模型的可解释性和可控性较好。
缺点：生成质量严重受限于语言表达的精确性。语言的抽象性和模糊性使其难以传递精细的结构或序列信息，因此不适用于需要精细控制的生成任务。

3.2.2. 表征媒介建模

为了克服自然语言在信息传递上的局限性，该方法使用中间特征表征（如连续的向量或离散的查询）作为连接LLM和生成模块的媒介。这种表征比文本更密集，能够传递更丰富的语义和结构信息。实现方式包括将多模态输入编码为"连续输入"特征，或采用"基于查询的组合"机制来高效聚合生成所需的条件特征。

优点：信息密度高，能够更精确地传递细节，从而实现更高质量和更强可控性的生成。通过与外部生成模块进行联合训练，可以进一步提升性能。
缺点：需要额外的计算开销来训练和对齐中间特征，工程实现的复杂性更高。如果特征对齐不佳，可能会显著影响最终的生成质量。

3.3. 端到端统一建模

端到端统一建模是实现通用人工智能的理想路径之一，其目标是通过一个单一的、无缝的架构来处理所有理解和生成任务。这种许多研究人员追求的终极方法，高度依赖于精密的编码与解码策略，以将所有模态统一到共享的表征空间中。选择离散分词（允许与自回归LLM原生集成）还是连续表征（通常与扩散机制配对），构成了基础的架构决策，我们将在下一章详细探讨。该范式不再依赖外部独立的模块，而是将所有能力内化于一个统一的参数空间中。

3.3.1. 自回归建模

这是最主流且最成熟的端到端统一建模方法。其核心思想是将所有模态（文本、图像、音频等）的输入数据都编码为统一的离散token序列，然后采用自回归机制（即逐个token预测）来生成输出序列。

关键技术流派：
- 因果掩码建模 (Causal Masked Modeling) ：以CM3为代表，其关键创新在于通过将序列的掩码部分移至末尾，在自回归框架内巧妙地模拟了掩码效果。这使得模型能够将通常与BERT式模型相关的双向上下文信息融入生成式的自回归过程中，从而增强其理解能力。其后续工作CM3Leon则采用了一种两阶段训练策略：首先进行大规模的检索增强预训练，然后进行多任务监督微调。
- 早期融合 (Early Fusion) ：以Chameleon为代表，在模型早期阶段就将不同模态的信息投射到共享的表示空间，以促进深度融合。
- 下一尺度预测 (Next Scale Prediction) ：以VARGPT为代表，受视觉自回归模型VAR的启发，探索了新的统一生成范式。
优点：架构简洁，与主流LLM范式天然对齐，无需复杂的辅助模块，具有很强的可扩展性。

3.3.2. 扩散建模

此方法将强大的扩散模型集成到统一框架中，通过逐步去噪的过程来生成高质量的多模态内容。技术路线上可分为处理连续特征的"连续扩散"和处理离散token的"离散扩散"。

优点：生成质量极高，能够产生丰富、逼真的细节。
缺点：推理速度较慢，因为它需要多步迭代去噪。相比之下，其多模态理解能力通常弱于自回归模型。

3.3.3. 自回归-扩散混合建模

该范式旨在结合自回归模型强大的序列建模、理解能力与扩散模型卓越的生成质量。代表作包括采用连续扩散的Transfusion和采用离散扩散的Show-o。为了优化混合架构，一些工作如LMFusion还引入了"专家混合（Mixture-of-Experts, MoE）"架构，为不同模态或任务分配专门的子网络，以减少任务间的干扰。

3.3.4. 其他架构

除了上述主流架构，研究者们也在探索其他可能性：

编码器-解码器Transformer (Encoder-Decoder Transformer) ：以Unified-IO系列为代表，采用经典的序列到序列架构，将所有任务统一为"输入序列到输出序列"的格式。
状态空间模型 (State Space Models) ：以OmniMamba为代表，利用Mamba等新兴架构替代Transformer，在处理长序列时具有更高的效率。
图结构 (Graph Structures) ：以GraphGPT-o为代表，将多模态输入表示为图结构，以更好地捕捉跨模态实体间的复杂关系。

在系统了解了宏观的建模范式后，下一章我们将深入探讨构成这些模型的具体技术组件，即多模态数据的编码与解码策略。

4. 关键技术组件：编码与解码

编码（Encoding）和解码（Decoding）是统一多模态基础模型（UFM）处理和生成多模态数据的两个核心环节。编码负责将来自不同模态的原始输入（如图像、视频）转换为模型能够处理的内部表示，而解码则执行相反的过程，将模型的内部表示转换回人类可感知的模态数据。本章将详细剖析不同模态数据的连续、离散及混合表示方法，以及与之相对应的解码策略。

4.1. 编码策略

编码策略的目标是将多模态输入数据映射到统一的特征空间。根据内部表示的类型，这些策略可被大致归类为三种类型：连续表示、离散表示和混合表示。

4.1.1. 连续表示

连续表示将输入数据映射到一个连续的向量空间。以图像编码为例，主流范式有三种：

基于VAE的范式 (VAE-Based)：利用变分自编码器（VAE）的编码器将图像压缩成一个连续的潜在向量。这种方法能够以较高的压缩率保留图像的全局结构和低频信息，但可能在语义抽象方面有所欠缺。
基于CLIP ViT的范式 (CLIP ViT-Based)：直接使用预训练好的CLIP视觉Transformer（ViT）作为特征提取器。由于CLIP在大规模图文数据上进行了对比学习训练，其提取的特征与文本语义高度对齐，富含高层语义信息，但可能丢失了图像的精细细节。
基于Q-Former的范式 (Q-Former-Based)：采用一个轻量级的查询Transformer（Q-Former）作为适配器，通过少量可学习的查询向量来"提炼"和压缩来自预训练视觉编码器的特征。这种方法在语义抽象和信息压缩之间取得了很好的平衡。

4.1.2. 离散表示

离散表示通过矢量量化（Vector Quantization, VQ）等技术，将连续的特征映射到一个预定义的码本（codebook）中，从而将输入数据转换为一个离散的token序列。这种离散化的主要动机在于创建一个统一的表征格式。通过将图像等连续数据转换为离散的token序列，它们在结构上变得与文本无法区分，从而允许像Transformer这样强大的、为文本而生的架构能够在一个统一、一致的框架内处理和生成它们。

主流范式 ：主要基于VQ-VAE、VQ-GAN及其变体，如采用多通道量化的MoVQ。这些方法通过训练一个编码器-解码器对和一个码本来实现离散化。
核心权衡 ：离散表示同样面临在重建保真度和语义抽象之间的权衡。为像素级重建优化的token通常缺乏高层语义，而富含语义的token又可能丢失细节。

4.1.3. 混合表示

为了结合连续与离散表示的优点，混合编码策略应运而生。这类策略通常采用"级联"或"双分支"架构，同时提取用于理解任务的语义特征（连续）和用于生成任务的细节特征（离散），以期在单一模型中实现两种能力的最佳平衡。

4.2. 解码策略

解码策略与编码策略相辅相成，负责将模型的内部表示转换回原始模态。解码器的选择和设计直接决定了生成内容的质量。与编码策略相对应，解码策略也分为连续、离散和混合三种类型。

4.2.1. 连续表示解码

当模型的内部表示是连续特征时，解码通常依赖于一个强大的生成器。

外部预训练生成器 ：最常见的方法是利用外部预训练好的扩散模型，如Stable Diffusion用于图像生成，或AudioLDM用于音频生成。模型的连续特征输出被用作这些生成器的条件输入。
内部集成扩散机制：一些模型在自身架构内集成了扩散模块，直接在模型内部完成从连续特征到最终输出的去噪生成过程。

4.2.2. 离散表示解码

当模型的内部表示是离散token序列时，解码器通常是与编码器配对的VQ-VAE解码器。LLM首先自回归地生成token序列，然后该解码器负责将这些token重建为像素级的图像或波形级的音频。

4.2.3. 视频与音频解码的特殊性

视频解码 ：视频生成不仅要保证单帧图像的质量，还必须处理帧与帧之间的时序一致性。一些模型如BAGEL采用"同步去噪"机制，同时对视频中的多个帧进行去噪，以增强时间上的连贯性。
音频解码 ：音频解码通常在梅尔频谱图上进行，然后需要一个专门的声码器（vocoder），如HiFi-GAN，将频谱图转换为最终的音频波形。

在剖析了编码与解码的技术机制------即在原始数据和模型的内部语言之间进行转换的过程------之后，我们必须审视这些机制是如何被学习的。下一章将深入探讨赋予模型掌握这些复杂表征和转换能力的训练与微调策略。

5. 训练与微调策略

训练与微调是赋予统一多模态基础模型（UFM）强大能力的关键过程，它将模型架构与海量数据相结合，塑造其理解与生成的核心功能。本章将首先解构UFM预训练阶段的模块化构建范式，然后系统阐述用于优化模型性能的两种核心路径：监督微调（SFT）和对齐微调（AFT）。

5.1. 预训练

UFM的预训练过程通常被解构为三个核心模块的构建。这种模块化的方法有助于稳定训练过程并有效利用现有的预训练资源。

5.1.1. 编码器-解码器的构建

编码器和解码器是模型与多模态世界交互的接口，其构建范式分为两类：

解耦训练 (Decoupled Training)：编码器和解码器被独立构建或训练。在解耦训练范式中，编码器通常是一个预训练好的、冻结的特征提取器，如CLIP ViT。模型仅学习一个轻量级的"特征适配"模块------例如一个简单的线性投影层或更复杂的适配器（如Q-Former）------来将视觉特征与语言模型的输入空间对齐。类似地，解码器可能是一个预训练的、现成的扩散模型，如Stable Diffusion，它不与核心模型联合训练。这种方式灵活且高效，但可能存在语义鸿沟。
耦合训练 (Coupled Training) ：编码器和解码器通过一个共同的目标（如重建损失）进行联合训练。这包括经典的VAE系列自编码器和更先进的多模态分词器（如SEED的分词器）。这种方式确保了编解码之间的高度一致性，但训练成本更高。

5.1.2. 对齐模块的构建

对齐模块是连接不同组件（如视觉编码器和LLM骨干网络）的桥梁，负责将一个模块的输出特征映射到另一个模块能够理解的语义空间。其实现方式多样：

Q-Former：一种轻量级的查询Transformer，通过少量可学习的查询向量高效地从视觉特征中提取与文本相关的语义信息。
线性投影层：最简单直接的方式，通过一个或多个线性层进行特征维度和空间的映射。
专用适配器：针对特定任务或模态设计的更复杂的网络结构，以实现更精细的对齐。

5.1.3. 骨干网络的构建

骨干网络是UFM的核心，负责处理和生成统一的序列表示。其发展脉络清晰：

早期探索 ：采用经典的序列到序列（Seq2Seq）架构，如OFA。
主流范式：当前主流是基于大型语言模型（LLM）的架构，主要分为两大流派：
- 基于LLM的自回归范式 ：直接利用预训练LLM强大的序列建模能力，通过自回归方式统一处理和生成多模态token序列。
- 基于扩散的范式：将扩散模型的去噪过程集成到骨干网络中，以实现高质量的生成。

5.2. 微调

预训练赋予了模型通用的基础能力，而微调则是在特定任务或指令数据上对模型进行优化，使其输出更精确、更有用。

5.2.1. 监督微调 (Supervised Fine-tuning, SFT)

SFT使用高质量的"指令-响应"对数据来教导模型如何遵循指令。根据数据和优化策略的不同，可分为两种：

通用任务微调 (General-task Fine-tuning)：在包含多种理解和生成任务的混合指令数据上进行统一优化。
- 优点：简化了训练流程，能协同提升模型的综合能力。
- 缺点：不同任务的优化目标可能存在冲突，导致模型在任何单一任务上都无法达到最佳性能，且可能发生"灾难性遗忘"。
多任务微调 (Multi-task Fine-tuning)：针对特定的任务子集、领域或模态，进行独立或分阶段的优化。
- 优点：可以为不同任务设计专门的优化策略，有效缓解任务间冲突，在特定任务上性能更优。
- 缺点：实现过程更复杂，需要更多的工程投入和专业知识。

随着高质量统一任务数据集的出现，通用任务微调已成为构建基础UFM的主流策略，而多任务微调则更多用于将模型适配到专门的下游应用中。

5.2.2. 对齐微调 (Alignment Fine-tuning, AFT)

对齐微调的目标是使模型的输出更符合人类的偏好、价值观和安全准则。为避免术语混淆，本综述使用"对齐微调"特指基于人类偏好信号的优化，以区别于更宽泛的"后训练（post-training）"。

核心策略：
- 直接偏好优化 (Direct Preference Optimization, DPO)：通过一个包含"更优"和"更差"响应的偏好数据集，直接优化语言模型，使其倾向于生成更优的响应，而无需显式训练一个奖励模型。
- 组相对策略优化 (Group Relative Policy Optimization, GRPO)：作为DPO的一种显著替代方案，GRPO是一种强化学习策略，它直接优化策略而无需一个独立的、同等大小的评论家模型。它的运作方式是，将当前策略下响应的似然度与参考策略进行比较，并根据优势分数进行加权，同时使用一个裁剪函数（如PPO中所示）来防止过大的策略更新并稳定训练。
核心挑战 ：将偏好对齐应用于UFM时，最大的挑战在于设计一个能够同时准确捕捉并平衡理解任务的正确性 和生成任务的质量/创意性偏好的奖励模型或优化目标。这是未来研究的一个重点方向。

在训练和微调的每一步中，数据都扮演着至关重要的角色。下一章将深入探讨支撑整个流程的数据工程。

6. 核心挑战与未来展望

尽管统一多模态基础模型（UFM）已经取得了令人瞩目的进展，但其在通往更通用人工智能的道路上仍面临着数据工程、评估体系和前沿研究方向等多方面的挑战。本章将深入探讨这些关键挑战，并对未来的发展趋势进行展望。

6.1. 挑战一：数据工程

高质量的数据是训练强大UFM的基石。数据工程涉及数据来源、过滤和构建的全过程，每个环节都充满挑战。

数据来源：UFM的训练数据主要来自以下四种渠道：
- 现有公共数据集：如COCO、LAION等。优点是易于获取、有标准基线；缺点是规模和多样性有限，可能无法满足特定需求。
- 网络爬取数据：规模巨大，多样性丰富。但数据质量参差不齐，充满噪声，且存在版权和隐私风险。
- 内部专有数据：大型科技公司拥有海量的专有数据（如社交媒体内容）。质量和规模优势明显，但具有封闭性，无法为社区共享。
- 合成数据：利用大模型生成。优点是可控性强、成本相对较低；缺点是质量受限于生成模型的能力，可能引入或放大偏见，存在"模型喂养模型"的风险。例如，LLaVA数据集利用GPT-4从COCO图像标题中生成复杂的指令对话，而ShareGPT-4o-Image则包含完全由GPT-4o合成的图像。
数据过滤：从海量原始数据中筛选出高质量的训练样本至关重要，主要方法包括：
- 基于数据属性的启发式过滤：根据文本长度、图像分辨率、长宽比等基本属性进行规则过滤和去重。
- 基于模态相关性的过滤：使用CLIP等模型计算图文对的相似度（如CLIP-Score），剔除相关性低的样本，确保模态间的语义对齐。
- 内容安全与合规性过滤：利用分类器或关键词匹配移除不安全内容（NSFW）、仇恨言论，并筛查个人身份信息（PII）和版权材料，确保数据的安全与合规。
数据构建：为了满足SFT和AFT的需求，需要构建高质量的指令数据，主要方法有：
- 已有数据集的转换：将现有的标注数据集（如VQA、字幕数据集）转换为"指令-响应"格式。
- 利用大模型生成：使用GPT-4o等强大的模型，根据给定的图像或标签生成多样化的对话、推理问题或生成指令。
- 人工标注：质量最高，最符合人类偏好，但成本极高，规模受限，通常用作高质量的种子数据或评测基准。

6.2. 挑战二：评估基准

建立全面、可靠的评估基准是衡量模型能力、指导技术迭代的"标尺"。随着UFM能力的扩展，评估维度也日益复杂，需要覆盖从基础感知到复杂推理，从内容生成到人机对齐的各个方面。

以下表格系统性地总结了当前UFM领域的各类评测基准：

6.3. 未来研究方向

展望未来，UFM的发展将在以下几个关键方向上寻求突破：

架构创新：专家混合（MoE）的应用 MoE架构在LLM中已证明其在提升效率和性能方面的巨大潜力。在UFM中，当前MoE的应用大多采用固定的路由策略（如为不同模态分配不同专家）。未来的研究将探索更深层次的融合，例如动态路由、跨模态专家共享，甚至在单一模态内部分化出不同功能的专家，以实现更精细、高效的计算资源分配。
统一分词器（Unified Tokenizer）的演进 为UFM设计专用的分词器至关重要。一个理想的统一分词器需要在"语义抽象"和"细节保真度"之间取得精妙平衡。它既要能为理解任务提供高度概括的语义token，也要能为生成任务提供足以重建高质量图像或视频的细节token。未来的探索将集中于如何设计和训练这样的分词器，以支撑更强大的统一模型。
交错推理与数据构建 实现复杂的交错推理（Interleaved Reasoning）是UFM的终极目标之一，但这极度依赖于高质量的交错式多模态指令数据。目前，手动标注此类数据的成本极高，而模型合成的质量又难以保证。因此，开发高精度的可控生成技术，以低成本、大规模地构建用于训练交错推理能力的数据集，将是解锁UFM更高层智能的关键瓶颈和研究热点。
双重任务的偏好对齐 当前的人类偏好对齐技术（如DPO）主要针对生成任务。如何为UFM设计一个能够同时评估和优化"理解的正确性"与"生成的质量/创意性"的奖励模型和对齐算法，是一个核心挑战。未来的研究需要探索新的方法论，以确保模型在变得更有用、更安全的同时，不会牺牲其在理解任务上的准确性。
全面的评估协议 现有的评估指标各有局限：基于准确率的指标无法评估推理过程的有效性，而"以模型为评委"（MLLM-as-Judge）的方法又会引入评委模型自身的偏见。未来，可能需要建立一种混合评估协议，例如，使用MLLM-as-Judge来评估模型生成的中间步骤（如规划的合理性），同时使用客观、基于规则的指标来评估最终输出的准确性，从而实现更全面、公正的模型能力评估。

7. 结论

统一多模态基础模型（UFM）正迅速成为人工智能领域最具活力的前沿之一，其核心驱动力在于通过融合"理解"与"生成"这两种基本智能，构建更接近通用人工智能的系统。本综述全面回顾了UFM的发展态势，从其演进历程、核心定义，到三大主流建模范式------外部专家集成、模块化联合与端到端统一------的演进趋势。我们看到，该领域正从依赖外部工具的松散集成，逐步向单一模型内实现无缝统一的终极目标迈进。

展望未来，数据工程的创新、全面评估体系的建立以及模型架构（如专家混合、统一分词器）的突破，将是驱动该领域持续发展的核心动力。与此同时，实现复杂的交错推理能力和为双重任务设计有效的偏好对齐算法，仍是亟待解决的关键挑战。最终，对UFM的追求不仅仅是一项技术挑战，它更是对机器真正"理解"和"创造"意味着什么这一根本问题的直接探索。随着这些模型的演进，它们不仅将重新定义人工智能的边界，也将成为我们审视智能本质的一面强有力的全新透镜。