AIGC各个应用场景下的模型选择

需要注意的是，下述模型可以在不同任务和领域中灵活应用，它们的归属也会根据模型的设计和主要应用领域而有所变化，并不绝对。

自然语言处理模型

模型层中自然语言理解(Natural LanguageUnderstanding，NLU)和自然语言生成(NaturalLanguage Generation，NLG)是自然语言处理(NatureLanguage Processing，NLP)中的两个关键领域

以下模型属于NLU
- Transformer：Transformer模型是一种深度学习模型架构，主要用于处理序列数据，核心思想是利用自注意力机制(Self-Attention)来捕获输入序列中的全局依赖关系。Transformer模型的设计使其在处理长序列和捕捉长距离依赖关系方面具有优势，并且由于其擅长并行处理，它能够更有效地利用硬件资源，从而加速模型训练。Transformer作为目前广泛应用于自然语言处理任务的模型，通常用于机器翻译、文本分类等方面。
- BERT：BERT全称为Bidirectional EncoderRepresentations from Transformers，即基于Transformer的双向编码器表示，是由Google在2018年提出的一种自然语言处理模型。它的主要创新之处在于使用了Transformer的双向编码器，这使得BERT能够对输入文本进行全面的理解，从而在许多NLP任务中取得了显著的改进。BERT作为一种预训练的语言模型，通常用于处理自然语言理解任务，如语义理解、命名实体识别等方面的任务。
以下模型属于NLG
- 基于流的生成模型(Flow-Based Model)：这个模型的基本思想是，将一个简单的概率分布（如高斯分布）通过一系列可逆的变换（也称为"流"）映射到一个复杂的概率分布。这些变换是经过特别设计的，以便计算它们的雅可比行列式，从而能够高效地计算目标分布的概率密度和采样。基于流的生成模型的主要优点是它们能够同时进行精确的密度估计和高效的采样，这使得它们在生成任务中特别有用，基于流的生成模型可以生成具有多样性的文本。
- 基于预训练的生成式Transformer模型(GenerativePretrained Transformer，GPT)：由OpenAI开发，主要用于各种自然语言理解和生成任务。GPT模型采用了Transformer的架构，并对其进行了预训练，使其能够在没有标签的大规模文本数据上进行无监督学习。这种预训练方法可以帮助模型学习到丰富的语言表示，从而在微调阶段可以更好地适应各种下游任务（指其后续进行的如文本分类、情感分析、命名实体识别、机器翻译等任务）。作为一种常用的预训练的生成式语言模型，GPT一般用于生成自然语言文本，如对话系统、文章生成等。
- 生成式语言模型(Generative Language Model，GLM)：是一种广义语言模型，它是在GPT模型基础上的扩展。在中文环境中，该模型常常直接用英文缩写GLM表示，而不进行翻译。它的主要特性是在处理语言生成任务时，不仅仅考虑上文的信息（也就是在当前位置之前的词），还要考虑下文的信息（也就是在当前位置之后的词）。这种特性有助于较好地理解和生成语言，因为在很多情况下，一个词的含义是由它的上下文共同决定的。这种在处理语言生成任务时同时考虑上下文的方法，也被用在了其他的模型中，如BERT模型。然而，不同于BERT使用了双向的Transformer编码器来实现这个目标，GLM是通过在训练过程中使用掩码机制(Masking Mechanism)来实现的，这使得GLM不需要额外的解码过程，可以直接生成语言。GLM作为一种生成模型，作用是生成自然语言文本，主要用于自然语言生成任务。

图像生成模型

生成对抗网络(GAN)：深度学习领域的一个重要概念，由伊恩•古德费洛等人于2014年首次提出。GAN的基本思想是通过对抗性的过程来生成数据。GAN由两部分组成：一个是生成器(Generator)，另一个是判别器(Discriminator)。在训练过程中，生成器和判别器会博弈：生成器试图生成越来越逼真的假数据以欺骗判别器，而判别器则试图变得越来越擅长区分真假数据。通过这种博弈，GAN最终能够生成与真实数据非常接近的假数据。GAN在各种应用中展示了其强大的能力，包括图像生成、图像超分辨率、图像到图像的转换、语音生成等。在图像生成模型中，GAN是一类用于生成逼真图像的模型，包括DC-GAN、PG-GAN、Style-GAN等。
扩散模型(Diffusion Model)：深度学习领域的一种扩散型的生成模型，核心思想是将数据生成过程视为一种从一个已知的简单分布（如高斯分布）向目标数据分布转变的扩散过程。它的一个关键步骤是定义一系列的转换，这些转换将简单分布逐渐"扭曲"成目标分布。在生成新的数据点时，模型首先从简单分布中抽取一个样本，然后将这个样本通过一系列的转换，逐渐变形为一个新的数据点。扩散模型已经在多种任务中表现出了强大的性能，包括在图像生成、语音生成等任务中。
变分自编码器模型(VAE)：一种深度学习模型，在自编码器(AutoEncoder)的基础上，引入了概率编程和变分推断的思想，其目标是学习数据的潜在分布，然后从这个分布中采样生成新的数据，具有类似于输入数据的特征。VAE主要用于生成任务，不过它在许多任务中具有广泛的应用，包括数据生成、图像生成、图像插值、数据降维和特征学习等，在探索数据的潜在结构和生成新的样本方面提供了有效的方式。

音频生成模型

WaveGAN：WaveGAN是一种基于GAN的模型，用于生成逼真的音频波形。
WaveNet：WaveNet是一种基于深度卷积神经网络的模型，可以生成高质量的语音和音乐。
MelGAN：MelGAN是一种基于GAN的模型，用于生成高质量的梅尔频谱特征，然后将其转换为音频波形。
Tacotron 2：Tacotron 2是一种序列到序列(Seq2Seq)的模型，用于将文本转换为逼真的语音。

视频生成模型

VideoGAN：类似于图像生成模型的GAN，但针对视频生成进行了扩展，例如VGAN、MoCoGAN等。
Video Prediction Model：用于预测视频未来帧的模型，可以用于生成连续性视频，如PredNet、ConvLSTM等。

多模态生成模型

对比性语言-图像预训练模型(Contrastive Language-Image Pretraining，CLIP)：OpenAI在2021年推出的一种多模态生成模型，它的设计目标是理解和生成图像和文本之间的关系，这是通过同时训练语言和视觉模型来实现的。在训练过程中，CLIP会从互联网上的大量文本和图像对中学习，目标是确保文本与其对应的图像之间的内积（即它们之间的相似度）尽可能大，而与其他图像或文本的内积尽可能小。
DALL-E：是一个图像生成模型，不过它最擅长根据文本描述生成对应的图像。DALL-E是由OpenAI开发的一个AI模型，它的目标是根据给定的文本描述生成对应的图像。DALL-E是在GPT-3和VQ-VAE-2（用于学习图像的离散表示的生成模型）的基础上训练的。"DALL-E"这个名字来自著名的画家达利，意味着这个模型具有生成图像的能力，并且它的能力是超越了GPT-3文本生成能力的新能力。DALL-E在许多场景中都表现出了强大的性能，包括生成从未存在过的生物、物体，甚至是符合特定风格或主题的图像，使得它在艺术创作、产品设计、动画制作等领域有着广泛的应用潜力。
Multimodal Transformer：一类结合图像和文本的Transformer模型，用于跨模态生成任务。

3D渲染

神经辐射场(Neural Radiance Fields，NeRF)：目前比较难归类，可以归到图像/视频生成模型中，它是一种深度学习方法，用于生成高质量3D场景的建模和渲染。NeRF的目标是从一系列2D图片中学习对一个3D场景的全局表示，然后用这个表示来生成新的2D视图。自从NeRF在2020年被提出以来，它已经在3D建模和渲染的任务中显示出了很高的性能，包括从稀疏的2D图片中重建3D场景，以及生成新的2D视图。