生成式AI、大模型、多模态技术开发与应用学习清单

学习目的：

了解AIGC发展现状与核心技术。
掌握Transformer核心开发技术。
掌握向量数据库的工作原理、检索算法、主要开源数据库。
掌握大模型调用、微调方法。
掌握以GPT大语言模型为基础的工作原理。
掌握AIGC技术在跨模态领域的应用技术。
了解GPT提示工程和AIGC的安全标准。
掌握基于大模型的编程开发技术。
掌握扩散模型核心技术。
掌握 Agent 构建技术。

学习清单：
第一章、

生成式AI技术发展概述

一、AI：从判别决策到创造生成

1.从经典机器学习到深度学习

2.从Transformer到生成模型

二、生成式人工智能模型

1.生成对抗网络GAN

2.可变分自编码器VAE

3.自回归模型Auto-regressive Model

4.扩散模型Diffusion Model

三、AIGC技术及进展

1.AIGC的定义和发展

2.AIGC技术的分类

3.AIGC技术框架

四、大模型

1.从ChatGPT到Sora的技术演进

2.大语言模型

3.视觉大模型

4.多模态大模型

第二章、

AIGC技术在多模态领域的应用

一、AIGC在自然语言处理领域的应用

1.语义理解

2.内容生成

a、公文辅助写作 b、政策分析

c、研报生成 d、风控舆情

3.多轮会话

4.逻辑推理

二、AIGC在视频领域的应用

1.图像识别、检测与生成

2.视频理解与生成

3.3D生成

三、AIGC在视觉和音频生成领域的应用

1.图像生成

2.电影配音

3.智能客服

4.各类场景语音生成

第三章、

Transformer

一、Transformer模型的基本架构

二、Self-Attention机制的原理与计算过程

三、Multi-Head Attention 的设计与作用

四、Positional Encoding的实现方法

五、Rotary Positional Embedding

六、Transformer中的Feed-Forward Networks

七、Layer Normalization的原理

八、Transformer模型中的残差连接

九、Teacher Forcing技术

十、编码器与解码器的结构差异

十一、视觉Transformer

第四章、

大语言模型微调与量化

一、模型微调

1.全量微调FFT

2.部分参数微调PEFT

3.Prompt微调

4.Prefix微调

5.LoRA等微调方法

6.大语言模型微调开发

二、模型量化

1.线性量化

2.非线性量化

3.饱合量化

4.非饱合量化

5.大语言模型微调量化开发

三、实例开发

1.大语言模型微调框架

2.大语言模型微调实例

第五章、

AIGC技术

一、大语言模型技术原理

1.生成模型（扩散模型）

2.深度学习常用算法

3.人类反馈强化学习RLHF

4.典型大语言模型

二、提示工程

1.提示词的基础知识

2.思维链

3.提示词实操：明确具体任务、利用上下文、使用不同的语气、角色扮演、zero shot, one shot, few shot、零样本思维链提示、生成知识提示

三、AIGC的安全

1.内容安全

2.模型安全

3.用户信息安全

四、AIGC技术评价

1.AIGC标准体系

2.AIGC应用层标准

3.AIGC模型层标准

第六章、

AIGC技术的记忆模块（向量数据库）

一、向量数据库概述

1.AIGC技术的记忆模块的功能和作用

2.向量数据库的功能与发展历程

3.各种向量数据库的对比

4.向量数据库发展展望

二、向量数据库技术

1.向量数据库原理

2.向量检索算法

3.向量数据库实操

第七章、

大语言模型 Agent

一、大语言模型开发框架

1.大语言模型开发框架的原理与工作流程

2.大语言模型开发框架的分层结构

3.大语言模型开发框架的模块与库函数

二、Agent

1.Agent 工作原理

2.Agent 模式

3.Agent 开发步骤与工作流程

三、大语言模型 Agent 开发

1.大语言模型与 Agent 结合开发方式

2.大语言模型 Agent 开发实例

3.构建一个智能体

第八章、

扩散模型

一、前向扩散过程

二、反向生成过程

三、网络架构

四、参数化

五、采样方法

六、Stable Diffusion模型

七、Diffusion Transformer模型

第九章、

CLIP

一、CLIP架构

二、对比预训练

三、数据集分类器创建

四、Zero-shot 推理

五、提示词工程与集成

第十章、

VAE

一、Autoencoder

二、VAE模型原理

三、重参化

四、VAE与AE的区别

五、Spacetime Latent Representation

第十一章、

Sora训练

一、Sora 训练流程

二、patchify---视频数据转换为图像块

三、Scaling Transformer生成

四、Latent转换为视频向量

※

开发环境

操作系统：Ubuntu
开发语言：Python
深度学习框架：Pytorch
大语言模型：几种国产开源大语言模型

5.大语言模型开源微调、Agent 开源框架

参考构建学习清单：
https://mp.weixin.qq.com/s/pNrgtI2TLQw0X7NsjmJhAA