生成式AI、大模型、多模态技术开发与应用学习清单

学习目的:

  1. 了解AIGC发展现状与核心技术。
  2. 掌握Transformer核心开发技术。
  3. 掌握向量数据库的工作原理、检索算法、主要开源数据库。
  4. 掌握大模型调用、微调方法。
  5. 掌握以GPT大语言模型为基础的工作原理。
  6. 掌握AIGC技术在跨模态领域的应用技术。
  7. 了解GPT提示工程和AIGC的安全标准。
  8. 掌握基于大模型的编程开发技术。
  9. 掌握扩散模型核心技术。
  10. 掌握 Agent 构建技术。

学习清单:
第一章、

生成式AI技术发展概述

一、AI:从判别决策到创造生成

1.从经典机器学习到深度学习

2.从Transformer到生成模型

二、生成式人工智能模型

1.生成对抗网络GAN

2.可变分自编码器VAE

3.自回归模型Auto-regressive Model

4.扩散模型Diffusion Model

三、AIGC技术及进展

1.AIGC的定义和发展

2.AIGC技术的分类

3.AIGC技术框架

四、大模型

1.从ChatGPT到Sora的技术演进

2.大语言模型

3.视觉大模型

4.多模态大模型

第二章、

AIGC技术在多模态领域的应用

一、AIGC在自然语言处理领域的应用

1.语义理解

2.内容生成

a、公文辅助写作 b、政策分析

c、研报生成 d、风控舆情

3.多轮会话

4.逻辑推理

二、AIGC在视频领域的应用

1.图像识别、检测与生成

2.视频理解与生成

3.3D生成

三、AIGC在视觉和音频生成领域的应用

1.图像生成

2.电影配音

3.智能客服

4.各类场景语音生成

第三章、

Transformer

一、Transformer模型的基本架构

二、Self-Attention机制的原理与计算过程

三、Multi-Head Attention 的设计与作用

四、Positional Encoding的实现方法

五、Rotary Positional Embedding

六、Transformer中的Feed-Forward Networks

七、Layer Normalization的原理

八、Transformer模型中的残差连接

九、Teacher Forcing技术

十、编码器与解码器的结构差异

十一、视觉Transformer

第四章、

大语言模型微调与量化

一、模型微调

1.全量微调FFT

2.部分参数微调PEFT

3.Prompt微调

4.Prefix微调

5.LoRA等微调方法

6.大语言模型微调开发

二、模型量化

1.线性量化

2.非线性量化

3.饱合量化

4.非饱合量化

5.大语言模型微调量化开发

三、实例开发

1.大语言模型微调框架

2.大语言模型微调实例

第五章、

AIGC技术

一、大语言模型技术原理

1.生成模型(扩散模型)

2.深度学习常用算法

3.人类反馈强化学习RLHF

4.典型大语言模型

二、提示工程

1.提示词的基础知识

2.思维链

3.提示词实操:明确具体任务、利用上下文、使用不同的语气、角色扮演、zero shot, one shot, few shot、零样本思维链提示、生成知识提示

三、AIGC的安全

1.内容安全

2.模型安全

3.用户信息安全

四、AIGC技术评价

1.AIGC标准体系

2.AIGC应用层标准

3.AIGC模型层标准

第六章、

AIGC技术的记忆模块(向量数据库)

一、向量数据库概述

1.AIGC技术的记忆模块的功能和作用

2.向量数据库的功能与发展历程

3.各种向量数据库的对比

4.向量数据库发展展望

二、向量数据库技术

1.向量数据库原理

2.向量检索算法

3.向量数据库实操

第七章、

大语言模型 Agent

一、大语言模型开发框架

1.大语言模型开发框架的原理与工作流程

2.大语言模型开发框架的分层结构

3.大语言模型开发框架的模块与库函数

二、Agent

1.Agent 工作原理

2.Agent 模式

3.Agent 开发步骤与工作流程

三、大语言模型 Agent 开发

1.大语言模型与 Agent 结合开发方式

2.大语言模型 Agent 开发实例

3.构建一个智能体

第八章、

扩散模型

一、前向扩散过程

二、反向生成过程

三、网络架构

四、参数化

五、采样方法

六、Stable Diffusion模型

七、Diffusion Transformer模型

第九章、

CLIP

一、CLIP架构

二、对比预训练

三、数据集分类器创建

四、Zero-shot 推理

五、提示词工程与集成

第十章、

VAE

一、Autoencoder

二、VAE模型原理

三、重参化

四、VAE与AE的区别

五、Spacetime Latent Representation

第十一章、

Sora训练

一、Sora 训练流程

二、patchify---视频数据转换为图像块

三、Scaling Transformer生成

四、Latent转换为视频向量

开发环境

  1. 操作系统:Ubuntu

  2. 开发语言:Python

  3. 深度学习框架:Pytorch

  4. 大语言模型:几种国产开源大语言模型

5.大语言模型开源微调、Agent 开源框架

参考构建学习清单:
https://mp.weixin.qq.com/s/pNrgtI2TLQw0X7NsjmJhAA

相关推荐
极限实验室37 分钟前
Coco AI 实战(一):Coco Server Linux 平台部署
人工智能
杨过过儿1 小时前
【学习笔记】4.1 什么是 LLM
人工智能
巴伦是只猫1 小时前
【机器学习笔记Ⅰ】13 正则化代价函数
人工智能·笔记·机器学习
大千AI助手1 小时前
DTW模版匹配:弹性对齐的时间序列相似度度量算法
人工智能·算法·机器学习·数据挖掘·模版匹配·dtw模版匹配
AI生存日记1 小时前
百度文心大模型 4.5 系列全面开源 英特尔同步支持端侧部署
人工智能·百度·开源·open ai大模型
LCG元2 小时前
自动驾驶感知模块的多模态数据融合:时序同步与空间对齐的框架解析
人工智能·机器学习·自动驾驶
好好研究2 小时前
学习栈和队列的插入和删除操作
数据结构·学习
why技术2 小时前
Stack Overflow,轰然倒下!
前端·人工智能·后端
超龄超能程序猿3 小时前
(三)PS识别:基于噪声分析PS识别的技术实现
图像处理·人工智能·计算机视觉