生成式AI、大模型、多模态技术开发与应用学习清单

学习目的:

  1. 了解AIGC发展现状与核心技术。
  2. 掌握Transformer核心开发技术。
  3. 掌握向量数据库的工作原理、检索算法、主要开源数据库。
  4. 掌握大模型调用、微调方法。
  5. 掌握以GPT大语言模型为基础的工作原理。
  6. 掌握AIGC技术在跨模态领域的应用技术。
  7. 了解GPT提示工程和AIGC的安全标准。
  8. 掌握基于大模型的编程开发技术。
  9. 掌握扩散模型核心技术。
  10. 掌握 Agent 构建技术。

学习清单:
第一章、

生成式AI技术发展概述

一、AI:从判别决策到创造生成

1.从经典机器学习到深度学习

2.从Transformer到生成模型

二、生成式人工智能模型

1.生成对抗网络GAN

2.可变分自编码器VAE

3.自回归模型Auto-regressive Model

4.扩散模型Diffusion Model

三、AIGC技术及进展

1.AIGC的定义和发展

2.AIGC技术的分类

3.AIGC技术框架

四、大模型

1.从ChatGPT到Sora的技术演进

2.大语言模型

3.视觉大模型

4.多模态大模型

第二章、

AIGC技术在多模态领域的应用

一、AIGC在自然语言处理领域的应用

1.语义理解

2.内容生成

a、公文辅助写作 b、政策分析

c、研报生成 d、风控舆情

3.多轮会话

4.逻辑推理

二、AIGC在视频领域的应用

1.图像识别、检测与生成

2.视频理解与生成

3.3D生成

三、AIGC在视觉和音频生成领域的应用

1.图像生成

2.电影配音

3.智能客服

4.各类场景语音生成

第三章、

Transformer

一、Transformer模型的基本架构

二、Self-Attention机制的原理与计算过程

三、Multi-Head Attention 的设计与作用

四、Positional Encoding的实现方法

五、Rotary Positional Embedding

六、Transformer中的Feed-Forward Networks

七、Layer Normalization的原理

八、Transformer模型中的残差连接

九、Teacher Forcing技术

十、编码器与解码器的结构差异

十一、视觉Transformer

第四章、

大语言模型微调与量化

一、模型微调

1.全量微调FFT

2.部分参数微调PEFT

3.Prompt微调

4.Prefix微调

5.LoRA等微调方法

6.大语言模型微调开发

二、模型量化

1.线性量化

2.非线性量化

3.饱合量化

4.非饱合量化

5.大语言模型微调量化开发

三、实例开发

1.大语言模型微调框架

2.大语言模型微调实例

第五章、

AIGC技术

一、大语言模型技术原理

1.生成模型(扩散模型)

2.深度学习常用算法

3.人类反馈强化学习RLHF

4.典型大语言模型

二、提示工程

1.提示词的基础知识

2.思维链

3.提示词实操:明确具体任务、利用上下文、使用不同的语气、角色扮演、zero shot, one shot, few shot、零样本思维链提示、生成知识提示

三、AIGC的安全

1.内容安全

2.模型安全

3.用户信息安全

四、AIGC技术评价

1.AIGC标准体系

2.AIGC应用层标准

3.AIGC模型层标准

第六章、

AIGC技术的记忆模块(向量数据库)

一、向量数据库概述

1.AIGC技术的记忆模块的功能和作用

2.向量数据库的功能与发展历程

3.各种向量数据库的对比

4.向量数据库发展展望

二、向量数据库技术

1.向量数据库原理

2.向量检索算法

3.向量数据库实操

第七章、

大语言模型 Agent

一、大语言模型开发框架

1.大语言模型开发框架的原理与工作流程

2.大语言模型开发框架的分层结构

3.大语言模型开发框架的模块与库函数

二、Agent

1.Agent 工作原理

2.Agent 模式

3.Agent 开发步骤与工作流程

三、大语言模型 Agent 开发

1.大语言模型与 Agent 结合开发方式

2.大语言模型 Agent 开发实例

3.构建一个智能体

第八章、

扩散模型

一、前向扩散过程

二、反向生成过程

三、网络架构

四、参数化

五、采样方法

六、Stable Diffusion模型

七、Diffusion Transformer模型

第九章、

CLIP

一、CLIP架构

二、对比预训练

三、数据集分类器创建

四、Zero-shot 推理

五、提示词工程与集成

第十章、

VAE

一、Autoencoder

二、VAE模型原理

三、重参化

四、VAE与AE的区别

五、Spacetime Latent Representation

第十一章、

Sora训练

一、Sora 训练流程

二、patchify---视频数据转换为图像块

三、Scaling Transformer生成

四、Latent转换为视频向量

开发环境

  1. 操作系统:Ubuntu

  2. 开发语言:Python

  3. 深度学习框架:Pytorch

  4. 大语言模型:几种国产开源大语言模型

5.大语言模型开源微调、Agent 开源框架

参考构建学习清单:
https://mp.weixin.qq.com/s/pNrgtI2TLQw0X7NsjmJhAA

相关推荐
果汁华11 分钟前
Browserbase Skills:让 Claude Agent 真正“看见“网页世界
人工智能·python
ZhengEnCi12 分钟前
04-缩放点积注意力代码实现 💻
人工智能·python
HackTwoHub1 小时前
AI大模型网关存在SQL注入、附 POC 复现、影响版本LiteLLM 1.81.16~1.83.7(CVE-2026-42208)
数据库·人工智能·sql·网络安全·系统安全·网络攻击模型·安全架构
段一凡-华北理工大学1 小时前
【高炉炼铁领域炉温监测、预警、调控智能体设计与应用】~系列文章08:多模态数据融合:让数据更聪明
人工智能·python·高炉炼铁·ai赋能·工业智能体·高炉炉温
其实防守也摸鱼2 小时前
CTF密码学综合教学指南--第五章
开发语言·网络·笔记·python·安全·网络安全·密码学
网络工程小王2 小时前
【LangChain 大模型6大调用指南】调用大模型篇
linux·运维·服务器·人工智能·学习
HIT_Weston2 小时前
63、【Agent】【OpenCode】用户对话提示词(示例)
人工智能·agent·opencode
wangbing11252 小时前
各linux版本的包管理命令
linux·运维·服务器
qq_571099352 小时前
学习周报四十三
学习
CV-杨帆2 小时前
Phi-4-mini-flash-reasoning 部署安装与推理测试完整记录
人工智能