一句话总结:
大语言模型 = Transformer + 海量数据 + 预测下一个 Token
课程目标人群:
-
AI 小白
-
程序员想转 AI
-
想理解 ChatGPT 原理的人
生成式 AI 知识图谱
│
├── 1 基础概念
│ │
│ ├── 生成内容
│ │ ├── 文本
│ │ ├── 图片
│ │ ├── 音频
│ │ └── 视频
│ │
│ └── 典型应用
│ ├── ChatGPT
│ ├── Midjourney
│ └── Stable Diffusion
│
├── 2 大语言模型 (LLM)
│ │
│ ├── Token
│ │ └── 文本最小单位
│ │
│ ├── Language Model
│ │ └── 预测下一个 Token
│ │
│ └── Transformer
│ ├── Embedding
│ ├── Self-Attention
│ └── Feed Forward
│
├── 3 Attention 机制
│ │
│ ├── 关注重要词
│ ├── 理解上下文
│ └── 建立长距离关系
│
├── 4 Prompt Engineering
│ │
│ ├── Role Prompt
│ │ └── 指定角色
│ │
│ ├── Few-shot
│ │ └── 给示例学习
│ │
│ └── Chain-of-Thought
│ └── 逐步推理
│
├── 5 模型训练流程
│ │
│ ├── Pretraining
│ │ └── 海量数据训练
│ │
│ ├── Fine-tuning
│ │ └── 任务优化
│ │
│ └── RLHF
│ └── 人类反馈强化学习
│
├── 6 模型能力来源
│ │
│ ├── 数据规模
│ ├── 参数规模
│ └── 计算能力
│
├── 7 局限性
│ │
│ ├── AI幻觉
│ ├── 数据偏见
│ └── 高训练成本
│
└── 8 未来方向
│
├── 多模态 AI
├── AI Agent
└── 人机协作
3个核心问题
1️⃣ AI 如何生成内容
通过 概率预测 Token
例如:
markdown
我今天很____
模型预测概率:
开心 0.42
高兴 0.28
累 0.12
2️⃣ AI 如何理解语言
核心结构:
Transformer architecture
关键机制:
Attention
作用:
- 找到句子重点
- 理解上下文
3️⃣ AI 如何变得更聪明
训练流程:
海量数据
↓
Pretraining
↓
Fine-tuning
↓
RLHF