AI 基础知识体系
目录
- [AI 基本概念与发展历史](#AI 基本概念与发展历史)
- 机器学习基础
- 深度学习核心概念
- 主流神经网络架构
- 大语言模型(LLM)
- 模型训练与微调
- 模型推理与部署
- [AI 基础设施](#AI 基础设施)
- 性能评估指标
- 常用框架与工具
- 多模态模型
- 参考资料
1. AI 基本概念与发展历史
1.1 什么是人工智能
人工智能(Artificial Intelligence, AI)是计算机科学的一个分支,旨在创建能够模拟人类智能的系统。AI 分为三个层次:
- 弱人工智能(Narrow AI):专注于特定任务,如语音识别、图像分类
- 强人工智能(General AI):具备与人类相当的通用智能(尚未实现)
- 超人工智能(Super AI):超越人类智能(理论阶段)
1.2 发展简史
| 时期 | 里程碑 | 说明 |
|---|---|---|
| 1950s | 图灵测试 | Alan Turing 提出"机器能思考吗?" |
| 1956 | 达特茅斯会议 | AI 作为学科正式诞生 |
| 1980s | 专家系统 | 基于规则的 AI 系统兴起 |
| 1997 | 深蓝 | IBM 深蓝战胜国际象棋冠军 |
| 2006 | 深度学习 | Hinton 提出深度信念网络 |
| 2012 | AlexNet | 深度学习在 ImageNet 上取得突破 |
| 2017 | Transformer | "Attention Is All You Need" 发表 |
| 2020s | 大模型时代 | GPT、BERT、LLaMA、Qwen 等大模型涌现 |
1.3 AI 的主要分支
人工智能 (AI)
├── 机器学习 (ML)
│ ├── 监督学习
│ ├── 无监督学习
│ ├── 半监督学习
│ └── 强化学习
├── 深度学习 (DL)
│ ├── 卷积神经网络 (CNN)
│ ├── 循环神经网络 (RNN)
│ ├── Transformer
│ └── 生成对抗网络 (GAN)
├── 自然语言处理 (NLP)
├── 计算机视觉 (CV)
└── 语音识别 (ASR)
2. 机器学习基础
2.1 监督学习 vs 无监督学习 vs 强化学习
监督学习(Supervised Learning)
笔记来源:AI算法之逻辑回归
监督学习是机器学习中最重要的范式之一,目标变量分为两大类:
- 分类模型:目标变量是分类变量(离散值),如判断邮件是否为垃圾邮件
- 回归模型:目标变量是连续值,如预测房价
常见算法:
| 算法 | 类型 | 适用场景 |
|---|---|---|
| 线性回归 | 回归 | 预测连续数值 |
| 逻辑回归 | 分类(二分类) | 概率预测、分类 |
| 决策树 | 分类/回归 | 可解释性强的场景 |
| SVM | 分类/回归 | 高维数据分类 |
| 随机森林 | 分类/回归 | 集成学习、特征重要性分析 |
| KNN | 分类/回归 | 基于距离的简单分类 |
线性回归(Linear Regression)
笔记来源:AI算法之线性回归
线性回归是最基础的回归算法,其核心思想是找到一条直线(或超平面)来拟合数据点,使得预测值与真实值之间的误差最小。
数学表达 :
y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β n x n + ϵ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n + \epsilon y=β0+β1x1+β2x2+...+βnxn+ϵ
损失函数 :均方误差(MSE)
M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 MSE=n1i=1∑n(yi−y^i)2
逻辑回归(Logistic Regression)
笔记来源:AI算法之逻辑回归
虽然名字叫"回归",但逻辑回归实际上是一种分类算法。
核心思想:
- 在线性回归的基础上,通过 Sigmoid 函数将输出映射到 0, 1 区间
- 使用 最大似然估计 来求解参数
- 通过 梯度下降法 最小化损失函数
Sigmoid 函数 :
f ( z ) = 1 1 + e − z f(z) = \frac{1}{1 + e^{-z}} f(z)=1+e−z1
相关知识点:
- 线性回归基础
- Sigmoid 函数
- 推广至多元场景
- 似然函数与最大似然估计
- 损失函数(交叉熵)
- 梯度下降法求解
2.2 无监督学习(Unsupervised Learning)
无需标注数据,从数据本身发现结构。
常见算法:
- 聚类:K-Means、DBSCAN、层次聚类
- 降维:PCA(主成分分析)、t-SNE
- 关联规则:Apriori 算法
2.3 强化学习(Reinforcement Learning)
智能体通过与环境的交互,通过试错来学习最优策略。
核心要素:状态、动作、奖励、策略、价值函数
3. 深度学习核心概念
3.1 神经网络基础
笔记来源:使用 Python 的深度神经网络简介
神经网络由大量的神经元(节点)组成,每个神经元接收输入,经过加权求和后通过激活函数输出。
基本组成部分:
- 输入层:接收原始数据
- 隐藏层:进行特征提取和变换
- 输出层:输出结果
- 权重(Weights):连接强度
- 偏置(Bias):阈值调整
- 激活函数:引入非线性
常见激活函数:
| 函数 | 公式 | 特点 |
|---|---|---|
| Sigmoid | f ( x ) = 1 / ( 1 + e − x ) f(x) = 1/(1+e^{-x}) f(x)=1/(1+e−x) | 输出范围 0,1,适合二分类 |
| Tanh | f ( x ) = tanh ( x ) f(x) = \tanh(x) f(x)=tanh(x) | 输出范围 -1,1,零中心 |
| ReLU | f ( x ) = max ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x) | 计算简单,缓解梯度消失 |
| Leaky ReLU | f ( x ) = max ( α x , x ) f(x) = \max(\alpha x, x) f(x)=max(αx,x) | 解决 ReLU 死亡问题 |
| Softmax | f ( x i ) = e x i / ∑ e x j f(x_i) = e^{x_i}/\sum e^{x_j} f(xi)=exi/∑exj | 多分类概率输出 |
3.2 前向传播与反向传播
前向传播(Forward Propagation) :
数据从输入层逐层向前传递,经过各层计算最终得到输出。
反向传播(Backpropagation) :
通过链式法则计算损失函数对各层权重的梯度,从输出层向输入层逐层更新参数。
优化算法:
- SGD(随机梯度下降)
- Momentum
- Adam(最常用)
- RMSprop
3.3 过拟合与正则化
| 方法 | 说明 |
|---|---|
| L1/L2 正则化 | 在损失函数中加入权重惩罚项 |
| Dropout | 训练时随机丢弃部分神经元 |
| 早停(Early Stopping) | 验证集性能不再提升时停止训练 |
| 数据增强 | 通过变换增加训练数据量 |
| Batch Normalization | 对每一层输入进行归一化 |
4. 主流神经网络架构
4.1 卷积神经网络(CNN)
笔记来源:卷积CNN
卷积神经网络是一种专门为处理网格状数据(如图像)而设计的深度学习架构。
核心思想:通过卷积、池化、全连接三层架构,逐层提取并组合从低级到高级的特征。
三层架构:
- 卷积层(Convolution Layer):使用可学习的滤波器(Kernel)在输入数据上进行滑动窗口操作,通过局部连接和权值共享提取特征
- 池化层(Pooling Layer):下采样操作,降低特征维度,减少计算量(最大池化、平均池化)
- 全连接层(Fully Connected Layer):将提取的特征映射到最终输出
经典 CNN 架构:
- AlexNet(2012):深度学习奠基之作
- VGGNet:更深的网络结构
- ResNet(2015):引入残差连接,解决深层网络退化问题
- Inception/GoogLeNet:多尺度卷积核并行
- MobileNet:轻量化设计,适合移动端
- EfficientNet:均衡缩放网络深度、宽度、分辨率
4.2 循环神经网络(RNN)
笔记来源:循环RNN
循环神经网络是一种为处理序列数据而设计的神经网络。
核心原理:引入"循环"结构来维持一个"隐藏状态(Hidden State)",在序列的每个时间步(如一句话中的每个词),都结合当前时刻的输入和上一时刻的隐藏状态进行计算和更新。
RNN 的变体:
- LSTM(长短期记忆网络):通过遗忘门、输入门、输出门解决长期依赖问题
- GRU(门控循环单元):简化版 LSTM,参数更少
应用场景:文本生成、机器翻译、语音识别、时间序列预测
4.3 Transformer 架构
笔记来源:Transformer详解
Transformer 的核心原理是 "基于自注意力机制(Self-Attention)的编码器-解码器架构",彻底放弃了传统的循环(RNN)和卷积(CNN)结构,完全依赖注意力机制来建立输入和输出之间的全局依赖关系。
工作流程:
- 编码器将输入序列(一句话)中的每一个词元转换为蕴含上下文信息的向量表示
- 这一过程通过多头自注意力层和前馈神经网络层的堆叠来实现
- 解码器逐步生成输出序列
核心组件:
| 组件 | 功能 |
|---|---|
| 自注意力机制 | 计算序列中每个位置与其他位置的相关性 |
| 多头注意力(Multi-Head Attention) | 从不同角度捕捉信息 |
| 位置编码(Positional Encoding) | 为模型提供位置信息 |
| 前馈神经网络(FFN) | 对注意力输出进行非线性变换 |
| 层归一化(Layer Norm) | 稳定训练过程 |
| 残差连接(Residual Connection) | 缓解梯度消失 |
Scaled Dot-Product Attention 公式 :
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V
4.4 生成对抗网络(GAN)
由生成器(Generator)和判别器(Discriminator)组成,两者相互博弈,生成器试图生成逼真的数据,判别器试图分辨真假。
4.5 扩散模型(Diffusion Models)
通过逐步加噪然后去噪的过程生成数据,是当前图像生成(如 Stable Diffusion、DALL-E)的主流架构。
5. 大语言模型(LLM)
5.1 什么是大语言模型
大语言模型(Large Language Model, LLM)是指使用海量文本数据训练的大规模深度学习模型,能够理解和生成自然语言。
代表模型:
- GPT 系列(OpenAI)
- LLaMA 系列(Meta)
- Qwen 系列(阿里巴巴)
- DeepSeek(深度求索)
- Claude(Anthropic)
- Gemini(Google)
- Mistral
5.2 模型命名规则
笔记来源:AI模型基础概念
以大模型命名可以了解其能力特征:
| 命名模式 | 含义 | 示例 |
|---|---|---|
| VL | 视觉+语言(多模态) | Qwen3-VL-30B |
| Instruct | 指令对话优化 | Qwen3-A3B-Instruct-30B-2507 |
| Thinking | 默认带有思考机制,增强逻辑与推理能力 | Qwen3-30B-A3B-Thinking-2507 |
| A3B / A10B | 带有 MoE 架构的模型 | Qwen3-A3B |
| w4a8 | 量化权重版本(4-bit 权重,8-bit 激活) | Qwen-30B-w4a8 |
⚠️ 注意 :不带 "Thinking" 的模型也可能有思考模式。Qwen 模型大部分自带思考模式,通过参数
"enable_thinking": false控制是否开启。
5.3 MoE(混合专家模型)
笔记来源:DeepSeek、Megatron-Core MoE
MoE(Mixture of Experts) 是一种模型架构设计,将模型拆分为多个"专家"子网络,每个输入只激活部分专家,从而在保持模型容量的同时降低计算成本。
关键特性:
- 稀疏激活:每个 token 只激活少量专家(如 Top-2)
- 门控网络(Router):决定每个 token 发送给哪些专家
- 负载均衡:确保各专家被均匀使用
大规模训练 MoE 的三大挑战(来源:Megatron-Core MoE):
- 显存:模型参数量大,显存占用高
- 通信:专家间通信开销大
- 计算:稀疏矩阵 GEMM 的 size 更小,MFU(模型算力利用率)约 34.8%
优化策略:
- deepEP:通信变短,节点间通信去重,节点内通过 NVLink 加速
- 重计算:找出显存占比大但计算量小的部分进行重算
- MoE 和 Attention 并行解耦
- PP(流水线并行)与 EP(专家并行)结合
5.4 思考模式(Thinking Mode)
笔记来源:AI模型基础概念
思考模式是大模型增强逻辑推理能力的一种机制。通过让模型在回答前进行内部思考(Chain-of-Thought),显著提升复杂推理任务的准确率。
Qwen 模型的思考模式:
- 默认开启思考模式
- 可通过 API 参数控制:
json
{
"chat_template_kwargs": {
"enable_thinking": false
}
}
5.5 注意力机制详解
注意力机制让模型在处理某个位置时,能够"注意"到输入序列中的其他相关位置。
类型:
- 自注意力(Self-Attention):序列内部各位置之间的注意力
- 交叉注意力(Cross-Attention):不同序列之间的注意力(如编码器-解码器)
- 因果注意力(Causal Attention):只关注当前位置之前的信息(用于生成任务)
5.6 位置编码
由于 Transformer 没有循环结构,需要通过位置编码注入位置信息。
类型:
- 绝对位置编码:为每个位置分配唯一编码
- 相对位置编码:关注位置之间的相对距离
- RoPE(旋转位置编码):当前主流方案(LLaMA、Qwen 等均使用)
6. 模型训练与微调
6.1 训练流程
数据收集 → 数据清洗 → 数据标注 → 模型选择 → 训练 → 评估 → 部署
↓
未达标 → 调参迭代
训练阶段:
- 预训练(Pre-training):在大规模通用数据上学习语言知识
- 有监督微调(SFT):在标注数据上学习指令跟随能力
- RLHF(基于人类反馈的强化学习):让模型输出更符合人类偏好
6.2 模型微调方法
笔记来源:LoRA学习、模型微调
LoRA(Low-Rank Adaptation)
由于 GPU 内存的限制,全参数微调成本高昂。LoRA 是一种高效的微调方法。
核心思想:
- 冻结原始权重矩阵 W
- 引入低秩分解矩阵 A 和 B(W' = A × B)
- 只更新 A 和 B,参数数量大幅减少
权重更新公式 :
W _ u p d a t e d = W + W ′ W\_updated = W + W' W_updated=W+W′
举例:7B 参数的语言模型,使用 LoRA 只需更新百万级参数。
常用微调工具
| 工具 | 特点 |
|---|---|
| Unsloth | 专为 LLM 设计的动态量化与微调框架,显存占用低,手动推导数学步骤并手写 GPU 内核加速 |
| LLaMA-Factory | 支持多种微调方法的统一框架 |
| PEFT (HuggingFace) | 参数高效微调库,支持 LoRA、Prefix Tuning、P-Tuning 等 |
| SwanLab | 训练过程可视化与记录工具 |
6.3 多卡训练策略
笔记来源:理论知识
计算需要几张卡?
以 A100(80GB)为例:
-
最低卡数(仅加载模型):
- 模型 100GB:所需卡数 > ceil(100GB / 80GB) = 2 张
- 模型 100GB(A100 40GB):所需卡数 > ceil(100GB / 40GB) = 3 张
-
实际部署卡数:
- 总卡数 = TP × PP × DP
- TP(Tensor Parallelism):张量并行
- PP(Pipeline Parallelism):流水线并行
- DP(Data Parallelism):数据并行
并行策略详解
| 策略 | 说明 | 适用场景 |
|---|---|---|
| 数据并行(DP) | 每个 GPU 保存完整模型副本,处理不同数据批次 | 模型能塞进单卡 |
| 张量并行(TP) | 将一层计算拆分到多个 GPU | 单层放不下 |
| 流水线并行(PP) | 将不同层分配到不同 GPU | 模型层数非常多 |
| 序列并行(SP) | 在序列维度上拆分长上下文 | 超长序列 |
| 专家并行(EP) | MoE 模型中不同专家分配到不同 GPU | MoE 架构 |
| 上下文并行(CP) | 长上下文场景下拆分序列 | 超长上下文推理 |
7. 模型推理与部署
7.1 推理服务启动
笔记来源:Qwen3-8B 联机、benchmark测试
vLLM 服务启动示例:
bash
vllm serve /data/models/Qwen3-32B/ \
--trust-remote-code \
--pipeline-parallel-size 1 \
--tensor-parallel-size 4 \
--max-num-seqs 64 \
--enable-chunked-prefill
API 调用示例(来自笔记):
bash
curl http://0.0.0.0:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "/data/model/Qwen3.5-397B-A17B-W4A8",
"messages": [
{"role": "user", "content": "介绍一下湖南省常德美食"}
],
"temperature": 0.0,
"chat_template_kwargs": {
"enable_thinking": false
},
"max_tokens": 1024
}'
7.2 ONNX 模型格式
笔记来源:AI模型基础概念、模型框架
ONNX(Open Neural Network Exchange):
- 开源的深度学习模型表示准则
- 用于在不同深度学习框架之间进行模型转换和部署
- 让 AI 框架训练出的模型可以相互兼容运行
工作流程:
训练框架(PyTorch/TensorFlow) → 导出 ONNX → 推理框架(TensorRT/ONNX Runtime)
7.3 Docker 容器部署
笔记来源:nvidia-AI、docker
GPU 容器启动示例:
bash
# 使用所有 GPU
docker run --gpus all -it nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi
# 指定 GPU 数量
docker run --gpus 2 -it <image_name>
# 指定具体 GPU 设备
docker run --gpus '"device=0,1"' -it <image_name>
NVIDIA Container Toolkit 安装:
bash
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
&& curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \
&& curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker
7.4 常见推理后端
| 后端 | 特点 |
|---|---|
| vLLM | 高性能推理引擎,支持 PagedAttention |
| HuggingFace (HF) | 原生 PyTorch 推理 |
| MII (Microsoft) | 微软优化推理引擎 |
| TensorRT-LLM | NVIDIA 优化推理引擎 |
| TGI (Text Generation Inference) | HuggingFace 推出的推理框架 |
| SGLang | 高性能 LLM 推理框架 |
8. AI 基础设施
8.1 GPU 基础知识
笔记来源:GPU基础知识
主流 AI 加速卡:
| 厂商 | 产品 | 显存 | 互联 |
|---|---|---|---|
| NVIDIA | A100 | 40GB / 80GB | NVLink + NVSwitch |
| NVIDIA | H100 | 80GB | NVLink 4.0 |
| NVIDIA | H200 | 141GB | NVLink 4.0 |
| NVIDIA | B200 | 192GB | NVLink 5.0 |
| 天数智芯 | 天垓100/智铠100 | - | - |
| 华为 | 昇腾 910B | - | HCCS |
| AMD | MI250X / MI300X | 128GB / 192GB | Infinity Fabric |
8.2 CUDA 与 GPU 编程
CUDA(Compute Unified Device Architecture):NVIDIA 的并行计算平台和编程模型。
安装方式:
- .run 文件安装(推荐):灵活、可控制版本
- apt/yum 包管理器安装:方便但版本锁定
- Docker 容器镜像:隔离环境、易于管理
HIP(Heterogeneous-Compute Interface for Portability):
- AMD 推出的 GPU 编程接口
- 兼容 CUDA 语法,方便代码迁移
- 通过
hipify-clang/hipify-perl自动转化 CUDA 代码
8.3 显存计算
模型加载显存估算:
所需显存 ≈ 模型参数量 × 精度字节数 所需显存 \approx 模型参数量 \times 精度字节数 所需显存≈模型参数量×精度字节数
| 精度 | 每参数字节 | 7B 模型 | 70B 模型 |
|---|---|---|---|
| FP32 | 4 字节 | ~28 GB | ~280 GB |
| FP16/BF16 | 2 字节 | ~14 GB | ~140 GB |
| INT8 | 1 字节 | ~7 GB | ~70 GB |
| INT4 | 0.5 字节 | ~3.5 GB | ~35 GB |
注意:实际显存占用还包括 KV Cache、优化器状态(训练时)、激活值等,通常需要上述估算值的 1.5-3 倍。
8.4 多机互联
笔记来源:roce网络
RDMA(Remote Direct Memory Access):
- RoCE(RDMA over Converged Ethernet):基于以太网的 RDMA
- InfiniBand:专用高性能互联网络
- NVLink:NVIDIA 私有 GPU 互联技术
RoCE 检查命令:
bash
# 检查网卡
lspci | grep Mellanox
# 查看 RDMA 设备
rdma link
# 安装 RDMA 软件
yum install rdma-core perftest infiniband-diags
8.5 Docker 基础操作
常用命令:
bash
# 查看运行容器
docker ps --format "table {{.ID}}\t{{.Names}}\t{{.Image}}"
# 确认镜像 ID
docker images --format "table {{.ID}}\t{{.Repository}}\t{{.Tag}}"
# 根据容器名称查看镜像 ID
docker ps -f "name=docker_name" --format "{{.ID}}"
# 镜像导出
docker save -o your_env.tar docker_repository
# 固化容器为镜像
docker commit mycontainer myapp:snapshot
# 清空无效镜像
docker system prune
# Dockerfile 示例
FROM docker.new
WORKDIR /app
9. 性能评估指标
9.1 模型性能指标
笔记来源:AI参数指标、参数指标
吞吐量指标
| 指标 | 定义 | 单位 |
|---|---|---|
| TGS | 吞吐量(Throughput) | tokens/秒/GPU |
| ITL | 首 Token 延迟 | ms |
| TPOT | 每输出 Token 延迟 | ms/token |
TGS 计算公式 :
T G S = g l o b a l b a t c h s i z e × s e q l e n g t h b a t c h t i m e × 总卡数 TGS = \frac{global\ batch\ size \times seq\ length}{batch\ time \times 总卡数} TGS=batch time×总卡数global batch size×seq length
服务容量指标
| 指标 | 说明 |
|---|---|
| 整机并发数 | 一台服务器同一时刻能并行处理的请求总数 |
| batch_size | 一次前向传播中同时处理的数据样本数量 |
| 最大序列长度 | 模型能处理的最大 token 数 |
模型质量指标
| 指标 | 说明 |
|---|---|
| Perplexity(困惑度) | 衡量语言模型对文本的预测能力 |
| BLEU | 机器翻译质量评估 |
| ROUGE | 文本摘要质量评估 |
| 准确率/精确率/召回率/F1 | 分类任务标准指标 |
| MMLU | 多学科知识理解评估 |
| HumanEval | 代码生成能力评估 |
9.2 常见问题
笔记来源:常见问题
首个 Token 慢,如何解决?
- 增加
--swap-space 16参数 - 使用
--api-server-count 4增加 worker 数量
屏蔽告警信息:
bash
export PYTHONWARNINGS=ignore
10. 常用框架与工具
10.1 深度学习框架
笔记来源:AI框架和库
| 框架 | 特点 | 适用场景 |
|---|---|---|
| PyTorch | 动态计算图、灵活易用、研究首选 | 研究、原型开发 |
| TensorFlow | 静态/动态图、生产部署完善 | 生产部署 |
| JAX | 函数式、自动微分、XLA 编译 | 高性能研究 |
| PaddlePaddle | 百度生态、产业级应用 | 国内产业场景 |
| MindSpore | 华为昇腾生态 | 昇腾硬件场景 |
10.2 模型框架
笔记来源:模型框架
| 框架 | 说明 |
|---|---|
| Megatron-LM | NVIDIA 大规模训练框架 |
| DeepSpeed | 微软优化库,支持 ZeRO 优化 |
| FSDP | PyTorch 分布式训练方案 |
| vLLM | 高性能推理引擎 |
| ONNX Runtime | 跨平台推理加速 |
| TensorRT | NVIDIA 推理优化引擎 |
10.3 应用框架
笔记来源:langChain架构搭建
LangChain:用于开发由 LLM 驱动的应用程序的框架。
生命周期各阶段:
- 开发:使用 LangChain 的开源构建块、组件和第三方集成
- 生产化:使用 LangSmith 进行检查、测试和监控
- 部署:使用 LangServe 将链转换为 API
核心组件:
- Models(模型封装)
- Prompts(提示模板)
- Memory(对话记忆)
- Chains(链式调用)
- Agents(智能体)
- Tools(工具集成)
- Retrieval(检索增强,RAG)
10.4 其他工具
笔记来源:第三方工具调用postman
| 工具 | 说明 |
|---|---|
| Postman | API 调试与测试工具,支持 REST、SOAP、GraphQL |
| SwanLab | 训练过程可视化与记录 |
| Jupyter Notebook | 交互式编程环境 |
| Unsloth | 高效模型微调框架 |
| LLaMA-Factory | 统一微调框架 |
11. 多模态模型
11.1 什么是多模态
笔记来源:多模态大模型的介绍
多模态模型能够同时处理和理解多种类型的数据(文本、图像、音频、视频等),实现跨模态的理解与生成。
11.2 多模态模型架构
整体架构思路:
- 编码:对输入数据(文本、图像等)进行编码,得到表示向量
- 融合:将不同模态的向量进行融合(可加入外部知识,如知识图谱、语言模型、CV 模型等)
- 输出:基于融合数据输出表示向量
11.3 典型多模态模型
| 模型 | 模态 | 特点 |
|---|---|---|
| Qwen-VL | 文本+图像 | 视觉语言模型,支持理解、定位、文本阅读 |
| GPT-4V | 文本+图像 | OpenAI 多模态大模型 |
| MuseTalk | 音频+视频 | 唇形同步视频生成 |
| GPT-SoVITS | 文本+音频 | 少样本语音克隆与 TTS |
| PaddleOCR-VL | 文本+图像 | 文档解析优化 |
| CLIP | 文本+图像 | 图文对比预训练 |
| Stable Diffusion | 文本→图像 | 文本到图像生成 |
11.4 GPT-SoVITS 详解
笔记来源:GPT-SoVITS 模型测试
GPT-SoVITS 是一个开源的 AI 语音克隆与文本转语音框架,结合 GPT 和 SoVITS,主打少样本克隆。
架构组成:
- GPT 部分(语义建模):理解文本内容,学习语音节奏、停顿、情绪,生成语义 token(语音"中间表示")
- SoVITS 部分(语音合成):根据 GPT 输出的语义 token,合成目标人物音色
工作流程:
- 上传音频 → 使用 UVR5 人声伴奏分离
- 切割音频 → 分割为短语音片段
- 语音降噪(可选)
- 语音识别 → 为每个语音配上文字
- 语音文本校对(可选)
要求:至少 8GB 以上显存
11.5 Qwen-VL 简介
笔记来源:Qwen-VL
Qwen-VL 是用于理解、定位、文本阅读等的多功能视觉语言模型(LVLM)。
特点:
- 视觉感受器:处理图像输入
- 输入输出接口:支持图文交互
- 三阶段训练管道:逐步对齐视觉和语言能力
- 多语言支持
12. 参考资料
学习资料
推荐的深度学习教程
- 逻辑回归详解:知乎专栏
- Docker 从入门到实践:https://docker-practice.github.io
- 阿里云微调方案:https://www.aliyun.com/solution/tech-solution-deploy/2925028
实用工具
- Modelscope:国内模型下载平台
- hf-mirror:HuggingFace 国内镜像
- SwanLab:训练过程可视化
- Postman:API 调试工具