AI 基础知识体系

AI 基础知识体系


目录

  1. [AI 基本概念与发展历史](#AI 基本概念与发展历史)
  2. 机器学习基础
  3. 深度学习核心概念
  4. 主流神经网络架构
  5. 大语言模型(LLM)
  6. 模型训练与微调
  7. 模型推理与部署
  8. [AI 基础设施](#AI 基础设施)
  9. 性能评估指标
  10. 常用框架与工具
  11. 多模态模型
  12. 参考资料

1. AI 基本概念与发展历史

1.1 什么是人工智能

人工智能(Artificial Intelligence, AI)是计算机科学的一个分支,旨在创建能够模拟人类智能的系统。AI 分为三个层次:

  • 弱人工智能(Narrow AI):专注于特定任务,如语音识别、图像分类
  • 强人工智能(General AI):具备与人类相当的通用智能(尚未实现)
  • 超人工智能(Super AI):超越人类智能(理论阶段)

1.2 发展简史

时期 里程碑 说明
1950s 图灵测试 Alan Turing 提出"机器能思考吗?"
1956 达特茅斯会议 AI 作为学科正式诞生
1980s 专家系统 基于规则的 AI 系统兴起
1997 深蓝 IBM 深蓝战胜国际象棋冠军
2006 深度学习 Hinton 提出深度信念网络
2012 AlexNet 深度学习在 ImageNet 上取得突破
2017 Transformer "Attention Is All You Need" 发表
2020s 大模型时代 GPT、BERT、LLaMA、Qwen 等大模型涌现

1.3 AI 的主要分支

复制代码
人工智能 (AI)
├── 机器学习 (ML)
│   ├── 监督学习
│   ├── 无监督学习
│   ├── 半监督学习
│   └── 强化学习
├── 深度学习 (DL)
│   ├── 卷积神经网络 (CNN)
│   ├── 循环神经网络 (RNN)
│   ├── Transformer
│   └── 生成对抗网络 (GAN)
├── 自然语言处理 (NLP)
├── 计算机视觉 (CV)
└── 语音识别 (ASR)

2. 机器学习基础

2.1 监督学习 vs 无监督学习 vs 强化学习

监督学习(Supervised Learning)

笔记来源:AI算法之逻辑回归

监督学习是机器学习中最重要的范式之一,目标变量分为两大类:

  • 分类模型:目标变量是分类变量(离散值),如判断邮件是否为垃圾邮件
  • 回归模型:目标变量是连续值,如预测房价

常见算法

算法 类型 适用场景
线性回归 回归 预测连续数值
逻辑回归 分类(二分类) 概率预测、分类
决策树 分类/回归 可解释性强的场景
SVM 分类/回归 高维数据分类
随机森林 分类/回归 集成学习、特征重要性分析
KNN 分类/回归 基于距离的简单分类
线性回归(Linear Regression)

笔记来源:AI算法之线性回归

线性回归是最基础的回归算法,其核心思想是找到一条直线(或超平面)来拟合数据点,使得预测值与真实值之间的误差最小。

数学表达

y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β n x n + ϵ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n + \epsilon y=β0+β1x1+β2x2+...+βnxn+ϵ

损失函数 :均方误差(MSE)

M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 MSE=n1i=1∑n(yi−y^i)2

逻辑回归(Logistic Regression)

笔记来源:AI算法之逻辑回归

虽然名字叫"回归",但逻辑回归实际上是一种分类算法。

核心思想

  1. 在线性回归的基础上,通过 Sigmoid 函数将输出映射到 0, 1 区间
  2. 使用 最大似然估计 来求解参数
  3. 通过 梯度下降法 最小化损失函数

Sigmoid 函数

f ( z ) = 1 1 + e − z f(z) = \frac{1}{1 + e^{-z}} f(z)=1+e−z1

相关知识点

  • 线性回归基础
  • Sigmoid 函数
  • 推广至多元场景
  • 似然函数与最大似然估计
  • 损失函数(交叉熵)
  • 梯度下降法求解

2.2 无监督学习(Unsupervised Learning)

无需标注数据,从数据本身发现结构。

常见算法

  • 聚类:K-Means、DBSCAN、层次聚类
  • 降维:PCA(主成分分析)、t-SNE
  • 关联规则:Apriori 算法

2.3 强化学习(Reinforcement Learning)

智能体通过与环境的交互,通过试错来学习最优策略。

核心要素:状态、动作、奖励、策略、价值函数


3. 深度学习核心概念

3.1 神经网络基础

笔记来源:使用 Python 的深度神经网络简介

神经网络由大量的神经元(节点)组成,每个神经元接收输入,经过加权求和后通过激活函数输出。

基本组成部分

  • 输入层:接收原始数据
  • 隐藏层:进行特征提取和变换
  • 输出层:输出结果
  • 权重(Weights):连接强度
  • 偏置(Bias):阈值调整
  • 激活函数:引入非线性

常见激活函数

函数 公式 特点
Sigmoid f ( x ) = 1 / ( 1 + e − x ) f(x) = 1/(1+e^{-x}) f(x)=1/(1+e−x) 输出范围 0,1,适合二分类
Tanh f ( x ) = tanh ⁡ ( x ) f(x) = \tanh(x) f(x)=tanh(x) 输出范围 -1,1,零中心
ReLU f ( x ) = max ⁡ ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x) 计算简单,缓解梯度消失
Leaky ReLU f ( x ) = max ⁡ ( α x , x ) f(x) = \max(\alpha x, x) f(x)=max(αx,x) 解决 ReLU 死亡问题
Softmax f ( x i ) = e x i / ∑ e x j f(x_i) = e^{x_i}/\sum e^{x_j} f(xi)=exi/∑exj 多分类概率输出

3.2 前向传播与反向传播

前向传播(Forward Propagation)

数据从输入层逐层向前传递,经过各层计算最终得到输出。

反向传播(Backpropagation)

通过链式法则计算损失函数对各层权重的梯度,从输出层向输入层逐层更新参数。

优化算法

  • SGD(随机梯度下降)
  • Momentum
  • Adam(最常用)
  • RMSprop

3.3 过拟合与正则化

方法 说明
L1/L2 正则化 在损失函数中加入权重惩罚项
Dropout 训练时随机丢弃部分神经元
早停(Early Stopping) 验证集性能不再提升时停止训练
数据增强 通过变换增加训练数据量
Batch Normalization 对每一层输入进行归一化

4. 主流神经网络架构

4.1 卷积神经网络(CNN)

笔记来源:卷积CNN

卷积神经网络是一种专门为处理网格状数据(如图像)而设计的深度学习架构。

核心思想:通过卷积、池化、全连接三层架构,逐层提取并组合从低级到高级的特征。

三层架构

  1. 卷积层(Convolution Layer):使用可学习的滤波器(Kernel)在输入数据上进行滑动窗口操作,通过局部连接和权值共享提取特征
  2. 池化层(Pooling Layer):下采样操作,降低特征维度,减少计算量(最大池化、平均池化)
  3. 全连接层(Fully Connected Layer):将提取的特征映射到最终输出

经典 CNN 架构

  • AlexNet(2012):深度学习奠基之作
  • VGGNet:更深的网络结构
  • ResNet(2015):引入残差连接,解决深层网络退化问题
  • Inception/GoogLeNet:多尺度卷积核并行
  • MobileNet:轻量化设计,适合移动端
  • EfficientNet:均衡缩放网络深度、宽度、分辨率

4.2 循环神经网络(RNN)

笔记来源:循环RNN

循环神经网络是一种为处理序列数据而设计的神经网络。

核心原理:引入"循环"结构来维持一个"隐藏状态(Hidden State)",在序列的每个时间步(如一句话中的每个词),都结合当前时刻的输入和上一时刻的隐藏状态进行计算和更新。

RNN 的变体

  • LSTM(长短期记忆网络):通过遗忘门、输入门、输出门解决长期依赖问题
  • GRU(门控循环单元):简化版 LSTM,参数更少

应用场景:文本生成、机器翻译、语音识别、时间序列预测

4.3 Transformer 架构

笔记来源:Transformer详解

Transformer 的核心原理是 "基于自注意力机制(Self-Attention)的编码器-解码器架构",彻底放弃了传统的循环(RNN)和卷积(CNN)结构,完全依赖注意力机制来建立输入和输出之间的全局依赖关系。

工作流程

  1. 编码器将输入序列(一句话)中的每一个词元转换为蕴含上下文信息的向量表示
  2. 这一过程通过多头自注意力层和前馈神经网络层的堆叠来实现
  3. 解码器逐步生成输出序列

核心组件

组件 功能
自注意力机制 计算序列中每个位置与其他位置的相关性
多头注意力(Multi-Head Attention) 从不同角度捕捉信息
位置编码(Positional Encoding) 为模型提供位置信息
前馈神经网络(FFN) 对注意力输出进行非线性变换
层归一化(Layer Norm) 稳定训练过程
残差连接(Residual Connection) 缓解梯度消失

Scaled Dot-Product Attention 公式

A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V

4.4 生成对抗网络(GAN)

由生成器(Generator)和判别器(Discriminator)组成,两者相互博弈,生成器试图生成逼真的数据,判别器试图分辨真假。

4.5 扩散模型(Diffusion Models)

通过逐步加噪然后去噪的过程生成数据,是当前图像生成(如 Stable Diffusion、DALL-E)的主流架构。


5. 大语言模型(LLM)

5.1 什么是大语言模型

大语言模型(Large Language Model, LLM)是指使用海量文本数据训练的大规模深度学习模型,能够理解和生成自然语言。

代表模型

  • GPT 系列(OpenAI)
  • LLaMA 系列(Meta)
  • Qwen 系列(阿里巴巴)
  • DeepSeek(深度求索)
  • Claude(Anthropic)
  • Gemini(Google)
  • Mistral

5.2 模型命名规则

笔记来源:AI模型基础概念

以大模型命名可以了解其能力特征:

命名模式 含义 示例
VL 视觉+语言(多模态) Qwen3-VL-30B
Instruct 指令对话优化 Qwen3-A3B-Instruct-30B-2507
Thinking 默认带有思考机制,增强逻辑与推理能力 Qwen3-30B-A3B-Thinking-2507
A3B / A10B 带有 MoE 架构的模型 Qwen3-A3B
w4a8 量化权重版本(4-bit 权重,8-bit 激活) Qwen-30B-w4a8

⚠️ 注意 :不带 "Thinking" 的模型也可能有思考模式。Qwen 模型大部分自带思考模式,通过参数 "enable_thinking": false 控制是否开启。

5.3 MoE(混合专家模型)

笔记来源:DeepSeek、Megatron-Core MoE

MoE(Mixture of Experts) 是一种模型架构设计,将模型拆分为多个"专家"子网络,每个输入只激活部分专家,从而在保持模型容量的同时降低计算成本。

关键特性

  • 稀疏激活:每个 token 只激活少量专家(如 Top-2)
  • 门控网络(Router):决定每个 token 发送给哪些专家
  • 负载均衡:确保各专家被均匀使用

大规模训练 MoE 的三大挑战(来源:Megatron-Core MoE):

  1. 显存:模型参数量大,显存占用高
  2. 通信:专家间通信开销大
  3. 计算:稀疏矩阵 GEMM 的 size 更小,MFU(模型算力利用率)约 34.8%

优化策略

  • deepEP:通信变短,节点间通信去重,节点内通过 NVLink 加速
  • 重计算:找出显存占比大但计算量小的部分进行重算
  • MoE 和 Attention 并行解耦
  • PP(流水线并行)与 EP(专家并行)结合

5.4 思考模式(Thinking Mode)

笔记来源:AI模型基础概念

思考模式是大模型增强逻辑推理能力的一种机制。通过让模型在回答前进行内部思考(Chain-of-Thought),显著提升复杂推理任务的准确率。

Qwen 模型的思考模式

  • 默认开启思考模式
  • 可通过 API 参数控制:
json 复制代码
{
  "chat_template_kwargs": {
    "enable_thinking": false
  }
}

5.5 注意力机制详解

注意力机制让模型在处理某个位置时,能够"注意"到输入序列中的其他相关位置。

类型

  • 自注意力(Self-Attention):序列内部各位置之间的注意力
  • 交叉注意力(Cross-Attention):不同序列之间的注意力(如编码器-解码器)
  • 因果注意力(Causal Attention):只关注当前位置之前的信息(用于生成任务)

5.6 位置编码

由于 Transformer 没有循环结构,需要通过位置编码注入位置信息。

类型

  • 绝对位置编码:为每个位置分配唯一编码
  • 相对位置编码:关注位置之间的相对距离
  • RoPE(旋转位置编码):当前主流方案(LLaMA、Qwen 等均使用)

6. 模型训练与微调

6.1 训练流程

复制代码
数据收集 → 数据清洗 → 数据标注 → 模型选择 → 训练 → 评估 → 部署
                                                        ↓
                                              未达标 → 调参迭代

训练阶段

  1. 预训练(Pre-training):在大规模通用数据上学习语言知识
  2. 有监督微调(SFT):在标注数据上学习指令跟随能力
  3. RLHF(基于人类反馈的强化学习):让模型输出更符合人类偏好

6.2 模型微调方法

笔记来源:LoRA学习、模型微调

LoRA(Low-Rank Adaptation)

由于 GPU 内存的限制,全参数微调成本高昂。LoRA 是一种高效的微调方法。

核心思想

  • 冻结原始权重矩阵 W
  • 引入低秩分解矩阵 A 和 B(W' = A × B)
  • 只更新 A 和 B,参数数量大幅减少

权重更新公式

W _ u p d a t e d = W + W ′ W\_updated = W + W' W_updated=W+W′

举例:7B 参数的语言模型,使用 LoRA 只需更新百万级参数。

常用微调工具
工具 特点
Unsloth 专为 LLM 设计的动态量化与微调框架,显存占用低,手动推导数学步骤并手写 GPU 内核加速
LLaMA-Factory 支持多种微调方法的统一框架
PEFT (HuggingFace) 参数高效微调库,支持 LoRA、Prefix Tuning、P-Tuning 等
SwanLab 训练过程可视化与记录工具

6.3 多卡训练策略

笔记来源:理论知识

计算需要几张卡?

以 A100(80GB)为例:

  • 最低卡数(仅加载模型)

    • 模型 100GB:所需卡数 > ceil(100GB / 80GB) = 2 张
    • 模型 100GB(A100 40GB):所需卡数 > ceil(100GB / 40GB) = 3 张
  • 实际部署卡数

    • 总卡数 = TP × PP × DP
    • TP(Tensor Parallelism):张量并行
    • PP(Pipeline Parallelism):流水线并行
    • DP(Data Parallelism):数据并行
并行策略详解
策略 说明 适用场景
数据并行(DP) 每个 GPU 保存完整模型副本,处理不同数据批次 模型能塞进单卡
张量并行(TP) 将一层计算拆分到多个 GPU 单层放不下
流水线并行(PP) 将不同层分配到不同 GPU 模型层数非常多
序列并行(SP) 在序列维度上拆分长上下文 超长序列
专家并行(EP) MoE 模型中不同专家分配到不同 GPU MoE 架构
上下文并行(CP) 长上下文场景下拆分序列 超长上下文推理

7. 模型推理与部署

7.1 推理服务启动

笔记来源:Qwen3-8B 联机、benchmark测试

vLLM 服务启动示例

bash 复制代码
vllm serve /data/models/Qwen3-32B/ \
  --trust-remote-code \
  --pipeline-parallel-size 1 \
  --tensor-parallel-size 4 \
  --max-num-seqs 64 \
  --enable-chunked-prefill

API 调用示例(来自笔记):

bash 复制代码
curl http://0.0.0.0:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/data/model/Qwen3.5-397B-A17B-W4A8",
    "messages": [
      {"role": "user", "content": "介绍一下湖南省常德美食"}
    ],
    "temperature": 0.0,
    "chat_template_kwargs": {
      "enable_thinking": false
    },
    "max_tokens": 1024
  }'

7.2 ONNX 模型格式

笔记来源:AI模型基础概念、模型框架

ONNX(Open Neural Network Exchange)

  • 开源的深度学习模型表示准则
  • 用于在不同深度学习框架之间进行模型转换和部署
  • 让 AI 框架训练出的模型可以相互兼容运行

工作流程

复制代码
训练框架(PyTorch/TensorFlow) → 导出 ONNX → 推理框架(TensorRT/ONNX Runtime)

7.3 Docker 容器部署

笔记来源:nvidia-AI、docker

GPU 容器启动示例:

bash 复制代码
# 使用所有 GPU
docker run --gpus all -it nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi

# 指定 GPU 数量
docker run --gpus 2 -it <image_name>

# 指定具体 GPU 设备
docker run --gpus '"device=0,1"' -it <image_name>

NVIDIA Container Toolkit 安装

bash 复制代码
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
  && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \
  && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker

7.4 常见推理后端

后端 特点
vLLM 高性能推理引擎,支持 PagedAttention
HuggingFace (HF) 原生 PyTorch 推理
MII (Microsoft) 微软优化推理引擎
TensorRT-LLM NVIDIA 优化推理引擎
TGI (Text Generation Inference) HuggingFace 推出的推理框架
SGLang 高性能 LLM 推理框架

8. AI 基础设施

8.1 GPU 基础知识

笔记来源:GPU基础知识

主流 AI 加速卡

厂商 产品 显存 互联
NVIDIA A100 40GB / 80GB NVLink + NVSwitch
NVIDIA H100 80GB NVLink 4.0
NVIDIA H200 141GB NVLink 4.0
NVIDIA B200 192GB NVLink 5.0
天数智芯 天垓100/智铠100 - -
华为 昇腾 910B - HCCS
AMD MI250X / MI300X 128GB / 192GB Infinity Fabric

8.2 CUDA 与 GPU 编程

CUDA(Compute Unified Device Architecture):NVIDIA 的并行计算平台和编程模型。

安装方式

  • .run 文件安装(推荐):灵活、可控制版本
  • apt/yum 包管理器安装:方便但版本锁定
  • Docker 容器镜像:隔离环境、易于管理

HIP(Heterogeneous-Compute Interface for Portability)

  • AMD 推出的 GPU 编程接口
  • 兼容 CUDA 语法,方便代码迁移
  • 通过 hipify-clang / hipify-perl 自动转化 CUDA 代码

8.3 显存计算

模型加载显存估算

所需显存 ≈ 模型参数量 × 精度字节数 所需显存 \approx 模型参数量 \times 精度字节数 所需显存≈模型参数量×精度字节数

精度 每参数字节 7B 模型 70B 模型
FP32 4 字节 ~28 GB ~280 GB
FP16/BF16 2 字节 ~14 GB ~140 GB
INT8 1 字节 ~7 GB ~70 GB
INT4 0.5 字节 ~3.5 GB ~35 GB

注意:实际显存占用还包括 KV Cache、优化器状态(训练时)、激活值等,通常需要上述估算值的 1.5-3 倍。

8.4 多机互联

笔记来源:roce网络

RDMA(Remote Direct Memory Access)

  • RoCE(RDMA over Converged Ethernet):基于以太网的 RDMA
  • InfiniBand:专用高性能互联网络
  • NVLink:NVIDIA 私有 GPU 互联技术

RoCE 检查命令

bash 复制代码
# 检查网卡
lspci | grep Mellanox

# 查看 RDMA 设备
rdma link

# 安装 RDMA 软件
yum install rdma-core perftest infiniband-diags

8.5 Docker 基础操作

常用命令

bash 复制代码
# 查看运行容器
docker ps --format "table {{.ID}}\t{{.Names}}\t{{.Image}}"

# 确认镜像 ID
docker images --format "table {{.ID}}\t{{.Repository}}\t{{.Tag}}"

# 根据容器名称查看镜像 ID
docker ps -f "name=docker_name" --format "{{.ID}}"

# 镜像导出
docker save -o your_env.tar docker_repository

# 固化容器为镜像
docker commit mycontainer myapp:snapshot

# 清空无效镜像
docker system prune

# Dockerfile 示例
FROM docker.new
WORKDIR /app

9. 性能评估指标

9.1 模型性能指标

笔记来源:AI参数指标、参数指标

吞吐量指标
指标 定义 单位
TGS 吞吐量(Throughput) tokens/秒/GPU
ITL 首 Token 延迟 ms
TPOT 每输出 Token 延迟 ms/token

TGS 计算公式

T G S = g l o b a l b a t c h s i z e × s e q l e n g t h b a t c h t i m e × 总卡数 TGS = \frac{global\ batch\ size \times seq\ length}{batch\ time \times 总卡数} TGS=batch time×总卡数global batch size×seq length

服务容量指标
指标 说明
整机并发数 一台服务器同一时刻能并行处理的请求总数
batch_size 一次前向传播中同时处理的数据样本数量
最大序列长度 模型能处理的最大 token 数
模型质量指标
指标 说明
Perplexity(困惑度) 衡量语言模型对文本的预测能力
BLEU 机器翻译质量评估
ROUGE 文本摘要质量评估
准确率/精确率/召回率/F1 分类任务标准指标
MMLU 多学科知识理解评估
HumanEval 代码生成能力评估

9.2 常见问题

笔记来源:常见问题

首个 Token 慢,如何解决

  • 增加 --swap-space 16 参数
  • 使用 --api-server-count 4 增加 worker 数量

屏蔽告警信息

bash 复制代码
export PYTHONWARNINGS=ignore

10. 常用框架与工具

10.1 深度学习框架

笔记来源:AI框架和库

框架 特点 适用场景
PyTorch 动态计算图、灵活易用、研究首选 研究、原型开发
TensorFlow 静态/动态图、生产部署完善 生产部署
JAX 函数式、自动微分、XLA 编译 高性能研究
PaddlePaddle 百度生态、产业级应用 国内产业场景
MindSpore 华为昇腾生态 昇腾硬件场景

10.2 模型框架

笔记来源:模型框架

框架 说明
Megatron-LM NVIDIA 大规模训练框架
DeepSpeed 微软优化库,支持 ZeRO 优化
FSDP PyTorch 分布式训练方案
vLLM 高性能推理引擎
ONNX Runtime 跨平台推理加速
TensorRT NVIDIA 推理优化引擎

10.3 应用框架

笔记来源:langChain架构搭建

LangChain:用于开发由 LLM 驱动的应用程序的框架。

生命周期各阶段

  1. 开发:使用 LangChain 的开源构建块、组件和第三方集成
  2. 生产化:使用 LangSmith 进行检查、测试和监控
  3. 部署:使用 LangServe 将链转换为 API

核心组件

  • Models(模型封装)
  • Prompts(提示模板)
  • Memory(对话记忆)
  • Chains(链式调用)
  • Agents(智能体)
  • Tools(工具集成)
  • Retrieval(检索增强,RAG)

10.4 其他工具

笔记来源:第三方工具调用postman

工具 说明
Postman API 调试与测试工具,支持 REST、SOAP、GraphQL
SwanLab 训练过程可视化与记录
Jupyter Notebook 交互式编程环境
Unsloth 高效模型微调框架
LLaMA-Factory 统一微调框架

11. 多模态模型

11.1 什么是多模态

笔记来源:多模态大模型的介绍

多模态模型能够同时处理和理解多种类型的数据(文本、图像、音频、视频等),实现跨模态的理解与生成。

11.2 多模态模型架构

整体架构思路

  1. 编码:对输入数据(文本、图像等)进行编码,得到表示向量
  2. 融合:将不同模态的向量进行融合(可加入外部知识,如知识图谱、语言模型、CV 模型等)
  3. 输出:基于融合数据输出表示向量

11.3 典型多模态模型

模型 模态 特点
Qwen-VL 文本+图像 视觉语言模型,支持理解、定位、文本阅读
GPT-4V 文本+图像 OpenAI 多模态大模型
MuseTalk 音频+视频 唇形同步视频生成
GPT-SoVITS 文本+音频 少样本语音克隆与 TTS
PaddleOCR-VL 文本+图像 文档解析优化
CLIP 文本+图像 图文对比预训练
Stable Diffusion 文本→图像 文本到图像生成

11.4 GPT-SoVITS 详解

笔记来源:GPT-SoVITS 模型测试

GPT-SoVITS 是一个开源的 AI 语音克隆与文本转语音框架,结合 GPT 和 SoVITS,主打少样本克隆。

架构组成

  • GPT 部分(语义建模):理解文本内容,学习语音节奏、停顿、情绪,生成语义 token(语音"中间表示")
  • SoVITS 部分(语音合成):根据 GPT 输出的语义 token,合成目标人物音色

工作流程

  1. 上传音频 → 使用 UVR5 人声伴奏分离
  2. 切割音频 → 分割为短语音片段
  3. 语音降噪(可选)
  4. 语音识别 → 为每个语音配上文字
  5. 语音文本校对(可选)

要求:至少 8GB 以上显存

11.5 Qwen-VL 简介

笔记来源:Qwen-VL

Qwen-VL 是用于理解、定位、文本阅读等的多功能视觉语言模型(LVLM)。

特点

  • 视觉感受器:处理图像输入
  • 输入输出接口:支持图文交互
  • 三阶段训练管道:逐步对齐视觉和语言能力
  • 多语言支持

12. 参考资料

学习资料

推荐的深度学习教程

实用工具

  • Modelscope:国内模型下载平台
  • hf-mirror:HuggingFace 国内镜像
  • SwanLab:训练过程可视化
  • Postman:API 调试工具

相关推荐
开开心心_Every1 小时前
界面干净的开源免费电视浏览器
人工智能·科技·智能手机·计算机外设·rabbitmq·语音识别·etcd
Hooray1 小时前
告别低效循环!AI Agent 编排+编程显示器,让前端开发效率实现断代式跃升
前端·人工智能·ai编程
菜鸟‍1 小时前
【论文学习】2026.5 || 分解式视觉-语言对齐用于细粒度开放词汇分割
人工智能·深度学习·计算机视觉
大山佬1 小时前
硬件原理图与 PCB 实战:从信号完整性到 EMC 合规
人工智能
AI科技星1 小时前
第六卷:量天尺传奇(几何学)
网络·人工智能·算法·概率论·学习方法·几何学·拓扑学
莱歌数字1 小时前
FloEFD网格文件:核心概念、分类方法与工程实战指南
人工智能·科技·制造·散热·液冷散热
txg6662 小时前
机器人领域简报(2026年6月7日—14日)
大数据·人工智能·机器人
4A广告文案2 小时前
品牌负面评论难排查?AI情绪分析实时抓取全网评论,提前规避公关翻车
人工智能
Z-D-K2 小时前
S-44的周末”旅行“-周日
人工智能·ai·aigc·交互·agi