1.1 生物的启示
神经网络最初是受生物神经系统启发而来的。
人脑中约有 860亿个神经元 ,它们通过 突触 相互连接,构成了一个极其复杂的网络。每个神经元通过 树突 接收来自其他神经元的信号,在 细胞体 中进行处理,然后通过 轴突 将信号传递给下一个神经元。
关键的观察是:当输入信号的总和超过某个阈值时,神经元才会被激活并传递信号------这就是"全有或全无"的放电机制。
1.2 人工神经网络的诞生
1943年,神经生理学家 Warren McCulloch 和数学家 Walter Pitts 提出了 M-P 神经元模型,首次用数学模型模拟了生物神经元的工作方式。这就是人工神经网络的起点。
核心思想:接收多个输入 → 加权求和 → 与阈值比较 → 决定是否输出
从那以后,"神经网络"特指 人工神经网络(Artificial Neural Network, ANN) ------ 一种通过模拟生物神经网络的结构和功能,来解决复杂计算问题的数学模型。
1.3 一句话定义
神经网络 = 大量简单的计算单元(神经元)通过层层连接,协同完成复杂任务的数学模型。
2. 神经元:最小的计算单元
2.1 单个神经元的结构
一个典型的人工神经元包含三个核心部分:
输入特征 ──→ 权重求和 ──→ 激活函数 ──→ 输出
x₁ ──── w₁ ─┐
x₂ ──── w₂ ─┼──→ z = Σ(wᵢ·xᵢ) + b ──→ a = f(z) ──→ 输出
x₃ ──── w₃ ─┘
符号说明:
- x₁, x₂, x₃:输入特征(来自数据或其他神经元的输出)
- w₁, w₂, w₃:权重(每个输入的重要程度)
- b:偏置(阈值)
- z:加权求和的结果
- f(·):激活函数(引入非线性)
- a:神经元的最终输出
2.2 数学表达
一个神经元做的事情可以用一个简单的公式概括:
a=f(∑i=1nwixi+b)a = f\left(\sum_{i=1}^{n} w_i x_i + b\right)a=f(i=1∑nwixi+b)
或者用向量形式:
a=f(wTx+b)a = f(\mathbf{w}^T \mathbf{x} + b)a=f(wTx+b)
2.3 理解"学习"的含义
神经元的"学习"本质上就是 不断调整权重 w 和偏置 b 的过程,使得最终输出 a 尽可能接近我们期望的目标。
3. 激活函数:赋予网络非线性能力
3.1 为什么需要激活函数?
这是一个关键问题:如果不用激活函数,无论网络有多少层,输出都只是输入的线性组合。
证明很简单:两层线性变换 f(x)=W2(W1x+b1)+b2=(W2W1)x+(W2b1+b2)f(x) = W_2(W_1 x + b_1) + b_2 = (W_2 W_1)x + (W_2 b_1 + b_2)f(x)=W2(W1x+b1)+b2=(W2W1)x+(W2b1+b2),化简后本质上仍然是单层线性变换。
激活函数的核心作用:引入非线性,让神经网络具备拟合任意复杂函数的能力(通用近似定理)。
3.2 常用激活函数对比
Sigmoid
f(x)=11+e−xf(x) = \frac{1}{1 + e^{-x}}f(x)=1+e−x1
| 维度 | 说明 |
|---|---|
| 值域 | (0, 1) |
| 优点 | 输出可解释为概率;曲线平滑、梯度连续 |
| 缺点 | ⚠️ 梯度消失严重(饱和区梯度趋近于0);输出非零均值;指数运算开销大 |
| 适用 | 仅用于二分类输出层;严禁用于隐藏层 |
梯度消失原因 :当 ∣x∣>5|x| > 5∣x∣>5 时,函数进入饱和区,梯度几乎为 0,深层网络参数无法更新。
Tanh(双曲正切)
f(x)=ex−e−xex+e−xf(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}f(x)=ex+e−xex−e−x
| 维度 | 说明 |
|---|---|
| 值域 | (-1, 1) |
| 优点 | 输出以 0 为中心(解决了 Sigmoid 的偏移问题) |
| 缺点 | ⚠️ 依然存在梯度消失;计算开销仍然较高 |
| 适用 | 早期 RNN/LSTM;基本已被 ReLU 系列替代 |
ReLU(线性修正单元)⭐ --- 当前最主流
f(x)=max(0,x)f(x) = \max(0, x)f(x)=max(0,x)
| 维度 | 说明 |
|---|---|
| 值域 | [0, +∞) |
| 优点 | ✅ 计算极快 (只需判断正负);✅ 缓解梯度消失(正数区间梯度恒为1);✅ 加速收敛 |
| 缺点 | "神经元死亡"问题(负数区间梯度为0,参数永不更新) |
| 适用 | CNN、Transformer、MLP 的隐藏层首选 |
LeakyReLU(带泄漏的ReLU)
f(x)=max(αx,x),α 通常为 0.01f(x) = \max(\alpha x, x), \alpha \text{ 通常为 } 0.01f(x)=max(αx,x),α 通常为 0.01
改进:负数区间有一个小的斜率,避免神经元死亡。
Swish / SiLU
f(x)=x⋅σ(x)=x1+e−xf(x) = x \cdot \sigma(x) = \frac{x}{1 + e^{-x}}f(x)=x⋅σ(x)=1+e−xx
Google 提出,在某些深层网络上表现优于 ReLU。
GELU(高斯误差线性单元)
f(x)=x⋅Φ(x)f(x) = x \cdot \Phi(x)f(x)=x⋅Φ(x)
BERT、GPT 等 Transformer 模型的标配激活函数。
3.3 选型速查
| 场景 | 推荐激活函数 |
|---|---|
| CNN 隐藏层 | ReLU(默认首选) |
| Transformer 隐藏层 | GELU |
| RNN 隐藏层 | Tanh(传统)/ ReLU(改进) |
| 二分类输出层 | Sigmoid |
| 多分类输出层 | Softmax |
| 回归输出层 | 无/线性激活 |
4. 网络结构:层与连接
4.1 三层基本结构
一个典型的神经网络由三种"层"组成:
输入层 ──→ [隐藏层] ──→ 输出层
(可有多层)
- 输入层:接收原始数据(如图像的像素值、文本的词向量)
- 隐藏层:提取数据的抽象特征(一个网络可以有 0 到几百个隐藏层)
- 输出层:输出最终结果(分类标签、回归值等)
4.2 "深度"的含义
深度学习中的"深度",指的就是隐藏层的数量。
- 浅层网络:1~3 个隐藏层
- 深度网络:数十到上百个隐藏层
- 超深网络:数百到上千层(如 ResNet-152)
4.3 全连接层(Fully Connected Layer)
全连接是最基本的连接方式:上一层的每个神经元都与下一层的每个神经元相连。
优点:表达能力最强
缺点:参数量巨大(一张 256×256 的图片,第一层全连接就有约 4000 万个参数)
5. 神经网络如何学习?------ 训练全流程
神经网络的训练过程可以类比"学生通过考试来学习":
前向传播 = 学生读书做题 → 得到考试成绩
反向传播 = 根据考试成绩 → 调整学习方法和重点
5.1 前向传播(Forward Propagation)
数据从输入层开始,逐层向前传递,最终得到预测结果。
步骤:
- 输入数据进入输入层
- 逐层计算:zl=Wlal−1+blz^{l} = W^{l} a^{l-1} + b^{l}zl=Wlal−1+bl → al=f(zl)a^{l} = f(z^{l})al=f(zl)
- 得到输出层的预测值 y^\hat{y}y^
类比:就像信息在生物神经系统中从感受器传递到大脑皮层的过程。
5.2 损失函数(Loss Function)
将预测值 y^\hat{y}y^ 与真实值 yyy 进行比较,计算误差。
常见损失函数:
| 任务 | 损失函数 |
|---|---|
| 回归 | 均方误差 MSE:L=12(y^−y)2L = \frac{1}{2}(\hat{y} - y)^2L=21(y^−y)2 |
| 二分类 | 二元交叉熵:L=−ylogy\^+(1−y)log(1−y\^)L = -y\\log\\hat{y} + (1-y)\\log(1-\\hat{y})L=−ylogy\^+(1−y)log(1−y\^) |
| 多分类 | 交叉熵损失 |
5.3 反向传播(Backpropagation)🔥 --- 核心算法
1986 年由 Rumelhart、Hinton 等人推广,是训练多层神经网络的基石算法。
核心思想:
- 计算输出层的误差
- 从输出层向前逐层计算每个参数的梯度(偏导数)
- 用梯度更新参数
链式法则(Chain Rule) 是反向传播的数学基础:
∂L∂wl=∂L∂al⋅∂al∂zl⋅∂zl∂wl\frac{\partial L}{\partial w^{l}} = \frac{\partial L}{\partial a^{l}} \cdot \frac{\partial a^{l}}{\partial z^{l}} \cdot \frac{\partial z^{l}}{\partial w^{l}}∂wl∂L=∂al∂L⋅∂zl∂al⋅∂wl∂zl
直观理解:误差就像"责任",要从输出层层层倒推,确定每一层、每个神经元对最终错误"负多大责任",然后据此调整。
5.4 梯度下降与优化器
有了梯度后,用梯度下降法更新参数:
w=w−η⋅∂L∂ww = w - \eta \cdot \frac{\partial L}{\partial w}w=w−η⋅∂w∂L
其中 η\etaη 是学习率(Learning Rate),控制每次更新的步长。
优化器进化:
| 优化器 | 特点 | 问题 |
|---|---|---|
| SGD | 最朴素,沿梯度反方向走 | 收敛慢,易在鞍点停滞 |
| Momentum | 加入"惯性",冲过小坑 | 更平滑地收敛 |
| AdaGrad | 自适应学习率 | 学习率会衰减到零 |
| RMSProp | 改进 AdaGrad | 适合非平稳目标 |
| Adam ⭐ | Momentum + RMSProp | 默认首选,稳定高效 |
5.5 完整训练循环
for epoch in range(num_epochs):
1. 前向传播: x → 预测值 ŷ
2. 计算损失: L(ŷ, y)
3. 反向传播: 计算所有参数的梯度
4. 梯度下降: 更新所有参数 w, b
每完成一次"前向 + 反向 + 更新"称为一个 迭代(iteration)。
6. 8大神经网络架构详解
6.1 前馈神经网络(FNN)/ 多层感知机(MLP)
结构:输入层 → 若干全连接隐藏层 → 输出层
特点:
- 数据单向流动,没有循环或反馈
- 最基本的神经网络形式
适用:简单分类与回归、作为复杂网络的"积木块"
局限:无法处理序列数据、图像空间结构,参数量大
6.2 卷积神经网络(CNN)⭐ --- 图像领域的王者
核心创新 :引入卷积操作来提取局部特征。
三大核心思想
| 思想 | 说明 | 效果 |
|---|---|---|
| 局部感受野 | 每个神经元只连接输入的一小块区域 | 参数量从 O(n2)O(n^2)O(n2) 降至 O(k2)O(k^2)O(k2) |
| 权值共享 | 同一个卷积核在整个图像上滑动 | 进一步减少参数量 |
| 池化下采样 | 取局部区域的最大值/平均值 | 降低维度,保留关键信息 |
标准CNN结构
输入图像 → [卷积层 → 激活函数 → 池化层] × N → 全连接层 → 输出
经典CNN架构
| 模型 | 年份 | 关键贡献 |
|---|---|---|
| LeNet-5 | 1998 | CNN 的"Hello World",手写数字识别 |
| AlexNet | 2012 | ImageNet 夺冠,引爆深度学习热潮 |
| VGGNet | 2014 | 证明网络越深效果越好 |
| ResNet | 2015 | 残差连接,可训练超百层网络 |
| EfficientNet | 2019 | NAS 搜索出的高效结构 |
| ViT | 2020 | 用 Transformer 做视觉任务 |
ResNet 残差连接的核心代码:
python
class ResidualBlock(nn.Module):
def __init__(self, in_channels, out_channels):
super().__init__()
self.conv1 = nn.Conv2d(in_channels, out_channels, 3, padding=1)
self.bn1 = nn.BatchNorm2d(out_channels)
self.conv2 = nn.Conv2d(out_channels, out_channels, 3, padding=1)
self.bn2 = nn.BatchNorm2d(out_channels)
self.shortcut = nn.Sequential()
if in_channels != out_channels:
self.shortcut = nn.Sequential(
nn.Conv2d(in_channels, out_channels, 1),
nn.BatchNorm2d(out_channels)
)
def forward(self, x):
residual = x
out = F.relu(self.bn1(self.conv1(x)))
out = self.bn2(self.conv2(out))
out += self.shortcut(residual) # 残差连接!
return F.relu(out)
关键创新:跳跃连接让梯度可以"抄近道"直接回传到浅层,解决了深层网络的退化问题。
CNN 应用场景
| 场景 | 代表模型 | 效果 |
|---|---|---|
| 图像分类 | ResNet / EfficientNet | Top-1 准确率 > 88% |
| 目标检测 | YOLO / Faster R-CNN | 实时检测 > 30FPS |
| 图像分割 | U-Net / DeepLab | 像素级分类 |
| 人脸识别 | FaceNet | 99.8%+ 准确率 |
| 医学影像 | U-Net | 皮肤癌检测 91.3% 准确率 |
6.3 循环神经网络(RNN)--- 序列数据的先驱
核心特点:网络有"记忆",隐藏状态会随时间步传递。
┌──────┐
x₀ → │ RNN │ → h₀ → ┌──────┐
└──────┘ x₁ → │ RNN │ → h₁ ...
└──────┘
RNN 的核心缺陷
- 梯度消失:长序列中,早期信息在反向传播时梯度趋近于 0
- 梯度爆炸:梯度逐层指数增长,导致参数剧烈震荡
- 难以并行:必须按时间步依次计算,训练慢
LSTM(长短期记忆网络)--- RNN 的救星
1997 年 Hochreiter & Schmidhuber 提出,通过三门结构控制信息流动:
遗忘门: f_t = σ(W_f·[h_{t-1}, x_t] + b_f)
输入门: i_t = σ(W_i·[h_{t-1}, x_t] + b_i)
细胞状态: C_t = f_t * C_{t-1} + i_t * tanh(W_C·[h_{t-1}, x_t] + b_C)
输出门: o_t = σ(W_o·[h_{t-1}, x_t] + b_o)
隐藏状态: h_t = o_t * tanh(C_t)
比喻:LSTM 就像一个有"记事本"(细胞状态)的人------可以决定要不要记、要不要忘、要不要拿出来用。
GRU(门控循环单元) 是 LSTM 的简化版本,只有两个门(重置门和更新门),参数量更少,效果相近。
| 模型 | 优点 | 缺点 |
|---|---|---|
| RNN | 结构简单,适合短序列 | 长序列梯度消失严重 |
| LSTM | 长序列建模能力强 | 参数量大,计算慢 |
| GRU | 参数少,训练快 | 表达力略弱于 LSTM |
注:如今 RNN/LSTM 在 NLP 领域基本上已被 Transformer 取代,但在时间序列预测、语音处理等场景仍有应用。
6.4 Transformer --- 彻底改变AI格局的架构 ⭐
2017 年 Google 在《Attention Is All You Need》中提出,彻底颠覆了序列建模的方式。
核心创新:自注意力机制(Self-Attention)
Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dk QKT)V
直观理解:在处理每个词时,模型会"看向"序列中的所有其他词,根据相关性加权聚合信息。
相比 RNN 的核心优势:
| 维度 | RNN | Transformer |
|---|---|---|
| 并行计算 | ❌ 必须串行 | ✅ 可完全并行 |
| 长距离依赖 | ❌ 易丢失 | ✅ 任意位置直接连接 |
| 全局视野 | ❌ 局部 | ✅ 全局 |
Transformer 架构概览
输入序列
↓
Embedding + 位置编码
↓
┌──────────────────────────┐
│ 多头自注意力 (Multi-Head Attention)
│ ↓
│ Add & LayerNorm (残差连接 + 归一化)
│ ↓
│ 前馈神经网络 (FFN)
│ ↓
│ Add & LayerNorm
└──────────────────────────┘
↓
输出
Transformer 的变体与应用
| 方向 | 代表模型 | 特点 |
|---|---|---|
| 编码器(Encoder) | BERT | 双向理解,擅长分类/抽取 |
| 解码器(Decoder) | GPT 系列 | 单向生成,擅长文本生成 |
| 编码器+解码器 | T5 / BART | 适合翻译、摘要等 Seq2Seq 任务 |
| 视觉 | ViT / Swin | 将图像分割成 Patch 序列 |
| 多模态 | GPT-4o / Gemini | 同时处理文本+图像+音频 |
6.5 生成对抗网络(GAN)
结构 :生成器(Generator)+ 判别器(Discriminator),两者博弈对抗。
随机噪声 → 生成器 → 假图片 ─┐
├──→ 判别器 → 真/假?
真实图片 ──────────────────┘
- 生成器:目标是"骗过"判别器,生成越来越真实的图片
- 判别器:目标是分辨出哪些是"假的"
类比:生成器就像"伪造者",判别器就像"鉴定专家",两者互相促进、共同进步。
| 代表模型 | 亮点 |
|---|---|
| DCGAN | 用 CNN 实现 GAN |
| StyleGAN | 可控人脸生成 |
| CycleGAN | 风格迁移(照片→油画) |
| Pix2Pix | 图像到图像的翻译 |
注意:图像生成领域,GAN 在 2022 年后逐渐被 扩散模型(Diffusion Model) 取代(如 Stable Diffusion、DALL·E、Midjourney)。
6.6 自编码器(AutoEncoder, AE)
结构:编码器(Encoder)→ 瓶颈层(Bottleneck)→ 解码器(Decoder)
输入 → [编码器] → 低维表示 → [解码器] → 重建输出
核心思想:将输入压缩到一个低维空间(编码),再从这个低维表示重建原始输入(解码)。网络被迫学习数据的最重要特征。
应用场景:
| 变种 | 应用 |
|---|---|
| 标准自编码器 | 数据压缩、特征学习 |
| 去噪自编码器 | 图像去噪 |
| 稀疏自编码器 | 特征选择 |
| 变分自编码器(VAE) | 图像生成(生成式AI的基石之一) |
6.7 图神经网络(GNN)
特点 :专门处理图结构数据(社交网络、分子结构、知识图谱)。
核心思想:每个节点通过聚合邻居节点的信息来更新自身的表示。
代表模型:
| 模型 | 全称 | 特点 |
|---|---|---|
| GCN | 图卷积网络 | 经典的消息传递框架 |
| GAT | 图注意力网络 | 引入注意力机制给邻居加权 |
| GraphSAGE | 图采样聚合 | 支持大规模图的归纳学习 |
应用:社交网络推荐、分子性质预测、知识图谱推理。
6.8 混合架构
将不同类型网络组合,优势互补:
| 组合 | 典型应用 |
|---|---|
| CNN + RNN | 图像描述生成(看图说话) |
| CNN + Transformer | 视觉语言模型(VLM) |
| AE + GAN | 更真实的图像生成 |
| GNN + Transformer | 分子结构预测、代码分析 |
7. 训练中的挑战与解决方案
7.1 梯度消失与梯度爆炸
问题:深度网络中,反向传播时梯度随层数指数级衰减(消失)或增长(爆炸)。
原因:链式法则导致每层梯度乘以权重矩阵和激活函数的导数。若导数 < 1,多层相乘后趋近于 0;若 > 1 则指数增长。
解决方案:
| 方法 | 说明 | 效果 |
|---|---|---|
| ReLU 激活函数 | 正半轴梯度恒为 1 | 大大缓解梯度消失 |
| 残差连接(ResNet) | 跳跃连接让梯度直通 | 可训练百层以上网络 |
| 批量归一化(BatchNorm) | 每层输出归一化,控制数据分布 | 加速收敛,稳定训练 |
| 权重初始化 | Xavier / He 初始化 | 防止梯度过大或过小 |
| LSTM 门控机制 | 三门结构控制梯度流动 | 缓解 RNN 梯度消失 |
权重初始化策略对比:
| 初始化方法 | 适用激活函数 |
|---|---|
| Xavier/Glorot | Sigmoid、Tanh |
| He/Kaiming | ReLU、LeakyReLU |
7.2 过拟合(Overfitting)
问题:模型在训练集上表现太好,但泛化到新数据时效果差。
解决方案:
| 方法 | 核心思想 | 效果 |
|---|---|---|
| L1/L2 正则化 | 在损失函数中增加权重的惩罚项 | 限制模型复杂度 |
| Dropout | 训练时随机让部分神经元"失活" | 防止神经元共适应 |
| 数据增强 | 对训练数据进行随机变换 | 变相增加数据量 |
| Early Stopping | 验证集性能不再提升时停止训练 | 防止过度训练 |
| Batch Normalization | 每层输入归一化 + 引入噪声 | 轻微正则化效果 |
Dropout 直观理解 :每次训练都相当于训练一个不同的子网络,最后相当于 多个子网络的集成。
7.3 欠拟合(Underfitting)
问题:模型连训练数据都无法很好地拟合。
解决方案:
- 增加网络深度或宽度
- 减少正则化强度
- 训练更长的时间
- 尝试更复杂的架构
8. 80年发展史:从感知机到GPT-5.5
神经网络的 80 多年发展经历了两起两落,是一部充满曲折又波澜壮阔的历史。
关键里程碑
| 年份 | 事件 | 意义 |
|---|---|---|
| 1943 | M-P 神经元模型 | 理论原点------首次用数学模型模拟神经元 |
| 1958 | Rosenblatt 提出感知机 | 第一个能学习的人工神经网络 |
| 1969 | Minsky 出版《感知机》 | 指出感知机无法解决 XOR 问题,引发第一次 AI 寒冬 |
| 1974-1986 | 反向传播算法(BP)的发现与推广 | 解决多层网络训练难题,开启神经网络复兴 |
| 1989 | 通用近似定理证明 | 单隐层网络可逼近任意连续函数 |
| 1997 | LSTM 提出 | 攻克 RNN 梯度消失问题 |
| 1998 | LeNet-5 | CNN 的里程碑,手写数字识别 |
| 2006 | Hinton 提出深度信念网络 | "深度学习"时代正式开启 |
| 2012 | AlexNet 横扫 ImageNet | 深度学习在计算机视觉领域的全面胜利 |
| 2014 | GAN 提出 | 生成式 AI 元年 |
| 2015 | ResNet 提出 | 残差连接,可训练超深网络 |
| 2017 | Transformer 架构发布 | 大模型时代的基石 |
| 2018 | BERT / GPT 发布 | 预训练 + 微调范式确立 |
| 2020 | GPT-3 发布(1750 亿参数) | 验证"规模即正义" |
| 2022 | ChatGPT 上线 | 大模型真正走向大众 |
| 2024 | Sora / GPT-4o / o1 发布 | 文生视频突破、实时多模态、深度思考能力 |
| 2025 | GPT-5 / LLaMA 4 发布 | "博士级推理"时代、开源逼近闭源 |
| 2026 | Gemini 3.1 Pro / GPT-5.5 | 通用推理能力登顶、多模态全面成熟 |
两次 AI 寒冬
- 第一次(1969-1986):Minsky 证明单层感知机有根本性局限,且当时无法有效训练多层网络,神经网络研究被边缘化近 15 年。
- 第二次(1990s 中期):SVM 等更优秀的算法出现,神经网络再次被冷落。
每次低谷后的复兴,都源于核心技术的突破。
为什么是 2012 年之后爆发?
三条因素在 2010 年代同时成熟:
- 大数据:互联网积累了海量训练数据(ImageNet 1400 万张图片)
- 大算力:GPU 的并行计算能力大幅提升
- 大算法:ReLU + Dropout + 反向传播的组合被重新发现和优化
9. 前沿进展:后Transformer时代的新架构
9.1 状态空间模型(SSM)与 Mamba
Transformer 虽然强大,但 自注意力机制的计算量随序列长度平方增长,在处理超长序列时效率剧降。
Mamba (2023-2026)是一种基于状态空间模型(SSM) 的新架构,目标是成为 Transformer 的高效替代。
| 版本 | 关键贡献 |
|---|---|
| Mamba-1 (2023) | 引入选择性机制,根据输入调节信息的遗忘与保留 |
| Mamba-2 (2024) | 证明 SSM 与注意力机制在数学上等价,兼容 GPU 加速 |
| Mamba-3 (ICLR 2026 Oral) | 提出梯形离散化,状态更新更精确;三大改进趋近设计完全体 |
Mamba 的核心优势:
- 线性复杂度:处理长序列时计算量远小于 Transformer
- RNN 式的推理效率:生成时只需 O(1) 的记忆,而非 Transformer 的 O(n)
- 长序列记忆:理论上可以记住任意长度的历史
代表混合架构:Mamba-Transformer 混合模型,兼顾两者的优势。
9.2 扩散模型(Diffusion Model)
2020 年 DDPM 论文提出后,扩散模型迅速取代 GAN 成为图像生成的主流范式。
核心思想:
- 前向过程:逐步向图像添加噪声,直到完全变成随机噪声
- 反向过程:学习从随机噪声逐步去除噪声,还原出清晰的图像
代表产品:Stable Diffusion、DALL·E 3、Midjourney
9.3 大语言模型(LLM)
当前 AI 领域最炙手可热的方向,核心进展包括:
- Scaling Law:模型规模、数据量、计算量越大,性能越好
- 思维链(Chain-of-Thought):让模型逐步推理,提升复杂问题解决能力
- 多模态融合:文本 + 图像 + 语音 + 视频的统一处理
- Agent 能力:让模型能使用工具、自主规划和执行任务
10. 如何选择神经网络?
按任务类型选择
| 任务类型 | 推荐网络 | 说明 |
|---|---|---|
| 图像分类/检测 | CNN(ResNet / EfficientNet)或 ViT | 传统 CNN 仍高效,ViT 数据量大时更优 |
| 文本分类/情感分析 | Transformer(BERT 系列) | 预训练模型微调,效果最佳 |
| 文本生成/对话 | Transformer(GPT 系列) | 自回归生成范式 |
| 机器翻译 | Transformer(T5 / M2M) | 编码器-解码器架构 |
| 语音识别 | RNN / Transformer(Whisper) | CTC + 注意力机制 |
| 图像生成 | 扩散模型(Stable Diffusion) | 当前图像生成主流 |
| 时间序列预测 | LSTM / Transformer / Mamba | 三者均可,看序列长度 |
| 推荐系统 | GNN + Transformer | 图结构建模用户行为 |
| 分子/药物发现 | GNN + Transformer | 分子结构预测 |
| 异常检测/压缩 | 自编码器(AE / VAE) | 重建误差检测异常 |
按数据量与资源选择
数据量 < 1万条 → 传统ML(XGBoost/RF)或浅层网络(1-2层)
数据量 1万-10万 → CNN/Transformer(需较强的正则化)
数据量 > 10万 → 深度网络充分发挥优势
算力受限 → MobileNet / 知识蒸馏 / 量化
追求 SOTA → 大模型 + 大规模算力
任务选择流程图
任务需求
│
├─ 图像/视频数据 → CNN 或 ViT
│
├─ 文本/NLP 数据 → Transformer(BERT / GPT)
│
├─ 序列/时序数据 → Transformer 或 LSTM 或 Mamba
│ (长序列优先 Transformer/Mamba)
│
├─ 图结构数据 → GNN(GCN / GAT)
│
├─ 生成任务 → 扩散模型(图像)/ GPT(文本)
│
└─ 表格/结构化数据 → XGBoost / LightGBM
写在最后
神经网络从 1943 年一个简单的数学模型,发展到今天驱动 GPT-5.5、Sora 等革命性产品的核心技术,走过了 80 多年的非凡历程。
几个关键认知:
- 神经网络本质上是"函数逼近器"------它们学习的是从输入到输出的映射关系
- 数据 + 算力 + 算法是三大支柱------缺一不可
- 没有"万能架构"------不同任务需要不同的网络设计
- 领域知识仍然重要------虽然深度学习能自动提取特征,但理解问题本质才能设计出好的方案
- 发展远未结束------从 Transformer 到 Mamba,从 CNN 到 ViT,架构创新仍在加速