神经网络完全指南:从生物神经元到AI大模型

1.1 生物的启示

神经网络最初是受生物神经系统启发而来的。

人脑中约有 860亿个神经元 ,它们通过 突触 相互连接,构成了一个极其复杂的网络。每个神经元通过 树突 接收来自其他神经元的信号,在 细胞体 中进行处理,然后通过 轴突 将信号传递给下一个神经元。

关键的观察是:当输入信号的总和超过某个阈值时,神经元才会被激活并传递信号------这就是"全有或全无"的放电机制。

1.2 人工神经网络的诞生

1943年,神经生理学家 Warren McCulloch 和数学家 Walter Pitts 提出了 M-P 神经元模型,首次用数学模型模拟了生物神经元的工作方式。这就是人工神经网络的起点。

核心思想:接收多个输入 → 加权求和 → 与阈值比较 → 决定是否输出

从那以后,"神经网络"特指 人工神经网络(Artificial Neural Network, ANN) ------ 一种通过模拟生物神经网络的结构和功能,来解决复杂计算问题的数学模型。

1.3 一句话定义

神经网络 = 大量简单的计算单元(神经元)通过层层连接,协同完成复杂任务的数学模型。


2. 神经元:最小的计算单元

2.1 单个神经元的结构

一个典型的人工神经元包含三个核心部分:

复制代码
输入特征  ──→  权重求和  ──→  激活函数  ──→  输出
  x₁ ──── w₁ ─┐
  x₂ ──── w₂ ─┼──→  z = Σ(wᵢ·xᵢ) + b  ──→  a = f(z)  ──→  输出
  x₃ ──── w₃ ─┘

符号说明

  • x₁, x₂, x₃:输入特征(来自数据或其他神经元的输出)
  • w₁, w₂, w₃:权重(每个输入的重要程度)
  • b:偏置(阈值)
  • z:加权求和的结果
  • f(·):激活函数(引入非线性)
  • a:神经元的最终输出

2.2 数学表达

一个神经元做的事情可以用一个简单的公式概括:

a=f(∑i=1nwixi+b)a = f\left(\sum_{i=1}^{n} w_i x_i + b\right)a=f(i=1∑nwixi+b)

或者用向量形式:

a=f(wTx+b)a = f(\mathbf{w}^T \mathbf{x} + b)a=f(wTx+b)

2.3 理解"学习"的含义

神经元的"学习"本质上就是 不断调整权重 w 和偏置 b 的过程,使得最终输出 a 尽可能接近我们期望的目标。


3. 激活函数:赋予网络非线性能力

3.1 为什么需要激活函数?

这是一个关键问题:如果不用激活函数,无论网络有多少层,输出都只是输入的线性组合

证明很简单:两层线性变换 f(x)=W2(W1x+b1)+b2=(W2W1)x+(W2b1+b2)f(x) = W_2(W_1 x + b_1) + b_2 = (W_2 W_1)x + (W_2 b_1 + b_2)f(x)=W2(W1x+b1)+b2=(W2W1)x+(W2b1+b2),化简后本质上仍然是单层线性变换。

激活函数的核心作用:引入非线性,让神经网络具备拟合任意复杂函数的能力(通用近似定理)。

3.2 常用激活函数对比

Sigmoid

f(x)=11+e−xf(x) = \frac{1}{1 + e^{-x}}f(x)=1+e−x1

维度 说明
值域 (0, 1)
优点 输出可解释为概率;曲线平滑、梯度连续
缺点 ⚠️ 梯度消失严重(饱和区梯度趋近于0);输出非零均值;指数运算开销大
适用 仅用于二分类输出层;严禁用于隐藏层

梯度消失原因 :当 ∣x∣>5|x| > 5∣x∣>5 时,函数进入饱和区,梯度几乎为 0,深层网络参数无法更新。

Tanh(双曲正切)

f(x)=ex−e−xex+e−xf(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}f(x)=ex+e−xex−e−x

维度 说明
值域 (-1, 1)
优点 输出以 0 为中心(解决了 Sigmoid 的偏移问题)
缺点 ⚠️ 依然存在梯度消失;计算开销仍然较高
适用 早期 RNN/LSTM;基本已被 ReLU 系列替代
ReLU(线性修正单元)⭐ --- 当前最主流

f(x)=max⁡(0,x)f(x) = \max(0, x)f(x)=max(0,x)

维度 说明
值域 [0, +∞)
优点 计算极快 (只需判断正负);✅ 缓解梯度消失(正数区间梯度恒为1);✅ 加速收敛
缺点 "神经元死亡"问题(负数区间梯度为0,参数永不更新)
适用 CNN、Transformer、MLP 的隐藏层首选
LeakyReLU(带泄漏的ReLU)

f(x)=max⁡(αx,x),α 通常为 0.01f(x) = \max(\alpha x, x), \alpha \text{ 通常为 } 0.01f(x)=max(αx,x),α 通常为 0.01

改进:负数区间有一个小的斜率,避免神经元死亡。

Swish / SiLU

f(x)=x⋅σ(x)=x1+e−xf(x) = x \cdot \sigma(x) = \frac{x}{1 + e^{-x}}f(x)=x⋅σ(x)=1+e−xx

Google 提出,在某些深层网络上表现优于 ReLU。

GELU(高斯误差线性单元)

f(x)=x⋅Φ(x)f(x) = x \cdot \Phi(x)f(x)=x⋅Φ(x)

BERT、GPT 等 Transformer 模型的标配激活函数

3.3 选型速查

场景 推荐激活函数
CNN 隐藏层 ReLU(默认首选)
Transformer 隐藏层 GELU
RNN 隐藏层 Tanh(传统)/ ReLU(改进)
二分类输出层 Sigmoid
多分类输出层 Softmax
回归输出层 无/线性激活

4. 网络结构:层与连接

4.1 三层基本结构

一个典型的神经网络由三种"层"组成:

复制代码
输入层 ──→ [隐藏层] ──→ 输出层
         (可有多层)
  • 输入层:接收原始数据(如图像的像素值、文本的词向量)
  • 隐藏层:提取数据的抽象特征(一个网络可以有 0 到几百个隐藏层)
  • 输出层:输出最终结果(分类标签、回归值等)

4.2 "深度"的含义

深度学习中的"深度",指的就是隐藏层的数量。

  • 浅层网络:1~3 个隐藏层
  • 深度网络:数十到上百个隐藏层
  • 超深网络:数百到上千层(如 ResNet-152)

4.3 全连接层(Fully Connected Layer)

全连接是最基本的连接方式:上一层的每个神经元都与下一层的每个神经元相连

优点:表达能力最强

缺点:参数量巨大(一张 256×256 的图片,第一层全连接就有约 4000 万个参数)


5. 神经网络如何学习?------ 训练全流程

神经网络的训练过程可以类比"学生通过考试来学习":

前向传播 = 学生读书做题 → 得到考试成绩

反向传播 = 根据考试成绩 → 调整学习方法和重点

5.1 前向传播(Forward Propagation)

数据从输入层开始,逐层向前传递,最终得到预测结果。

步骤

  1. 输入数据进入输入层
  2. 逐层计算:zl=Wlal−1+blz^{l} = W^{l} a^{l-1} + b^{l}zl=Wlal−1+bl → al=f(zl)a^{l} = f(z^{l})al=f(zl)
  3. 得到输出层的预测值 y^\hat{y}y^

类比:就像信息在生物神经系统中从感受器传递到大脑皮层的过程。

5.2 损失函数(Loss Function)

将预测值 y^\hat{y}y^ 与真实值 yyy 进行比较,计算误差。

常见损失函数:

任务 损失函数
回归 均方误差 MSE:L=12(y^−y)2L = \frac{1}{2}(\hat{y} - y)^2L=21(y^−y)2
二分类 二元交叉熵:L=−ylog⁡y\^+(1−y)log⁡(1−y\^)L = -y\\log\\hat{y} + (1-y)\\log(1-\\hat{y})L=−ylogy\^+(1−y)log(1−y\^)
多分类 交叉熵损失

5.3 反向传播(Backpropagation)🔥 --- 核心算法

1986 年由 Rumelhart、Hinton 等人推广,是训练多层神经网络的基石算法

核心思想

  1. 计算输出层的误差
  2. 从输出层向前逐层计算每个参数的梯度(偏导数)
  3. 用梯度更新参数

链式法则(Chain Rule) 是反向传播的数学基础:

∂L∂wl=∂L∂al⋅∂al∂zl⋅∂zl∂wl\frac{\partial L}{\partial w^{l}} = \frac{\partial L}{\partial a^{l}} \cdot \frac{\partial a^{l}}{\partial z^{l}} \cdot \frac{\partial z^{l}}{\partial w^{l}}∂wl∂L=∂al∂L⋅∂zl∂al⋅∂wl∂zl

直观理解:误差就像"责任",要从输出层层层倒推,确定每一层、每个神经元对最终错误"负多大责任",然后据此调整。

5.4 梯度下降与优化器

有了梯度后,用梯度下降法更新参数:

w=w−η⋅∂L∂ww = w - \eta \cdot \frac{\partial L}{\partial w}w=w−η⋅∂w∂L

其中 η\etaη 是学习率(Learning Rate),控制每次更新的步长。

优化器进化

优化器 特点 问题
SGD 最朴素,沿梯度反方向走 收敛慢,易在鞍点停滞
Momentum 加入"惯性",冲过小坑 更平滑地收敛
AdaGrad 自适应学习率 学习率会衰减到零
RMSProp 改进 AdaGrad 适合非平稳目标
Adam Momentum + RMSProp 默认首选,稳定高效

5.5 完整训练循环

复制代码
for epoch in range(num_epochs):
    1. 前向传播: x → 预测值 ŷ
    2. 计算损失: L(ŷ, y)
    3. 反向传播: 计算所有参数的梯度
    4. 梯度下降: 更新所有参数 w, b

每完成一次"前向 + 反向 + 更新"称为一个 迭代(iteration)


6. 8大神经网络架构详解

6.1 前馈神经网络(FNN)/ 多层感知机(MLP)

结构:输入层 → 若干全连接隐藏层 → 输出层

特点

  • 数据单向流动,没有循环或反馈
  • 最基本的神经网络形式

适用:简单分类与回归、作为复杂网络的"积木块"

局限:无法处理序列数据、图像空间结构,参数量大


6.2 卷积神经网络(CNN)⭐ --- 图像领域的王者

核心创新 :引入卷积操作来提取局部特征。

三大核心思想
思想 说明 效果
局部感受野 每个神经元只连接输入的一小块区域 参数量从 O(n2)O(n^2)O(n2) 降至 O(k2)O(k^2)O(k2)
权值共享 同一个卷积核在整个图像上滑动 进一步减少参数量
池化下采样 取局部区域的最大值/平均值 降低维度,保留关键信息
标准CNN结构
复制代码
输入图像 → [卷积层 → 激活函数 → 池化层] × N → 全连接层 → 输出
经典CNN架构
模型 年份 关键贡献
LeNet-5 1998 CNN 的"Hello World",手写数字识别
AlexNet 2012 ImageNet 夺冠,引爆深度学习热潮
VGGNet 2014 证明网络越深效果越好
ResNet 2015 残差连接,可训练超百层网络
EfficientNet 2019 NAS 搜索出的高效结构
ViT 2020 用 Transformer 做视觉任务

ResNet 残差连接的核心代码

python 复制代码
class ResidualBlock(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, 3, padding=1)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.conv2 = nn.Conv2d(out_channels, out_channels, 3, padding=1)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.shortcut = nn.Sequential()
        if in_channels != out_channels:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_channels, out_channels, 1),
                nn.BatchNorm2d(out_channels)
            )

    def forward(self, x):
        residual = x
        out = F.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        out += self.shortcut(residual)  # 残差连接!
        return F.relu(out)

关键创新:跳跃连接让梯度可以"抄近道"直接回传到浅层,解决了深层网络的退化问题。

CNN 应用场景
场景 代表模型 效果
图像分类 ResNet / EfficientNet Top-1 准确率 > 88%
目标检测 YOLO / Faster R-CNN 实时检测 > 30FPS
图像分割 U-Net / DeepLab 像素级分类
人脸识别 FaceNet 99.8%+ 准确率
医学影像 U-Net 皮肤癌检测 91.3% 准确率

6.3 循环神经网络(RNN)--- 序列数据的先驱

核心特点:网络有"记忆",隐藏状态会随时间步传递。

复制代码
        ┌──────┐
x₀ →    │  RNN  │ → h₀ →    ┌──────┐
        └──────┘     x₁ →    │  RNN  │ → h₁ ...
                              └──────┘
RNN 的核心缺陷
  • 梯度消失:长序列中,早期信息在反向传播时梯度趋近于 0
  • 梯度爆炸:梯度逐层指数增长,导致参数剧烈震荡
  • 难以并行:必须按时间步依次计算,训练慢
LSTM(长短期记忆网络)--- RNN 的救星

1997 年 Hochreiter & Schmidhuber 提出,通过三门结构控制信息流动:

复制代码
遗忘门: f_t = σ(W_f·[h_{t-1}, x_t] + b_f)
输入门: i_t = σ(W_i·[h_{t-1}, x_t] + b_i)
细胞状态: C_t = f_t * C_{t-1} + i_t * tanh(W_C·[h_{t-1}, x_t] + b_C)
输出门: o_t = σ(W_o·[h_{t-1}, x_t] + b_o)
隐藏状态: h_t = o_t * tanh(C_t)

比喻:LSTM 就像一个有"记事本"(细胞状态)的人------可以决定要不要记、要不要忘、要不要拿出来用。

GRU(门控循环单元) 是 LSTM 的简化版本,只有两个门(重置门和更新门),参数量更少,效果相近。

模型 优点 缺点
RNN 结构简单,适合短序列 长序列梯度消失严重
LSTM 长序列建模能力强 参数量大,计算慢
GRU 参数少,训练快 表达力略弱于 LSTM

注:如今 RNN/LSTM 在 NLP 领域基本上已被 Transformer 取代,但在时间序列预测、语音处理等场景仍有应用。


6.4 Transformer --- 彻底改变AI格局的架构 ⭐

2017 年 Google 在《Attention Is All You Need》中提出,彻底颠覆了序列建模的方式

核心创新:自注意力机制(Self-Attention)

Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dk QKT)V

直观理解:在处理每个词时,模型会"看向"序列中的所有其他词,根据相关性加权聚合信息。

相比 RNN 的核心优势

维度 RNN Transformer
并行计算 ❌ 必须串行 ✅ 可完全并行
长距离依赖 ❌ 易丢失 ✅ 任意位置直接连接
全局视野 ❌ 局部 ✅ 全局
Transformer 架构概览
复制代码
输入序列
    ↓
Embedding + 位置编码
    ↓
┌──────────────────────────┐
│  多头自注意力 (Multi-Head Attention)
│        ↓
│  Add & LayerNorm (残差连接 + 归一化)
│        ↓
│  前馈神经网络 (FFN)
│        ↓
│  Add & LayerNorm
└──────────────────────────┘
    ↓
输出
Transformer 的变体与应用
方向 代表模型 特点
编码器(Encoder) BERT 双向理解,擅长分类/抽取
解码器(Decoder) GPT 系列 单向生成,擅长文本生成
编码器+解码器 T5 / BART 适合翻译、摘要等 Seq2Seq 任务
视觉 ViT / Swin 将图像分割成 Patch 序列
多模态 GPT-4o / Gemini 同时处理文本+图像+音频

6.5 生成对抗网络(GAN)

结构 :生成器(Generator)+ 判别器(Discriminator),两者博弈对抗

复制代码
随机噪声 → 生成器 → 假图片 ─┐
                            ├──→ 判别器 → 真/假?
真实图片 ──────────────────┘
  • 生成器:目标是"骗过"判别器,生成越来越真实的图片
  • 判别器:目标是分辨出哪些是"假的"

类比:生成器就像"伪造者",判别器就像"鉴定专家",两者互相促进、共同进步。

代表模型 亮点
DCGAN 用 CNN 实现 GAN
StyleGAN 可控人脸生成
CycleGAN 风格迁移(照片→油画)
Pix2Pix 图像到图像的翻译

注意:图像生成领域,GAN 在 2022 年后逐渐被 扩散模型(Diffusion Model) 取代(如 Stable Diffusion、DALL·E、Midjourney)。


6.6 自编码器(AutoEncoder, AE)

结构:编码器(Encoder)→ 瓶颈层(Bottleneck)→ 解码器(Decoder)

复制代码
输入 → [编码器] → 低维表示 → [解码器] → 重建输出

核心思想:将输入压缩到一个低维空间(编码),再从这个低维表示重建原始输入(解码)。网络被迫学习数据的最重要特征。

应用场景

变种 应用
标准自编码器 数据压缩、特征学习
去噪自编码器 图像去噪
稀疏自编码器 特征选择
变分自编码器(VAE) 图像生成(生成式AI的基石之一)

6.7 图神经网络(GNN)

特点 :专门处理图结构数据(社交网络、分子结构、知识图谱)。

核心思想:每个节点通过聚合邻居节点的信息来更新自身的表示。

代表模型

模型 全称 特点
GCN 图卷积网络 经典的消息传递框架
GAT 图注意力网络 引入注意力机制给邻居加权
GraphSAGE 图采样聚合 支持大规模图的归纳学习

应用:社交网络推荐、分子性质预测、知识图谱推理。


6.8 混合架构

将不同类型网络组合,优势互补:

组合 典型应用
CNN + RNN 图像描述生成(看图说话)
CNN + Transformer 视觉语言模型(VLM)
AE + GAN 更真实的图像生成
GNN + Transformer 分子结构预测、代码分析

7. 训练中的挑战与解决方案

7.1 梯度消失与梯度爆炸

问题:深度网络中,反向传播时梯度随层数指数级衰减(消失)或增长(爆炸)。

原因:链式法则导致每层梯度乘以权重矩阵和激活函数的导数。若导数 < 1,多层相乘后趋近于 0;若 > 1 则指数增长。

解决方案

方法 说明 效果
ReLU 激活函数 正半轴梯度恒为 1 大大缓解梯度消失
残差连接(ResNet) 跳跃连接让梯度直通 可训练百层以上网络
批量归一化(BatchNorm) 每层输出归一化,控制数据分布 加速收敛,稳定训练
权重初始化 Xavier / He 初始化 防止梯度过大或过小
LSTM 门控机制 三门结构控制梯度流动 缓解 RNN 梯度消失

权重初始化策略对比

初始化方法 适用激活函数
Xavier/Glorot Sigmoid、Tanh
He/Kaiming ReLU、LeakyReLU

7.2 过拟合(Overfitting)

问题:模型在训练集上表现太好,但泛化到新数据时效果差。

解决方案

方法 核心思想 效果
L1/L2 正则化 在损失函数中增加权重的惩罚项 限制模型复杂度
Dropout 训练时随机让部分神经元"失活" 防止神经元共适应
数据增强 对训练数据进行随机变换 变相增加数据量
Early Stopping 验证集性能不再提升时停止训练 防止过度训练
Batch Normalization 每层输入归一化 + 引入噪声 轻微正则化效果

Dropout 直观理解 :每次训练都相当于训练一个不同的子网络,最后相当于 多个子网络的集成

7.3 欠拟合(Underfitting)

问题:模型连训练数据都无法很好地拟合。

解决方案

  • 增加网络深度或宽度
  • 减少正则化强度
  • 训练更长的时间
  • 尝试更复杂的架构

8. 80年发展史:从感知机到GPT-5.5

神经网络的 80 多年发展经历了两起两落,是一部充满曲折又波澜壮阔的历史。

关键里程碑

年份 事件 意义
1943 M-P 神经元模型 理论原点------首次用数学模型模拟神经元
1958 Rosenblatt 提出感知机 第一个能学习的人工神经网络
1969 Minsky 出版《感知机》 指出感知机无法解决 XOR 问题,引发第一次 AI 寒冬
1974-1986 反向传播算法(BP)的发现与推广 解决多层网络训练难题,开启神经网络复兴
1989 通用近似定理证明 单隐层网络可逼近任意连续函数
1997 LSTM 提出 攻克 RNN 梯度消失问题
1998 LeNet-5 CNN 的里程碑,手写数字识别
2006 Hinton 提出深度信念网络 "深度学习"时代正式开启
2012 AlexNet 横扫 ImageNet 深度学习在计算机视觉领域的全面胜利
2014 GAN 提出 生成式 AI 元年
2015 ResNet 提出 残差连接,可训练超深网络
2017 Transformer 架构发布 大模型时代的基石
2018 BERT / GPT 发布 预训练 + 微调范式确立
2020 GPT-3 发布(1750 亿参数) 验证"规模即正义"
2022 ChatGPT 上线 大模型真正走向大众
2024 Sora / GPT-4o / o1 发布 文生视频突破、实时多模态、深度思考能力
2025 GPT-5 / LLaMA 4 发布 "博士级推理"时代、开源逼近闭源
2026 Gemini 3.1 Pro / GPT-5.5 通用推理能力登顶、多模态全面成熟

两次 AI 寒冬

  1. 第一次(1969-1986):Minsky 证明单层感知机有根本性局限,且当时无法有效训练多层网络,神经网络研究被边缘化近 15 年。
  2. 第二次(1990s 中期):SVM 等更优秀的算法出现,神经网络再次被冷落。

每次低谷后的复兴,都源于核心技术的突破。

为什么是 2012 年之后爆发?

三条因素在 2010 年代同时成熟:

  1. 大数据:互联网积累了海量训练数据(ImageNet 1400 万张图片)
  2. 大算力:GPU 的并行计算能力大幅提升
  3. 大算法:ReLU + Dropout + 反向传播的组合被重新发现和优化

9. 前沿进展:后Transformer时代的新架构

9.1 状态空间模型(SSM)与 Mamba

Transformer 虽然强大,但 自注意力机制的计算量随序列长度平方增长,在处理超长序列时效率剧降。

Mamba (2023-2026)是一种基于状态空间模型(SSM) 的新架构,目标是成为 Transformer 的高效替代。

版本 关键贡献
Mamba-1 (2023) 引入选择性机制,根据输入调节信息的遗忘与保留
Mamba-2 (2024) 证明 SSM 与注意力机制在数学上等价,兼容 GPU 加速
Mamba-3 (ICLR 2026 Oral) 提出梯形离散化,状态更新更精确;三大改进趋近设计完全体

Mamba 的核心优势

  • 线性复杂度:处理长序列时计算量远小于 Transformer
  • RNN 式的推理效率:生成时只需 O(1) 的记忆,而非 Transformer 的 O(n)
  • 长序列记忆:理论上可以记住任意长度的历史

代表混合架构:Mamba-Transformer 混合模型,兼顾两者的优势。

9.2 扩散模型(Diffusion Model)

2020 年 DDPM 论文提出后,扩散模型迅速取代 GAN 成为图像生成的主流范式。

核心思想

  1. 前向过程:逐步向图像添加噪声,直到完全变成随机噪声
  2. 反向过程:学习从随机噪声逐步去除噪声,还原出清晰的图像

代表产品:Stable Diffusion、DALL·E 3、Midjourney

9.3 大语言模型(LLM)

当前 AI 领域最炙手可热的方向,核心进展包括:

  • Scaling Law:模型规模、数据量、计算量越大,性能越好
  • 思维链(Chain-of-Thought):让模型逐步推理,提升复杂问题解决能力
  • 多模态融合:文本 + 图像 + 语音 + 视频的统一处理
  • Agent 能力:让模型能使用工具、自主规划和执行任务

10. 如何选择神经网络?

按任务类型选择

任务类型 推荐网络 说明
图像分类/检测 CNN(ResNet / EfficientNet)或 ViT 传统 CNN 仍高效,ViT 数据量大时更优
文本分类/情感分析 Transformer(BERT 系列) 预训练模型微调,效果最佳
文本生成/对话 Transformer(GPT 系列) 自回归生成范式
机器翻译 Transformer(T5 / M2M) 编码器-解码器架构
语音识别 RNN / Transformer(Whisper) CTC + 注意力机制
图像生成 扩散模型(Stable Diffusion) 当前图像生成主流
时间序列预测 LSTM / Transformer / Mamba 三者均可,看序列长度
推荐系统 GNN + Transformer 图结构建模用户行为
分子/药物发现 GNN + Transformer 分子结构预测
异常检测/压缩 自编码器(AE / VAE) 重建误差检测异常

按数据量与资源选择

复制代码
数据量 < 1万条  →  传统ML(XGBoost/RF)或浅层网络(1-2层)
数据量 1万-10万 →  CNN/Transformer(需较强的正则化)
数据量 > 10万   →  深度网络充分发挥优势
算力受限        →  MobileNet / 知识蒸馏 / 量化
追求 SOTA       →  大模型 + 大规模算力

任务选择流程图

复制代码
任务需求
  │
  ├─ 图像/视频数据 → CNN 或 ViT
  │
  ├─ 文本/NLP 数据 → Transformer(BERT / GPT)
  │
  ├─ 序列/时序数据 → Transformer 或 LSTM 或 Mamba
  │   (长序列优先 Transformer/Mamba)
  │
  ├─ 图结构数据 → GNN(GCN / GAT)
  │
  ├─ 生成任务 → 扩散模型(图像)/ GPT(文本)
  │
  └─ 表格/结构化数据 → XGBoost / LightGBM

写在最后

神经网络从 1943 年一个简单的数学模型,发展到今天驱动 GPT-5.5、Sora 等革命性产品的核心技术,走过了 80 多年的非凡历程。

几个关键认知

  1. 神经网络本质上是"函数逼近器"------它们学习的是从输入到输出的映射关系
  2. 数据 + 算力 + 算法是三大支柱------缺一不可
  3. 没有"万能架构"------不同任务需要不同的网络设计
  4. 领域知识仍然重要------虽然深度学习能自动提取特征,但理解问题本质才能设计出好的方案
  5. 发展远未结束------从 Transformer 到 Mamba,从 CNN 到 ViT,架构创新仍在加速