深度学习（三）

一、准备与基础阶段 (1980s - 2000s)

理论基础 ：反向传播算法 (δ\deltaδ规则) 的提出 (Rumelhart, Hinton, Williams, 1986) 为训练多层网络奠定了基础。
网络架构：卷积神经网络 (CNN) 的雏形出现 (Fukushima, 1980; LeCun et al., 1989 - LeNet)。
挑战：受限于计算能力和数据量，深度网络训练困难（梯度消失/爆炸问题），未能广泛应用。

二、突破与快速发展阶段 (2010s - 至今)

得益于大数据、更强算力（GPU）和算法改进，深度学习迎来爆发式增长。

计算机视觉 (Computer Vision)
- 关键突破： AlexNet (Krizhevsky, Sutskever, Hinton, 2012) 在 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 上取得显著优势，开启了深度学习在视觉领域的浪潮。
- 代表性技术 ：
  - 卷积神经网络 (CNN) ：成为图像识别、目标检测、图像分割等任务的核心架构。后续出现了一系列改进模型：
    - VGGNet (Simonyan & Zisserman, 2014)：更深的网络结构。
    - GoogLeNet/Inception (Szegedy et al., 2014)：引入 Inception 模块，提高计算效率。
    - ResNet (He et al., 2015) ：引入残差连接 (Skip Connection)，有效解决了深度网络训练难题 (f(x)+xf(x) + xf(x)+x)，网络深度可达数百层。
  - 目标检测： R-CNN 系列 (Fast R-CNN, Faster R-CNN, Mask R-CNN)， YOLO (You Only Look Once)， SSD (Single Shot MultiBox Detector)。
  - 图像分割： FCN (Fully Convolutional Network)， U-Net (用于医学图像分割)， DeepLab 系列。
  - 生成模型： GAN (Generative Adversarial Network, Goodfellow et al., 2014) 及其变体 (如 DCGAN, StyleGAN)，用于图像生成、图像转换等。
语音识别 (Speech Recognition)
- 关键突破：深度学习显著提高了语音识别的准确率，取代了传统的混合高斯模型-隐马尔可夫模型 (GMM-HMM) 方法。
- 代表性技术 ：
  - 深度神经网络 (DNN)：用于替换 GMM 来估计 HMM 的状态概率。
  - 循环神经网络 (RNN)：特别是 LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit)，用于建模语音信号的时序依赖关系。
  - 端到端模型： Connectionist Temporal Classification (CTC) 与 RNN/LSTM 结合，允许直接输出字符序列，简化流程。Deep Speech (Baidu, 2014) 是早期代表。
  - Transformer 的应用： Transformer 架构 (后文详述) 及其衍生模型 (如 Conformer) 在语音识别中也展现出强大性能。
自然语言处理 (Natural Language Processing)
- 关键突破： Word Embedding (如 Word2Vec (Mikolov et al., 2013), GloVe (Pennington et al., 2014)) 将词语表示为稠密向量，捕捉语义信息。随后，基于神经网络的语言模型和序列建模能力大幅提升。
- 代表性技术 ：
  - 循环神经网络 (RNN/LSTM/GRU)：用于机器翻译、文本生成、情感分析等序列建模任务。
  - Seq2Seq 模型：编码器-解码器架构 (Encoder-Decoder)，常用于机器翻译、文本摘要。
  - 注意力机制 (Attention Mechanism) ： (Bahdanau et al., 2014; Luong et al., 2015) 显著改善了 Seq2Seq 模型（尤其是长序列）的性能，允许模型聚焦于输入的相关部分。注意力权重计算通常表示为：
    αij=exp⁡(eij)∑kexp⁡(eik)其中eij=a(si−1,hj) \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k}\exp(e_{ik})} \quad \text{其中} \quad e_{ij} = a(s_{i-1}, h_j) αij=∑kexp(eik)exp(eij)其中eij=a(si−1,hj)
  - Transformer 架构 ： (Vaswani et al., 2017) 革命性突破。完全基于自注意力机制 (Self-Attention) 和位置编码，并行化程度高，训练效率显著提升，成为当前 NLP 的主流架构。
  - 预训练语言模型 ：基于 Transformer 架构，在大规模语料上进行预训练，然后在具体任务上微调 (Fine-tuning)。
    - BERT (Bidirectional Encoder Representations from Transformers, Devlin et al., 2018)：采用掩码语言模型 (Masked Language Model) 和下一句预测 (Next Sentence Prediction) 任务进行预训练，能更好地理解上下文。
    - GPT (Generative Pre-trained Transformer, Radford et al., 2018)：采用自回归语言模型 (Autoregressive Language Model) 进行预训练，擅长文本生成任务。后续版本 (GPT-2, GPT-3) 模型规模越来越大，能力越来越强。
  - 多模态模型：结合视觉和语言信息，如 CLIP (Contrastive Language-Image Pretraining), DALL·E。

三、当前趋势与挑战 (2020s - )

模型规模化：模型参数数量持续增长 (如 GPT-3 有 1750 亿参数)，对算力和数据需求巨大。
多模态学习：融合视觉、语言、语音等多种信息进行理解和生成。
自监督/无监督学习：减少对大规模标注数据的依赖。
可解释性与鲁棒性：理解模型决策过程，提高对抗攻击的抵抗力。
AI 伦理与安全：关注模型偏见、隐私、滥用等问题。

深度学习（三）

一、 准备与基础阶段 (1980s - 2000s)

二、 突破与快速发展阶段 (2010s - 至今)

三、 当前趋势与挑战 (2020s - )

一、准备与基础阶段 (1980s - 2000s)

二、突破与快速发展阶段 (2010s - 至今)

三、当前趋势与挑战 (2020s - )