一、 准备与基础阶段 (1980s - 2000s)
- 理论基础 : 反向传播算法 (δ\deltaδ规则) 的提出 (Rumelhart, Hinton, Williams, 1986) 为训练多层网络奠定了基础。
- 网络架构: 卷积神经网络 (CNN) 的雏形出现 (Fukushima, 1980; LeCun et al., 1989 - LeNet)。
- 挑战: 受限于计算能力和数据量,深度网络训练困难(梯度消失/爆炸问题),未能广泛应用。
二、 突破与快速发展阶段 (2010s - 至今)
得益于大数据、更强算力(GPU)和算法改进,深度学习迎来爆发式增长。
-
计算机视觉 (Computer Vision)
- 关键突破: AlexNet (Krizhevsky, Sutskever, Hinton, 2012) 在 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 上取得显著优势,开启了深度学习在视觉领域的浪潮。
- 代表性技术 :
- 卷积神经网络 (CNN) : 成为图像识别、目标检测、图像分割等任务的核心架构。后续出现了一系列改进模型:
- VGGNet (Simonyan & Zisserman, 2014): 更深的网络结构。
- GoogLeNet/Inception (Szegedy et al., 2014): 引入 Inception 模块,提高计算效率。
- ResNet (He et al., 2015) : 引入残差连接 (Skip Connection),有效解决了深度网络训练难题 (f(x)+xf(x) + xf(x)+x),网络深度可达数百层。
- 目标检测: R-CNN 系列 (Fast R-CNN, Faster R-CNN, Mask R-CNN), YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector)。
- 图像分割: FCN (Fully Convolutional Network), U-Net (用于医学图像分割), DeepLab 系列。
- 生成模型: GAN (Generative Adversarial Network, Goodfellow et al., 2014) 及其变体 (如 DCGAN, StyleGAN),用于图像生成、图像转换等。
- 卷积神经网络 (CNN) : 成为图像识别、目标检测、图像分割等任务的核心架构。后续出现了一系列改进模型:
-
语音识别 (Speech Recognition)
- 关键突破: 深度学习显著提高了语音识别的准确率,取代了传统的混合高斯模型-隐马尔可夫模型 (GMM-HMM) 方法。
- 代表性技术 :
- 深度神经网络 (DNN): 用于替换 GMM 来估计 HMM 的状态概率。
- 循环神经网络 (RNN): 特别是 LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit),用于建模语音信号的时序依赖关系。
- 端到端模型: Connectionist Temporal Classification (CTC) 与 RNN/LSTM 结合,允许直接输出字符序列,简化流程。Deep Speech (Baidu, 2014) 是早期代表。
- Transformer 的应用: Transformer 架构 (后文详述) 及其衍生模型 (如 Conformer) 在语音识别中也展现出强大性能。
-
自然语言处理 (Natural Language Processing)
- 关键突破: Word Embedding (如 Word2Vec (Mikolov et al., 2013), GloVe (Pennington et al., 2014)) 将词语表示为稠密向量,捕捉语义信息。随后,基于神经网络的语言模型和序列建模能力大幅提升。
- 代表性技术 :
- 循环神经网络 (RNN/LSTM/GRU): 用于机器翻译、文本生成、情感分析等序列建模任务。
- Seq2Seq 模型: 编码器-解码器架构 (Encoder-Decoder),常用于机器翻译、文本摘要。
- 注意力机制 (Attention Mechanism) : (Bahdanau et al., 2014; Luong et al., 2015) 显著改善了 Seq2Seq 模型(尤其是长序列)的性能,允许模型聚焦于输入的相关部分。注意力权重计算通常表示为:
αij=exp(eij)∑kexp(eik)其中eij=a(si−1,hj) \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k}\exp(e_{ik})} \quad \text{其中} \quad e_{ij} = a(s_{i-1}, h_j) αij=∑kexp(eik)exp(eij)其中eij=a(si−1,hj) - Transformer 架构 : (Vaswani et al., 2017) 革命性突破。完全基于自注意力机制 (Self-Attention) 和位置编码,并行化程度高,训练效率显著提升,成为当前 NLP 的主流架构。
- 预训练语言模型 : 基于 Transformer 架构,在大规模语料上进行预训练,然后在具体任务上微调 (Fine-tuning)。
- BERT (Bidirectional Encoder Representations from Transformers, Devlin et al., 2018): 采用掩码语言模型 (Masked Language Model) 和下一句预测 (Next Sentence Prediction) 任务进行预训练,能更好地理解上下文。
- GPT (Generative Pre-trained Transformer, Radford et al., 2018): 采用自回归语言模型 (Autoregressive Language Model) 进行预训练,擅长文本生成任务。后续版本 (GPT-2, GPT-3) 模型规模越来越大,能力越来越强。
- 多模态模型: 结合视觉和语言信息,如 CLIP (Contrastive Language-Image Pretraining), DALL·E。
三、 当前趋势与挑战 (2020s - )
- 模型规模化: 模型参数数量持续增长 (如 GPT-3 有 1750 亿参数),对算力和数据需求巨大。
- 多模态学习: 融合视觉、语言、语音等多种信息进行理解和生成。
- 自监督/无监督学习: 减少对大规模标注数据的依赖。
- 可解释性与鲁棒性: 理解模型决策过程,提高对抗攻击的抵抗力。
- AI 伦理与安全: 关注模型偏见、隐私、滥用等问题。