深度学习(三)

一、 准备与基础阶段 (1980s - 2000s)

  • 理论基础 : 反向传播算法 (δ\deltaδ规则) 的提出 (Rumelhart, Hinton, Williams, 1986) 为训练多层网络奠定了基础。
  • 网络架构: 卷积神经网络 (CNN) 的雏形出现 (Fukushima, 1980; LeCun et al., 1989 - LeNet)。
  • 挑战: 受限于计算能力和数据量,深度网络训练困难(梯度消失/爆炸问题),未能广泛应用。

二、 突破与快速发展阶段 (2010s - 至今)

得益于大数据、更强算力(GPU)和算法改进,深度学习迎来爆发式增长。

  1. 计算机视觉 (Computer Vision)

    • 关键突破: AlexNet (Krizhevsky, Sutskever, Hinton, 2012) 在 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 上取得显著优势,开启了深度学习在视觉领域的浪潮。
    • 代表性技术
      • 卷积神经网络 (CNN) : 成为图像识别、目标检测、图像分割等任务的核心架构。后续出现了一系列改进模型:
        • VGGNet (Simonyan & Zisserman, 2014): 更深的网络结构。
        • GoogLeNet/Inception (Szegedy et al., 2014): 引入 Inception 模块,提高计算效率。
        • ResNet (He et al., 2015) : 引入残差连接 (Skip Connection),有效解决了深度网络训练难题 (f(x)+xf(x) + xf(x)+x),网络深度可达数百层。
      • 目标检测: R-CNN 系列 (Fast R-CNN, Faster R-CNN, Mask R-CNN), YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector)。
      • 图像分割: FCN (Fully Convolutional Network), U-Net (用于医学图像分割), DeepLab 系列。
      • 生成模型: GAN (Generative Adversarial Network, Goodfellow et al., 2014) 及其变体 (如 DCGAN, StyleGAN),用于图像生成、图像转换等。
  2. 语音识别 (Speech Recognition)

    • 关键突破: 深度学习显著提高了语音识别的准确率,取代了传统的混合高斯模型-隐马尔可夫模型 (GMM-HMM) 方法。
    • 代表性技术
      • 深度神经网络 (DNN): 用于替换 GMM 来估计 HMM 的状态概率。
      • 循环神经网络 (RNN): 特别是 LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit),用于建模语音信号的时序依赖关系。
      • 端到端模型: Connectionist Temporal Classification (CTC) 与 RNN/LSTM 结合,允许直接输出字符序列,简化流程。Deep Speech (Baidu, 2014) 是早期代表。
      • Transformer 的应用: Transformer 架构 (后文详述) 及其衍生模型 (如 Conformer) 在语音识别中也展现出强大性能。
  3. 自然语言处理 (Natural Language Processing)

    • 关键突破: Word Embedding (如 Word2Vec (Mikolov et al., 2013), GloVe (Pennington et al., 2014)) 将词语表示为稠密向量,捕捉语义信息。随后,基于神经网络的语言模型和序列建模能力大幅提升。
    • 代表性技术
      • 循环神经网络 (RNN/LSTM/GRU): 用于机器翻译、文本生成、情感分析等序列建模任务。
      • Seq2Seq 模型: 编码器-解码器架构 (Encoder-Decoder),常用于机器翻译、文本摘要。
      • 注意力机制 (Attention Mechanism) : (Bahdanau et al., 2014; Luong et al., 2015) 显著改善了 Seq2Seq 模型(尤其是长序列)的性能,允许模型聚焦于输入的相关部分。注意力权重计算通常表示为:
        αij=exp⁡(eij)∑kexp⁡(eik)其中eij=a(si−1,hj) \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k}\exp(e_{ik})} \quad \text{其中} \quad e_{ij} = a(s_{i-1}, h_j) αij=∑kexp(eik)exp(eij)其中eij=a(si−1,hj)
      • Transformer 架构 : (Vaswani et al., 2017) 革命性突破。完全基于自注意力机制 (Self-Attention) 和位置编码,并行化程度高,训练效率显著提升,成为当前 NLP 的主流架构。
      • 预训练语言模型 : 基于 Transformer 架构,在大规模语料上进行预训练,然后在具体任务上微调 (Fine-tuning)。
        • BERT (Bidirectional Encoder Representations from Transformers, Devlin et al., 2018): 采用掩码语言模型 (Masked Language Model) 和下一句预测 (Next Sentence Prediction) 任务进行预训练,能更好地理解上下文。
        • GPT (Generative Pre-trained Transformer, Radford et al., 2018): 采用自回归语言模型 (Autoregressive Language Model) 进行预训练,擅长文本生成任务。后续版本 (GPT-2, GPT-3) 模型规模越来越大,能力越来越强。
      • 多模态模型: 结合视觉和语言信息,如 CLIP (Contrastive Language-Image Pretraining), DALL·E。

三、 当前趋势与挑战 (2020s - )

  • 模型规模化: 模型参数数量持续增长 (如 GPT-3 有 1750 亿参数),对算力和数据需求巨大。
  • 多模态学习: 融合视觉、语言、语音等多种信息进行理解和生成。
  • 自监督/无监督学习: 减少对大规模标注数据的依赖。
  • 可解释性与鲁棒性: 理解模型决策过程,提高对抗攻击的抵抗力。
  • AI 伦理与安全: 关注模型偏见、隐私、滥用等问题。
相关推荐
lili-felicity1 分钟前
CANN模型量化详解:从FP32到INT8的精度与性能平衡
人工智能·python
北京耐用通信1 分钟前
破解AGV多协议互联难题:耐达讯自动化Profinet转Devicenet网关如何实现高效协同
人工智能·科技·物联网·网络协议·自动化·信息与通信
平安的平安2 分钟前
空间智能AI模型的推理加速优化实践
人工智能
baby_hua3 分钟前
20251217_大模型的分布式训练
人工智能
哈哈你是真的厉害7 分钟前
CANN生态核心算子库合集:赋能AIGC多模态落地的全链路算力支撑
人工智能·aigc·cann
imbackneverdie7 分钟前
2026国自然申请书模板大改版,科研人员如何应对?
人工智能·自然语言处理·aigc·科研·学术·国自然·国家自然科学基金
哈哈你是真的厉害7 分钟前
驾驭万亿参数 MoE:深度剖析 CANN ops-transformer 算子库的“核武库”
人工智能·深度学习·aigc·transformer
忆~遂愿7 分钟前
CANN ATVOSS 算子库深度解析:基于 Ascend C 模板的 Vector 算子子程序化建模与融合优化机制
大数据·人工智能
喵叔哟15 分钟前
02-YOLO-v8-v9-v10工程差异对比
人工智能·yolo·机器学习
玄同76517 分钟前
SQLite + LLM:大模型应用落地的轻量级数据存储方案
jvm·数据库·人工智能·python·语言模型·sqlite·知识图谱