深度学习(三)

一、 准备与基础阶段 (1980s - 2000s)

  • 理论基础 : 反向传播算法 (δ\deltaδ规则) 的提出 (Rumelhart, Hinton, Williams, 1986) 为训练多层网络奠定了基础。
  • 网络架构: 卷积神经网络 (CNN) 的雏形出现 (Fukushima, 1980; LeCun et al., 1989 - LeNet)。
  • 挑战: 受限于计算能力和数据量,深度网络训练困难(梯度消失/爆炸问题),未能广泛应用。

二、 突破与快速发展阶段 (2010s - 至今)

得益于大数据、更强算力(GPU)和算法改进,深度学习迎来爆发式增长。

  1. 计算机视觉 (Computer Vision)

    • 关键突破: AlexNet (Krizhevsky, Sutskever, Hinton, 2012) 在 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 上取得显著优势,开启了深度学习在视觉领域的浪潮。
    • 代表性技术
      • 卷积神经网络 (CNN) : 成为图像识别、目标检测、图像分割等任务的核心架构。后续出现了一系列改进模型:
        • VGGNet (Simonyan & Zisserman, 2014): 更深的网络结构。
        • GoogLeNet/Inception (Szegedy et al., 2014): 引入 Inception 模块,提高计算效率。
        • ResNet (He et al., 2015) : 引入残差连接 (Skip Connection),有效解决了深度网络训练难题 (f(x)+xf(x) + xf(x)+x),网络深度可达数百层。
      • 目标检测: R-CNN 系列 (Fast R-CNN, Faster R-CNN, Mask R-CNN), YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector)。
      • 图像分割: FCN (Fully Convolutional Network), U-Net (用于医学图像分割), DeepLab 系列。
      • 生成模型: GAN (Generative Adversarial Network, Goodfellow et al., 2014) 及其变体 (如 DCGAN, StyleGAN),用于图像生成、图像转换等。
  2. 语音识别 (Speech Recognition)

    • 关键突破: 深度学习显著提高了语音识别的准确率,取代了传统的混合高斯模型-隐马尔可夫模型 (GMM-HMM) 方法。
    • 代表性技术
      • 深度神经网络 (DNN): 用于替换 GMM 来估计 HMM 的状态概率。
      • 循环神经网络 (RNN): 特别是 LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit),用于建模语音信号的时序依赖关系。
      • 端到端模型: Connectionist Temporal Classification (CTC) 与 RNN/LSTM 结合,允许直接输出字符序列,简化流程。Deep Speech (Baidu, 2014) 是早期代表。
      • Transformer 的应用: Transformer 架构 (后文详述) 及其衍生模型 (如 Conformer) 在语音识别中也展现出强大性能。
  3. 自然语言处理 (Natural Language Processing)

    • 关键突破: Word Embedding (如 Word2Vec (Mikolov et al., 2013), GloVe (Pennington et al., 2014)) 将词语表示为稠密向量,捕捉语义信息。随后,基于神经网络的语言模型和序列建模能力大幅提升。
    • 代表性技术
      • 循环神经网络 (RNN/LSTM/GRU): 用于机器翻译、文本生成、情感分析等序列建模任务。
      • Seq2Seq 模型: 编码器-解码器架构 (Encoder-Decoder),常用于机器翻译、文本摘要。
      • 注意力机制 (Attention Mechanism) : (Bahdanau et al., 2014; Luong et al., 2015) 显著改善了 Seq2Seq 模型(尤其是长序列)的性能,允许模型聚焦于输入的相关部分。注意力权重计算通常表示为:
        αij=exp⁡(eij)∑kexp⁡(eik)其中eij=a(si−1,hj) \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k}\exp(e_{ik})} \quad \text{其中} \quad e_{ij} = a(s_{i-1}, h_j) αij=∑kexp(eik)exp(eij)其中eij=a(si−1,hj)
      • Transformer 架构 : (Vaswani et al., 2017) 革命性突破。完全基于自注意力机制 (Self-Attention) 和位置编码,并行化程度高,训练效率显著提升,成为当前 NLP 的主流架构。
      • 预训练语言模型 : 基于 Transformer 架构,在大规模语料上进行预训练,然后在具体任务上微调 (Fine-tuning)。
        • BERT (Bidirectional Encoder Representations from Transformers, Devlin et al., 2018): 采用掩码语言模型 (Masked Language Model) 和下一句预测 (Next Sentence Prediction) 任务进行预训练,能更好地理解上下文。
        • GPT (Generative Pre-trained Transformer, Radford et al., 2018): 采用自回归语言模型 (Autoregressive Language Model) 进行预训练,擅长文本生成任务。后续版本 (GPT-2, GPT-3) 模型规模越来越大,能力越来越强。
      • 多模态模型: 结合视觉和语言信息,如 CLIP (Contrastive Language-Image Pretraining), DALL·E。

三、 当前趋势与挑战 (2020s - )

  • 模型规模化: 模型参数数量持续增长 (如 GPT-3 有 1750 亿参数),对算力和数据需求巨大。
  • 多模态学习: 融合视觉、语言、语音等多种信息进行理解和生成。
  • 自监督/无监督学习: 减少对大规模标注数据的依赖。
  • 可解释性与鲁棒性: 理解模型决策过程,提高对抗攻击的抵抗力。
  • AI 伦理与安全: 关注模型偏见、隐私、滥用等问题。
相关推荐
一个帅气昵称啊40 分钟前
Net AI智能体开源框架NetCoreKevin为企业AI智能体系统Saas信息化建设赋能-开启智能应用的无限可能
人工智能·开源
yzx9910131 小时前
卷积神经网络(CNN):深度学习的视觉革命者
人工智能·机器学习
路边草随风1 小时前
python 调用 spring ai sse mcp
人工智能·python·spring
深圳市快瞳科技有限公司1 小时前
宠物识别算法在AI摄像头的应用实践:从多宠识别到行为分析
人工智能·智能硬件·宠物
ziwu1 小时前
【鱼类识别系统】Python+TensorFlow+Django+人工智能+深度学习+卷积神经网络算法
人工智能·深度学习·图像识别
小马爱打代码1 小时前
Spring AI:ChatMemory 实现聊天记忆功能
java·人工智能·spring
ziwu1 小时前
【植物识别系统】Python+TensorFlow+Django+人工智能+深度学习+卷积神经网络算法
人工智能·深度学习·图像识别
Al leng1 小时前
机器学习中偏差和方差的通俗理解
人工智能·机器学习
Mxsoft6192 小时前
某次数据解析失败,发现IEC61850版本差异,手动校验报文结构救急!
人工智能