深度学习(三)

一、 准备与基础阶段 (1980s - 2000s)

  • 理论基础 : 反向传播算法 (δ\deltaδ规则) 的提出 (Rumelhart, Hinton, Williams, 1986) 为训练多层网络奠定了基础。
  • 网络架构: 卷积神经网络 (CNN) 的雏形出现 (Fukushima, 1980; LeCun et al., 1989 - LeNet)。
  • 挑战: 受限于计算能力和数据量,深度网络训练困难(梯度消失/爆炸问题),未能广泛应用。

二、 突破与快速发展阶段 (2010s - 至今)

得益于大数据、更强算力(GPU)和算法改进,深度学习迎来爆发式增长。

  1. 计算机视觉 (Computer Vision)

    • 关键突破: AlexNet (Krizhevsky, Sutskever, Hinton, 2012) 在 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 上取得显著优势,开启了深度学习在视觉领域的浪潮。
    • 代表性技术
      • 卷积神经网络 (CNN) : 成为图像识别、目标检测、图像分割等任务的核心架构。后续出现了一系列改进模型:
        • VGGNet (Simonyan & Zisserman, 2014): 更深的网络结构。
        • GoogLeNet/Inception (Szegedy et al., 2014): 引入 Inception 模块,提高计算效率。
        • ResNet (He et al., 2015) : 引入残差连接 (Skip Connection),有效解决了深度网络训练难题 (f(x)+xf(x) + xf(x)+x),网络深度可达数百层。
      • 目标检测: R-CNN 系列 (Fast R-CNN, Faster R-CNN, Mask R-CNN), YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector)。
      • 图像分割: FCN (Fully Convolutional Network), U-Net (用于医学图像分割), DeepLab 系列。
      • 生成模型: GAN (Generative Adversarial Network, Goodfellow et al., 2014) 及其变体 (如 DCGAN, StyleGAN),用于图像生成、图像转换等。
  2. 语音识别 (Speech Recognition)

    • 关键突破: 深度学习显著提高了语音识别的准确率,取代了传统的混合高斯模型-隐马尔可夫模型 (GMM-HMM) 方法。
    • 代表性技术
      • 深度神经网络 (DNN): 用于替换 GMM 来估计 HMM 的状态概率。
      • 循环神经网络 (RNN): 特别是 LSTM (Long Short-Term Memory) 和 GRU (Gated Recurrent Unit),用于建模语音信号的时序依赖关系。
      • 端到端模型: Connectionist Temporal Classification (CTC) 与 RNN/LSTM 结合,允许直接输出字符序列,简化流程。Deep Speech (Baidu, 2014) 是早期代表。
      • Transformer 的应用: Transformer 架构 (后文详述) 及其衍生模型 (如 Conformer) 在语音识别中也展现出强大性能。
  3. 自然语言处理 (Natural Language Processing)

    • 关键突破: Word Embedding (如 Word2Vec (Mikolov et al., 2013), GloVe (Pennington et al., 2014)) 将词语表示为稠密向量,捕捉语义信息。随后,基于神经网络的语言模型和序列建模能力大幅提升。
    • 代表性技术
      • 循环神经网络 (RNN/LSTM/GRU): 用于机器翻译、文本生成、情感分析等序列建模任务。
      • Seq2Seq 模型: 编码器-解码器架构 (Encoder-Decoder),常用于机器翻译、文本摘要。
      • 注意力机制 (Attention Mechanism) : (Bahdanau et al., 2014; Luong et al., 2015) 显著改善了 Seq2Seq 模型(尤其是长序列)的性能,允许模型聚焦于输入的相关部分。注意力权重计算通常表示为:
        αij=exp⁡(eij)∑kexp⁡(eik)其中eij=a(si−1,hj) \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k}\exp(e_{ik})} \quad \text{其中} \quad e_{ij} = a(s_{i-1}, h_j) αij=∑kexp(eik)exp(eij)其中eij=a(si−1,hj)
      • Transformer 架构 : (Vaswani et al., 2017) 革命性突破。完全基于自注意力机制 (Self-Attention) 和位置编码,并行化程度高,训练效率显著提升,成为当前 NLP 的主流架构。
      • 预训练语言模型 : 基于 Transformer 架构,在大规模语料上进行预训练,然后在具体任务上微调 (Fine-tuning)。
        • BERT (Bidirectional Encoder Representations from Transformers, Devlin et al., 2018): 采用掩码语言模型 (Masked Language Model) 和下一句预测 (Next Sentence Prediction) 任务进行预训练,能更好地理解上下文。
        • GPT (Generative Pre-trained Transformer, Radford et al., 2018): 采用自回归语言模型 (Autoregressive Language Model) 进行预训练,擅长文本生成任务。后续版本 (GPT-2, GPT-3) 模型规模越来越大,能力越来越强。
      • 多模态模型: 结合视觉和语言信息,如 CLIP (Contrastive Language-Image Pretraining), DALL·E。

三、 当前趋势与挑战 (2020s - )

  • 模型规模化: 模型参数数量持续增长 (如 GPT-3 有 1750 亿参数),对算力和数据需求巨大。
  • 多模态学习: 融合视觉、语言、语音等多种信息进行理解和生成。
  • 自监督/无监督学习: 减少对大规模标注数据的依赖。
  • 可解释性与鲁棒性: 理解模型决策过程,提高对抗攻击的抵抗力。
  • AI 伦理与安全: 关注模型偏见、隐私、滥用等问题。
相关推荐
CoderJia程序员甲13 小时前
GitHub 热榜项目 - 日榜(2026-1-13)
人工智能·ai·大模型·github·ai教程
梦梦代码精13 小时前
《全栈开源智能体:终结企业AI拼图时代》
人工智能·后端·深度学习·小程序·前端框架·开源·语音识别
suyong_yq13 小时前
RUHMI & RA8P1 教程 Part4 - 使用 RUHMI 转换 AI 模型文件
人工智能·ai·嵌入式·arm
程序员欣宸13 小时前
LangChain4j实战之十三:函数调用,低级API版本
java·人工智能·ai·langchain4j
charlie11451419113 小时前
从 0 开始的机器学习——NumPy 线性代数部分
开发语言·人工智能·学习·线性代数·算法·机器学习·numpy
咚咚王者14 小时前
人工智能之核心基础 机器学习 第十二章 半监督学习
人工智能·学习·机器学习
人工智能训练14 小时前
UE5 如何显示蓝图运行流程
人工智能·ue5·ai编程·数字人·蓝图
deephub14 小时前
构建自己的AI编程助手:基于RAG的上下文感知实现方案
人工智能·机器学习·ai编程·rag·ai编程助手
AI营销干货站14 小时前
工业B2B获客难?原圈科技解析2026五大AI营销增长引擎
人工智能
程序员老刘·14 小时前
重拾Eval能力:D4rt为Flutter注入AI进化基因
人工智能·flutter·跨平台开发·客户端开发