【机器学习】深度学习(DNN)

文章目录

    • [1. 神经网络结构](#1. 神经网络结构)
    • [2. 训练步骤](#2. 训练步骤)
    • [3. 反向传播](#3. 反向传播)
    • [4. 为什么深,而不是宽(模块化)](#4. 为什么深,而不是宽(模块化))
    • [5. 初始化参数能否全为0?](#5. 初始化参数能否全为0?)

1. 神经网络结构

  • 输入层
  • 隐藏层:用于特征转换
  • 输出层:用于分类
  • 技巧:将网络中的参数写成矩阵形式,利用GPU加速

2. 训练步骤

  1. 确定神经网络的结构
  • 需要根据输入和输出的维度来确定结构,最关键的部分。
  • 注:考虑输入之间的内在关联,所有的类(class)使用同一个模型进行分类。
  1. 评估函数
  • 输出与正确结果的交叉熵。
  1. 选择最优函数
  • 梯度下降法。

3. 反向传播

概念

反向传播是一种在做梯度下降时的微分方法。

方式

从后向前计算微分,因为前面的微分需要后面的结果。

两个部分

  1. 梯度: ∇ f w = ∂ l ∂ w = ∂ z ∂ w ⋅ ∂ l ∂ z \nabla f_w = \frac{\partial l}{\partial w} = \frac{\partial z}{\partial w} \cdot \frac{\partial l}{\partial z} ∇fw=∂w∂l=∂w∂z⋅∂z∂l

  2. 正向传播: ∂ z ∂ w \frac{\partial z}{\partial w} ∂w∂z ,即每一个神经元的输出。

  3. 反向传播:
    ∂ l ∂ z = ∂ a ∂ z ⋅ ∂ l ∂ a = σ ′ ( z ) [ w 3 ⋅ ∂ l ∂ z ′ + w 4 ⋅ ∂ l ∂ z ′ ′ ] \frac{\partial l}{\partial z} = \frac{\partial a}{\partial z} \cdot \frac{\partial l}{\partial a} = \sigma'(z) \left[ w_3 \cdot \frac{\partial l}{\partial z'} + w_4 \cdot \frac{\partial l}{\partial z''} \right] ∂z∂l=∂z∂a⋅∂a∂l=σ′(z)[w3⋅∂z′∂l+w4⋅∂z′′∂l]

将正向传播和反向传播的结果相乘,得到L对w的偏微分。

与正向传播比较

  • 反向传播需要更多的内存,但效率更高。
  • 无需像正向传播那样每次计算微分时都要重新计算后续的结果,减少了栈空间的使用。

全连接反馈网络

  • 每一层的神经元输出全部进入下一层的输入。

4. 为什么深,而不是宽(模块化)

更深的网络:它的模型更加复杂,但这种复杂性是模块化的。

核心

  • 将复杂的问题分解为多个简单的问题。每一层的神经元处理相同级别的任务,其输出作为更高层次任务的数据来源。

好处

  • 每一层的输出都可以被深层的神经元重复利用,避免像浅层网络那样每次都重新计算,提高效率。
  • 深层的隐藏层能够更详细地提取特征,提取后的特征能更好地进行分类,且比人为指定的特征更接近最优解。
  • 每个基本分类器能够获得足够的训练示例,相比于平铺网络,较少的数据就能训练好。

  • 深度/平铺网络的参数量是一样的,复杂性指的是网络结构,而不是参数数量。

5. 初始化参数能否全为0?

  • 同一层的神经元是同构的,具有相同的输入和输出。如果初始参数设置为相同值,无论正向还是反向传播,它们的取值都会一样,导致学习过程无法打破对称性,最终训练结果会使同一层的参数都相同。
  • 因此,应该在初始化时随机赋值,以打破这种对称性。
相关推荐
梦云澜1 小时前
论文阅读(十二):全基因组关联研究中生物通路的图形建模
论文阅读·人工智能·深度学习
远洋录1 小时前
构建一个数据分析Agent:提升分析效率的实践
人工智能·ai·ai agent
IT古董2 小时前
【深度学习】常见模型-Transformer模型
人工智能·深度学习·transformer
沐雪架构师3 小时前
AI大模型开发原理篇-2:语言模型雏形之词袋模型
人工智能·语言模型·自然语言处理
摸鱼仙人~4 小时前
Attention Free Transformer (AFT)-2020论文笔记
论文阅读·深度学习·transformer
python算法(魔法师版)4 小时前
深度学习深度解析:从基础到前沿
人工智能·深度学习
kakaZhui4 小时前
【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE
人工智能·深度学习·chatgpt·aigc·llama
struggle20255 小时前
一个开源 GenBI AI 本地代理(确保本地数据安全),使数据驱动型团队能够与其数据进行互动,生成文本到 SQL、图表、电子表格、报告和 BI
人工智能·深度学习·目标检测·语言模型·自然语言处理·数据挖掘·集成学习
佛州小李哥5 小时前
通过亚马逊云科技Bedrock打造自定义AI智能体Agent(上)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
追求源于热爱!6 小时前
记5(一元逻辑回归+线性分类器+多元逻辑回归
算法·机器学习·逻辑回归