深度学习·神经网络初步

神经网络

  • 输入层+隐藏层+输出层
  • 隐藏层有不同的种类

神经网络的术语

n i : n^{i}: ni:第i层的神经元个数
z i , w i , b i z^{i},w^{i},b^{i} zi,wi,bi:第i层的参数
a i : a^{i}: ai:第i层的激活函数

神经网络的原理

前向传播

z l + 1 = W l + 1 A l + b l + 1 z^{l+1}=W^{l+1}A^{l}+b^{l+1} zl+1=Wl+1Al+bl+1

其中:

  • 矩阵 A l A^{l} Al是第 l l l层的输出矩阵(等价于第 l + 1 l+1 l+1层的输入矩阵),规模大小为( n l n^{l} nlx m m m)
  • 矩阵 W W W是第 l l l层的权重矩阵,规模大小为( n l + 1 n^{l+1} nl+1x n l n^{l} nl)

矩阵A的实际含义是:列是样本,行是特征

矩阵W的实际含义是:看作当前层神经元的权重向量(这是一个行向量)组成的列向量

反向传播

提示:
J ( w , b ) J(w,b) J(w,b)等价于 J ( y , a l + 1 ) J(y,a^{l+1}) J(y,al+1)

利用链式法则求导,每次反向传播 z l + 1 z^{l+1} zl+1

推导过程如下

超参数和参数

  • 参数:w,b
  • 超参数:学习率, λ \lambda λ,神经元的个数,神经网络的层数,不同的层等,正则化方法

正则化

L2-正则化

公式与线性回归一致,只不过对矩阵 W W W求范数,需要计算 W W W中所有权重的和np.sum

Dropout正则化(反向随机失活)

随机丢弃一些神经元(输出结果置0)

表现在代码上就是生成随机矩阵作为掩码与输出矩阵相乘

相关推荐
冬奇Lab3 小时前
每日一个开源项目(第140篇):AgentScope 2.0 - 阿里开源的生产级 Agent 框架
人工智能·开源·agent
冬奇Lab3 小时前
Skill 系列(04):Skill 指标体系——L1/L2/L3 三层监控,让质量下降有据可查
人工智能·开源·llm
IT_陈寒4 小时前
Vite的静态资源打包让我熬夜到三点,这坑千万别跳
前端·人工智能·后端
玩转AI不是事5 小时前
用IndexedDB做AI对话离线缓存实战
人工智能
Asize5 小时前
多模态生图:从 Vite 工程化到前端调用 Qwen Image
javascript·人工智能·后端
MobotStone5 小时前
AI项目越多,为什么越容易失控
人工智能·aigc
十有八七5 小时前
AI时代的置身X内
前端·人工智能
Lkstar6 小时前
A2A协议深度解析|Agent2Agent通信标准,智能体互联网的"HTTP"
人工智能·llm
百度Geek说6 小时前
当代码越来越便宜,什么在变贵?
人工智能
橘子星6 小时前
LLM 无状态架构实践:从原理到代码落地
前端·javascript·人工智能