深度学习·神经网络初步

神经网络

  • 输入层+隐藏层+输出层
  • 隐藏层有不同的种类

神经网络的术语

n i : n^{i}: ni:第i层的神经元个数
z i , w i , b i z^{i},w^{i},b^{i} zi,wi,bi:第i层的参数
a i : a^{i}: ai:第i层的激活函数

神经网络的原理

前向传播

z l + 1 = W l + 1 A l + b l + 1 z^{l+1}=W^{l+1}A^{l}+b^{l+1} zl+1=Wl+1Al+bl+1

其中:

  • 矩阵 A l A^{l} Al是第 l l l层的输出矩阵(等价于第 l + 1 l+1 l+1层的输入矩阵),规模大小为( n l n^{l} nlx m m m)
  • 矩阵 W W W是第 l l l层的权重矩阵,规模大小为( n l + 1 n^{l+1} nl+1x n l n^{l} nl)

矩阵A的实际含义是:列是样本,行是特征

矩阵W的实际含义是:看作当前层神经元的权重向量(这是一个行向量)组成的列向量

反向传播

提示:
J ( w , b ) J(w,b) J(w,b)等价于 J ( y , a l + 1 ) J(y,a^{l+1}) J(y,al+1)

利用链式法则求导,每次反向传播 z l + 1 z^{l+1} zl+1

推导过程如下

超参数和参数

  • 参数:w,b
  • 超参数:学习率, λ \lambda λ,神经元的个数,神经网络的层数,不同的层等,正则化方法

正则化

L2-正则化

公式与线性回归一致,只不过对矩阵 W W W求范数,需要计算 W W W中所有权重的和np.sum

Dropout正则化(反向随机失活)

随机丢弃一些神经元(输出结果置0)

表现在代码上就是生成随机矩阵作为掩码与输出矩阵相乘

相关推荐
朱大喜17 分钟前
数据可视化工具选型:matplotlib、Plotly 与 ECharts
人工智能
动物园猫20 分钟前
直升机停机坪目标检测数据集分享(适用于YOLO系列深度学习分类检测任务)
深度学习·yolo·目标检测
染指11106 小时前
26.RAG进阶(Advanced RAG)-假设性问题索引
人工智能·windows·agent·rag·advanced rag
闵孚龙6 小时前
动态图机制:为什么 PyTorch 调试起来更舒服
人工智能·pytorch·python
甲维斯7 小时前
还要啥Codex!DeepSeek接入Zcode远程连接!
人工智能
Kobebryant-Manba7 小时前
RNN从0实现
pytorch·rnn·深度学习
百胜软件@百胜软件7 小时前
百胜软件亮相“AI消费新生活”主题日活动,AI智能运营平台入选市级案例征集
人工智能·生活·零售数字化·数智中台·珠宝行业
专注搞钱8 小时前
GPT-4o写设备Recipe:从3小时到10分钟
数据库·人工智能·gpt·半导体
闻道参看9 小时前
贝芯宠AI灵兽 ELFVET 大模型聚焦临床应用,强化宠物诊疗综合能力
人工智能·宠物
MartinYeung59 小时前
[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越
人工智能·学习·语言模型