反向传播back propagation

深度学习概述

决定要怎么连接这些neuron的时候

就已经确定了function set

相比于之前做logistic regression,linear regression的时候,换一个方式来决定function set

比较大,包含了logistic regression,linear regression没法包含的function

全连接,full connect

feedforward,前馈,正反馈

input,hidden,output layer

deep = many hidden layers

neural network

special structural 搞定这么深的network

Matrix Operation 矩阵运算

激活函数,sigmoid function

GPU没有对neural network做什么特化,相比于cpu,加速了矩阵运算

把output layer之前的部分,看作feature extractor :特征提取

抽出一组特别好的 separable 可分的的特征

这段是在介绍深度学习是怎么一层层计算的,和隐藏层合起来叫做什么

sigmoid适用于二分类,softmax适用于多分类,输出的都是概率,可以把sigmoid看作softmax的特例

根据不同参数形成不同函数,放到一起就是个函数集

回答一下,output是任意纬度都是可行的,取决于你的网络设计

因为输出本质上是和你想要变量有关的某种概率分布

然后你的隐藏层最后一层是30纬度,输出层10纬度

如果是二分类问题那output输出两个 多分类问题output取决于你打算分几类就有几个输出

石头汤里的那个石头

怎么决定layer的数码,每个layer中neuron的数目

常识,需要一些domain knowledge

过去做影像辨识的时候需要对影像抽取一些人定的feature,feature transform,有了deep learning之后,可以直接丢pixels硬做

但是有个新的问题,需要design network的structure

deep learning还是feature engineering看哪种情况下更容易

影像辨识上deep learning比feature engineering要容易,人去识别太过潜意识了,离意识层次太远

case by case:就事论事,具体问题具体分析;

deep learning在nlp上performance没那么好,不那么work,人对文字处理 比较强,rule detect,一篇document是正面情绪还是负面

layer连接的方法可以不这么相邻规律地连接吗?特殊接法,1连3,2连4,可以的

convolutional neural network卷积神经网络

cross entropy:交叉熵!!!!

所有data的cross entropy求和,total loss

在function set找一组function,或者说一组parameters,minimize total loss

gradient decent!!!!

几年前需要自己 implement back propagation,实现反向传播,现在有太多toolkit

back propagation是算微分的比较有效的方式

误差逆传播算法

为什么要deep learning

够多的training data去控制它的variance

deep的必要何在?

有个理论,任何连续的function,都可以用一个hidden layer的network来表示,只要这个hidden layer的neuron足够多,可以表示成任何的function

deep learning?噱头?只是变宽就是fat network

反向传播back propagation

反向传播算法是怎么让人工神经网络的训练更有效率的

链式求导!!!!

c是一笔data预测值和观测值的误差 L是把所有笔data的c加在一起

对每一个参数的偏微分

梯度下降和back propagation的本质都是计算损失函数对参数的梯度,即对每一个参数的偏微分 ,最后一层的参数的梯度容易表示,直接用L对参数求导表示,如果要求损失函数对前面若干层中的参数求导,就要用到链式法则了,简单来说就是,L对参数求导 倒数第2层输出 对 倒数第2层的参数求导 * 倒数第3层输出 对 倒数第3层的参数求导...... *

再化简点, 倒数第 i 层输出 对 倒数第 i 层的参数求导,如 x* y=z, z对x求导就是y,是正向传播的翻转值

递归什么的说法就是bullshit!!!

加法

每一层是用forward pass


z到C要经过复杂的process,通过train rule反向传播

总价对各个参数的偏导

相关推荐
张铁铁是个小胖子2 小时前
微服务学习
java·学习·微服务
AITIME论道3 小时前
论文解读 | EMNLP2024 一种用于大语言模型版本更新的学习率路径切换训练范式
人工智能·深度学习·学习·机器学习·语言模型
青春男大6 小时前
java栈--数据结构
java·开发语言·数据结构·学习·eclipse
mashagua7 小时前
RPA系列-uipath 学习笔记3
笔记·学习·rpa
沐泽Mu7 小时前
嵌入式学习-QT-Day05
开发语言·c++·qt·学习
锦亦之22337 小时前
cesium入门学习二
学习·html
m0_748256148 小时前
前端 MYTED单篇TED词汇学习功能优化
前端·学习
IT古董8 小时前
【机器学习】机器学习的基本分类-半监督学习(Semi-supervised Learning)
学习·机器学习·分类·半监督学习
jbjhzstsl9 小时前
lv_ffmpeg学习及播放rtsp
学习·ffmpeg
青い月の魔女9 小时前
数据结构初阶---二叉树
c语言·数据结构·笔记·学习·算法