吴恩达深度学习——神经网络编程的基础知识

文章内容来自BV11H4y1F7uH,仅为个人学习所用。

文章目录

二分分类

假设有一张图片作为输入,判断该图片是不是猫,如果是猫,输出1,否则输出0。用 x x x表示输入, y y y表示输出。

图片在计算机中用三个二维矩阵分别表示RGB。假设该图片像素大小为64*64,那么矩阵行*列为64*64。这里为了简单起见,画出3个5*4的矩阵。

将这些值放入一个特征向量 x \boldsymbol{x} x,有 x = [ 255 . . . 202 255 . . . 94 255 . . . 142 ] \boldsymbol{x}=\begin{bmatrix}255\\...\\202\\255\\...\\94\\255\\...\\142\end{bmatrix} x= 255...202255...94255...142

对于64*64的三张图片,总维度大小为64*64*3=12288,有 n = n x = 12288 n=n_x=12288 n=nx=12288

使用 n x n_x nx表示输入的特征向量的维度,简单起见,用 n n n代替。

一些符号说明

  • ( x , y ) (\boldsymbol{x}, y) (x,y)表示一个单独的样本。其中 x \boldsymbol{x} x是 n n n维的特征向量, y y y是标签,值为 { 0 , 1 } \{{0,1\}} {0,1}。
  • m m m表示训练集由 m m m个样本构成, ( x ( 1 ) , y ( 1 ) ) (\boldsymbol{x}^{(1)},y^{(1)}) (x(1),y(1))表示样本一的输入输出; ( x ( 2 ) , y ( 2 ) ) (\boldsymbol{x}^{(2)},y^{(2)}) (x(2),y(2))表示样本二的输入输出; ( x ( 1 ) , y ( 1 ) ) (\boldsymbol{x}^{(1)},y^{(1)}) (x(1),y(1))... ( x ( m ) , y ( m ) ) (\boldsymbol{x}^{(m)},y^{(m)}) (x(m),y(m))表示整个训练集。
    • m t r a i n m_{train} mtrain可以表示为训练集的样本个数。
    • m t e s t m_{test} mtest可以表示为测试集的样本个数。
  • 使用更为方便的符号 X = [ ∣ ∣ ∣ x ( 1 ) x ( 2 ) x ( 3 ) ∣ ∣ ∣ ] \boldsymbol{X}=\begin{bmatrix}|&|&|\\x^{(1)}&x^{(2)}&x^{(3)}\\|&|&|\end{bmatrix} X= ∣x(1)∣∣x(2)∣∣x(3)∣ 表示训练集,该矩阵有 m m m列,有 n n n行。
  • 使用符号 Y = [ y ( 1 ) y ( 2 ) . . . y ( m ) ] \boldsymbol{Y}=\begin{bmatrix} y^{(1)}& y^{(2)}& ...&y^{(m)} \end{bmatrix} Y=[y(1)y(2)...y(m)]表示输出标签。

py中,X.shape()函数用于输出矩阵的维度。对于 X \boldsymbol{X} X,输出结果为 ( n x , m ) (n_x,m) (nx,m),对于 Y \boldsymbol{Y} Y,输出结果为 ( 1 , m ) (1,m) (1,m)。

逻辑斯蒂回归

传统的线性回归函数 y ^ = w T x + b \hat{y}=w^T\boldsymbol{x}+b y^=wTx+b

Logistics回归是一个学习算法,用于在监督学习问题中,输出标签是0或1时。这是一个二元分类问题。

已知输入特征向量 x \boldsymbol{x} x可能是一张图片,希望识别出是不是猫的图片。根据某个算法得出预测值 y ^ \hat{y} y^,当输入特征值满足条件的时候, y ^ \hat{y} y^是1。这里的 x \boldsymbol{x} x是一个 n x n_x nx维的向量。

Logistics回归的参数中, w \boldsymbol{w} w也是一个 n x n_x nx维的向量, b b b是一个实数。使用传统的线性回归函数 y ^ = w T x + b \hat{y}=w^T\boldsymbol{x}+b y^=wTx+b并不是一个很好的二元分类算法。 y ^ \hat{y} y^应该落入0~1之间,但是这个函数并不在此区间。

Sigmoid激活函数

Sigmoid激活函数表达式为 S ( x ) = 1 1 + e − x S(x)=\frac{1}{1+e^{-x}} S(x)=1+e−x1

Sigmoid 函数将输入的任意实数映射到区间(0,1)内,这一特性使得它在很多情况下可用于将输入转换为表示概率的输出,因此在二分类问题中应用广泛。

逻辑斯蒂函数表达式为 P ( x ) = 1 1 + e − ( a + b x ) P(x)=\frac{1}{1+e^{-(a+bx)}} P(x)=1+e−(a+bx)1当a=0,b=1时,就是标准的Sigmoid激活函数,Sigmoid激活函数是逻辑斯蒂函数的一个特例,通常使用 σ ( x ) \sigma(x) σ(x)表示。

使用Sigmoid激活函数作用到该表达式中,有预测值 y ^ = σ ( w T x + b ) \hat{y}=\sigma(w^T\boldsymbol{x}+b) y^=σ(wTx+b)

逻辑斯蒂回归损失函数

对于函数 y ^ = σ ( w T x + b ) \hat{y}=\sigma(w^T\boldsymbol{x}+b) y^=σ(wTx+b)给定训练集 ( x ( 1 ) , y ( 1 ) ) (\boldsymbol{x}^{(1)},y^{(1)}) (x(1),y(1))... ( x ( m ) , y ( m ) ) (\boldsymbol{x}^{(m)},y^{(m)}) (x(m),y(m)),想要得到 y ( i ) ^ ≐ y ( i ) \hat{y^{(i)}}\doteq y^{(i)} y(i)^≐y(i)。

损失函数

损失函数(Loss Function)是用于衡量模型预测值与真实值之间差异的函数。

  • 损失函数的值越小,表示模型的预测结果与真实结果越接近。在模型训练过程中,通过不断地调整模型的参数(如神经网络中的权重和偏置),使损失函数的值逐渐减小,从而使模型不断优化,提高预测的准确性。
  • 损失函数还可以用于评估不同模型或同一模型在不同参数设置下的性能。通常,在验证集或测试集上计算损失函数的值,值越小的模型性能越好。

一些常见的损失函数如下:

  1. 均方误差(Mean Squared Error,MSE)
    • 公式 : M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 MSE=n1∑i=1n(yi−y^i)2,其中 n n n是样本数量, y i y_i yi是真实值, y ^ i \hat{y}_i y^i是预测值。
    • 应用场景:常用于回归问题,例如预测房价、股票价格等连续值的预测任务。它对较大的误差给予更大的惩罚,因为误差是平方的,所以能使模型更关注较大的偏差。
    • 特点:计算简单,导数也容易计算,方便使用梯度下降等优化算法进行优化。但对异常值比较敏感,因为异常值的平方会使损失值增大很多。
  2. 交叉熵损失(Cross-Entropy Loss)
    • 二分类情况

      • 公式 : C E = − 1 n ∑ i = 1 n [ y i log ⁡ ( y ^ i ) + ( 1 − y i ) log ⁡ ( 1 − y ^ i ) ] CE = -\frac{1}{n}\sum_{i=1}^{n}[y_i\log(\hat{y}_i) + (1 - y_i)\log(1 - \hat{y}_i)] CE=−n1∑i=1n[yilog(y^i)+(1−yi)log(1−y^i)],其中 y i y_i yi取值为0或1, y ^ i \hat{y}_i y^i是模型预测样本 i i i为正类的概率。

      注意这里的 l o g log log是国外的写法,实际上是 l n ln ln

      • 应用场景 :广泛应用于二分类问题,如垃圾邮件分类、疾病诊断等。当真实标签 y i = 1 y_i = 1 yi=1时,损失函数只与 log ⁡ ( y ^ i ) \log(\hat{y}_i) log(y^i)有关,模型会尽量使 y ^ i \hat{y}_i y^i接近1;当 y i = 0 y_i = 0 yi=0时,损失函数只与 log ⁡ ( 1 − y ^ i ) \log(1 - \hat{y}_i) log(1−y^i)有关,模型会尽量 y ^ i \hat{y}_i y^i接近0。
      • 特点:能够很好地反映模型预测的概率分布与真实分布之间的差异,并且在梯度计算上比较方便,有利于模型的快速收敛。

成本函数

成本函数是一个用于衡量机器学习模型性能的函数,它通常是关于模型参数的函数,其值表示模型在训练数据上的性能表现。成本函数的值越低,通常表示模型在训练数据上的表现越好。

与损失函数的关系
  • 成本函数和损失函数密切相关,在许多情况下,它们可能会被混淆使用。损失函数通常是针对单个训练样本计算的误差,而成本函数是对整个训练数据集上的损失函数值进行求和或平均。
  • 损失函数侧重于衡量单个样本预测的误差,而成本函数是对整个训练集的总体误差度量,它是优化算法在训练过程中需要最小化的目标。

常见的成本函数,对于二分类问题: J ( w , b ) = − 1 m ∑ i = 1 m [ y ( i ) log ⁡ ( y ^ ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − y ^ ( i ) ] J(\boldsymbol{w}, b)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}\log(\hat{y}^{(i)} )+(1 - y^{(i)})\log(1 - \hat{y}^{(i)}] J(w,b)=−m1∑i=1m[y(i)log(y^(i))+(1−y(i))log(1−y^(i)]。

综上,Logistics函数可以看作一个非常小的神经网络。

梯度下降法

对于函数

现在需要做的就是找到合适的 w \boldsymbol{w} w与b使得成本函数 J J J的值最小。

w \boldsymbol{w} w是一个向量,为了简单起见这里认为是实数,b也是实数。可以看到成本函数 J J J是一个凸函数(注意是这里是西方的说法,开口向上的曲线,称为上凹,或称为下凸。视频中讲上凸或下凸)。

梯度下降在图像上直观理解图片中红色部分,从任意一点沿着某条路径到达最小值。

对于一维的成本函数

使用梯度下降 w : = w − α d J ( w ) d x w:=w-\alpha\frac{\mathrm{d}J(w)}{\mathrm{d}x} w:=w−αdxdJ(w)反复计算来更新 w w w的值(:=表示更新 w w w的值)。

计算图

举例 J ( a , b , c ) = 3 ( a + b c ) J(a,b,c)=3(a+bc) J(a,b,c)=3(a+bc)计算过程如下
u = b c u=bc u=bc v = a + u v=a+u v=a+u J = 3 v J=3v J=3v

画出流程图,从左到右是正向传播,可以计算出 J J J的值。

从右到左是反向传播,可以求导(链式法则)。
d J d v = ( 3 v ) ′ = 3 \frac{\mathrm{d} J}{\mathrm{d} v}=(3v)'=3 dvdJ=(3v)′=3 d J d a = d J d v d v d a = ( 3 v ) ′ ( a + u ) ′ = 3 \frac{\mathrm{d} J}{\mathrm{d} a}=\frac{\mathrm{d} J}{\mathrm{d} v}\frac{\mathrm{d} v}{\mathrm{d} a}=(3v)'(a+u)'=3 dadJ=dvdJdadv=(3v)′(a+u)′=3 d J d u = d J d v d v d u = ( 3 v ) ′ ( a + u ) ′ = 3 \frac{\mathrm{d} J}{\mathrm{d} u}=\frac{\mathrm{d} J}{\mathrm{d} v}\frac{\mathrm{d} v}{\mathrm{d} u}=(3v)'(a+u)'=3 dudJ=dvdJdudv=(3v)′(a+u)′=3 d J d b = d J d v d v d u d u d b = ( 3 v ) ′ ( a + u ) ′ ( b c ) ′ = 3 c \frac{\mathrm{d} J}{\mathrm{d} b}=\frac{\mathrm{d} J}{\mathrm{d} v}\frac{\mathrm{d} v}{\mathrm{d} u}\frac{\mathrm{d} u}{\mathrm{d} b}=(3v)'(a+u)'(bc)'=3c dbdJ=dvdJdudvdbdu=(3v)′(a+u)′(bc)′=3c d J d c = d J d v d v d u d u d c = ( 3 v ) ′ ( a + u ) ′ ( b c ) ′ = 3 b \frac{\mathrm{d} J}{\mathrm{d} c}=\frac{\mathrm{d} J}{\mathrm{d} v}\frac{\mathrm{d} v}{\mathrm{d} u}\frac{\mathrm{d} u}{\mathrm{d} c}=(3v)'(a+u)'(bc)'=3b dcdJ=dvdJdudvdcdu=(3v)′(a+u)′(bc)′=3b

为了编程的方便,定义 d v = d J d v \mathrm{d}v=\frac{\mathrm{d} J}{\mathrm{d} v} dv=dvdJ、 d a = d J d a \mathrm{d}a=\frac{\mathrm{d} J}{\mathrm{d} a} da=dadJ...

逻辑斯蒂回归中的梯度下降法

单个样本下的梯度下降

对于Logistic回归的公式

假设样本只有两个特征 x 1 x1 x1、 x 2 x2 x2。为了计算 z z z,需要输入 w 1 w1 w1、 w 2 w2 w2和 b b b。

反向传播进行计算,有 ′ ′ d a ′ ′ = d L d a = − y a + 1 − y 1 − a ''\mathrm{d}a''=\frac{\mathrm{d}L}{\mathrm{d}a}=-\frac{y}{a}+\frac{1-y}{1-a} ′′da′′=dadL=−ay+1−a1−y d a d z = e − x ( 1 + e − x ) 2 = a ( 1 − a ) \frac{\mathrm{d}a}{\mathrm{d}z}=\frac{e^{-x}}{(1+e^{-x})^2}=a(1-a) dzda=(1+e−x)2e−x=a(1−a) ′ ′ d z ′ ′ = d L d z = d L d a d a d z = ( − y a + 1 − y 1 − a ) ( a ( 1 − a ) ) = a − y ''\mathrm{d}z''=\frac{\mathrm{d}L}{\mathrm{d}z}=\frac{\mathrm{d}L}{\mathrm{d}a}\frac{\mathrm{d}a}{\mathrm{d}z}=(-\frac{y}{a}+\frac{1-y}{1-a})(a(1-a))=a-y ′′dz′′=dzdL=dadLdzda=(−ay+1−a1−y)(a(1−a))=a−y d L d w 1 = d L d a d a d z d z d w 1 = d L d z x 1 = x 1 d z \frac{\mathrm{d}L}{\mathrm{d}w_1}=\frac{\mathrm{d}L}{\mathrm{d}a}\frac{\mathrm{d}a}{\mathrm{d}z}\frac{\mathrm{d}z}{\mathrm{d}w_1} =\frac{\mathrm{d}L}{\mathrm{d}z}x_1=x_1\mathrm{d}z dw1dL=dadLdzdadw1dz=dzdLx1=x1dz d L d w 2 = d L d a d a d z d z d w 2 = d L d z x 2 = x 2 d z \frac{\mathrm{d}L}{\mathrm{d}w_2}=\frac{\mathrm{d}L}{\mathrm{d}a}\frac{\mathrm{d}a}{\mathrm{d}z}\frac{\mathrm{d}z}{\mathrm{d}w_2} =\frac{\mathrm{d}L}{\mathrm{d}z}x_2=x_2\mathrm{d}z dw2dL=dadLdzdadw2dz=dzdLx2=x2dz d L d b = d L d a d a d z d z d b = d L d z = d z \frac{\mathrm{d}L}{\mathrm{d}b}=\frac{\mathrm{d}L}{\mathrm{d}a}\frac{\mathrm{d}a}{\mathrm{d}z}\frac{\mathrm{d}z}{\mathrm{d}b} =\frac{\mathrm{d}L}{\mathrm{d}z}=\mathrm{d}z dbdL=dadLdzdadbdz=dzdL=dz

梯度下降计算,有 w 1 : = w 1 − α d w 1 w_1:=w_1-\alpha\mathrm{d}w_1 w1:=w1−αdw1 w 2 : = w 2 − α d w 2 w_2:=w_2-\alpha\mathrm{d}w_2 w2:=w2−αdw2 b : = b − α d b b:=b-\alpha\mathrm{d}b b:=b−αdb

m个样本的梯度下降

对于 m m m个样本,在编程时,令 J = 0 J=0 J=0, d w 1 = 0 \mathrm{d}w_1=0 dw1=0, d w 2 = 0 \mathrm{d}w_2=0 dw2=0, d w . . . = 0 \mathrm{d}w...=0 dw...=0、 d b = 0 \mathrm{d}b=0 db=0

伪代码如下:

该伪代码有两层for,时间复杂度较大。因此,需要使用向量化技术来摆脱显式的for循环。

向量化

对于 z = w T x + b z=\boldsymbol{w}^T\boldsymbol{x}+b z=wTx+b,其中, w \boldsymbol{w} w、 x \boldsymbol{x} x都是列向量。在py中使用np.dot()方法,就可以实现向量化技术。通过代码来感受向量化与非向量化之间的差距。

python 复制代码
import numpy as np
import time

# 生成一个包含 1000000 个元素的一维数组,数组中的元素是在范围 [0, 1) 内均匀分布的随机浮点数。
a = np.random.rand(1000000)
b = np.random.rand(1000000)

# 向量化
tic = time.time()
c = np.dot(a, b)
toc = time.time()

print(c)
print(toc - tic)

# 非向量化
c = 0
ticc = time.time()
for i in range(1000000):
    c += a[i]*b[i]
tocc = time.time()

print(c)
print(tocc - ticc)

因此,能使用numpy库的向量化技术的就不要使用for之类的循环。

关于向量化技术部分光听理论比较抽象,最好通过吴恩达配套的作业进行编码加深理解。

向量化技术

训练集 X = [ ∣ ∣ ∣ x ( 1 ) x ( 2 ) x ( 3 ) ∣ ∣ ∣ ] \boldsymbol{X}=\begin{bmatrix}|&|&|\\x^{(1)}&x^{(2)}&x^{(3)}\\|&|&|\end{bmatrix} X= ∣x(1)∣∣x(2)∣∣x(3)∣ ,代入公式分别计算Z和a,有 Z = [ z ( 1 ) z ( 2 ) z ( 3 ) . . . ] = w T X + b = [ w T x ( 1 ) w T x ( 2 ) w T x ( 3 ) . . . ] + [ b b b . . . ] \boldsymbol{Z}=\begin{bmatrix}z^{(1)}& z^{(2)}& z^{(3)}&...\end{bmatrix}=\boldsymbol{w}^T\boldsymbol{X}+b =\begin{bmatrix}w^Tx^{(1)}& w^Tx^{(2)}& w^Tx^{(3)}&...\end{bmatrix}+\begin{bmatrix}b& b& b&...\end{bmatrix} Z=[z(1)z(2)z(3)...]=wTX+b=[wTx(1)wTx(2)wTx(3)...]+[bbb...]使用向量化技术,有 Z = n p . d o t ( w T , x ) + b \boldsymbol{Z}=np.dot(w^T, x) + b Z=np.dot(wT,x)+b在这里的+b使用到了py中的广播,是py的语法。

计算出的 Z \boldsymbol{Z} Z代入a,有 A = [ a ( 1 ) a ( 2 ) a ( 3 ) . . . ] \boldsymbol{A}=\begin{bmatrix}a^{(1)}& a^{(2)}& a^{(3)}&...\end{bmatrix} A=[a(1)a(2)a(3)...]

向量化技术计算m个训练数据的梯度

之前对 d w \mathrm{d}w dw做了向量化,现在要进一步消去for:

numpy的向量

python 复制代码
import numpy as np

# 生成5个随机高斯变量,存在数组a中
# 秩为1的数组,一维数组,有5个数据
# 既不是行向量也不是列向量
a = np.random.randn(5)
print(a.shape)
print(a)
print(np.dot(a, a.T))

# 5*1的列向量
b = np.random.randn(5, 1)
print(b.shape)
print(b)
print(b.T)
print(np.dot(b, b.T))

不要使用第一种方式创建数据,它是一个数组而不是向量,应该使用第二种方式创建数据。

相关推荐
拓端研究室11 分钟前
2024人工智能AI+制造业应用落地研究报告汇总PDF洞察(附原数据表)
人工智能
xwz小王子21 分钟前
综述:大语言模型在机器人导航中的最新进展!
人工智能·语言模型·机器人
算家云34 分钟前
LatentSync本地部署教程:基于音频精准生成唇形高度同步视频
人工智能·音视频·模型部署·字节跳动·算家云·latentsync
好评笔记39 分钟前
AIGC视频生成国产之光:ByteDance的PixelDance模型
论文阅读·人工智能·深度学习·机器学习·计算机视觉·面试·aigc
我是一个测试Q1 小时前
Ragas-RAG能力评测
人工智能
kuan_li_lyg1 小时前
ROS2 与机器人视觉入门教程(ROS2 OpenCV)
开发语言·人工智能·opencv·计算机视觉·matlab·机器人·ros
嘟嘟实验室2 小时前
LatentSync数字人,一键批量,口型同步,MPS加速(WIN/MAC)
人工智能·macos·aigc·数字人
X_taiyang182 小时前
探索 Stable-Diffusion-Webui-Forge:更快的AI图像生成体验
人工智能·stable diffusion
蚂蚁在飞-2 小时前
开源AI图像工具—Stable Diffusion
人工智能·stable diffusion
IPdodo全球网络服务3 小时前
美区TikTok解封后如何回归使用?
人工智能·数据挖掘·回归·tiktok