深度学习-1：逻辑回归和梯度下降

发奋图强强强2024-10-24 9:17

逻辑回归

逻辑回归是一个二分分类问题

比如判断一张图片中是否是猫就是一个二类分类问题

图像由像素值组成，要将图像输入模型，就将其变为一个向量，该向量存储三个通道上的所有像素值，若图像尺寸为64x64x3，则向量维度为12288

(x,y)表示一个样本， x是一个n维向量，y是该向量对应的标签，m是样本数量

样本数据也可以用矩阵表示，x在矩阵中以列的形式存储，矩阵维度为nxm,Y矩阵存储对应标签

逻辑回归实际上是一个学习算法，需要学习参数w和b

获得y_hat = w.T*x+b

我们想要得到该输入是猫图的概率，也就是希望y_hat是一个0-1之间的值，但w.T*x+b所得值往往不为0-1之间的概率，所以使用sigmoid函数对w.T*x+b进行变换，输出一个概率值，w.T*x+b越大，输出概率越接近于1

l表示单个样本损失，J表示整个训练集的总损失，即成本函数，用于衡量W和b的效果

学习算法实际上就是要找到合适的w和b使J最小

学习算法旨在学习到合适的w和b使J获得最小值，对w和b进行初始化后，利用梯度下降法对w和b进行更新，以获得最小的J值

求成本函数J对于参数的导数，即该点处的斜率，方向总是指向J的最小值

以下图为例，将使J值最小的W值成为Wmin

当W>Wmin时，导数值即斜率大于0，利用梯度法对W进行更新，W会变小

当W<Wmin时，导数值即斜率小于0，利用梯度法对W进行更新，W会变大

都会往取得最小值的地方进行更新

以该直线为例，fa对a的导数为3，意思是当a变化任意值，fa都会以三倍的速率进行变化

计算图反向传播，最终的输出J可对流程图中的任何变量求导

在求导过程中有中间变量，则使用链式法则进行求导

在python编程中，dJ/da 直接写成da

单个样本的一次梯度下降

多样本的梯度下降

J，dw1,dw2,db作为累加器，记录一次迭代中多个样本损失，梯度总和，然后求这些值的平均值，对参数进行更新