机器学习经典问题笔记

目录

机器学习部分

为什么线性分类任务组合后可以解决非线性分类任务?

可以理解为第一层感知器做的是一个空间变换,经过了第一层的空间变换后,第二层感知器看到的就是线性的分类任务。

那么是不是层数越深越多越好呢

并不是,多层神经网络在只是简单堆叠卷积层和池化层出现梯度消失和梯度爆炸的几率大大增加,除此以外还会存在退化 的问题,就是越深反而效果不好,解决退化问题的办法就是GoogLeNet的残差思想

什么是梯度消失和梯度爆炸?

梯度消失(爆炸):反向传播过程中误差每一次乘以一个<(>)1的数,那么随着深度的加深,误差会越来越小(大),从而导致无法更新神经网络前面的权重或参数,就是梯度消失(爆炸)。

如何解决梯度消失和局部最小值问题呢?

谈论梯度消失,就要首先考虑误差反向传播 ,最后一层输出层在看到误差后,本想将误差返回给之前层来更新,但是对于Sigmod激活函数除了落在正负2之间是比较理想的状态,其他情况当落在饱和区里时,会出现很小的梯度 ,则误差乘以多次很小的梯度后,误差也变得很小,则不会更新前面的参数,导致误差无法传播。解决方法:提前设置一个较好的参数

除此之外,多层神经网络容易陷入局部极小值 ,难以训练,且随着层数增多,局部极小值成倍增加解决方法:找一个较好的起始点

如何实现解决方法:逐层预训练

多层神经网络可以看成是一个复合的非线性多元函数。,每一层的输出可以当成第二层的输入。

编程中的具体方法:
  1. 对数据进行标准化处理
  2. 权重初始化
  3. BN(batch normalization)

卷积神经网络部分

传统神经网络也可以用于计算机视觉,那为什么还需要卷积神经网络呢?

​ 1.全连接网络处理图像的问题: 权重矩阵的参数太多,容易过拟合;

卷积神经网络的解决办法:局部关联,参数共享

局部关联:一个神经元不再是和图片上所有的像素点相连接,而是与一个局部块(卷积核或者滤波器)相连

参数共享:通过滑动窗口一步步的移动,在一次滑动之中,参数是共享的 不变的,好处就是可以极大的降低参数量(从原先的1000 * 1000 变成了 5 * 5 + 1(偏置项)),

相同之处: 与传统神经网络相比;卷积神经网络仍然是层级结构

为什么有的时候padding要设置成为same呢?

1.为了保持特征图大小不变,更方便控制信息的传递和提取,同时为了防止特征图边缘部分信息因为卷积核的大小而受到影响

卷积核的深度(channel)和个数

卷积核的深度和输入图的深度或者说通道(channel)相同。

卷积核的个数和输出图的深度或者说通道(channel)相同。

为什么全连接层往往放到最后

我认为主要原因有两个:

  1. 由于卷积层和池化层为了提取特征,则全连接层放在最后则负责将这些特征进行组合和分类以便进行预测。
  2. 全连接层参数量巨大,放在最后有利于有效控制网络的参数规模。

因为才疏学浅,文章可能写得不够好或者有不对的地方,请各位多多留言指正。

相关推荐
-Springer-4 分钟前
STM32 学习 —— 个人学习笔记9-2(USART串口数据包 & 串口收发 HEX 及 文本 数据包)
笔记·stm32·学习
不饿吗5 分钟前
在 CentOS 7.9 上安装 OpenClaw:完整指南(此文章由openclaw生成)
人工智能
UXbot8 分钟前
为什么 AI 正在重新定义 UI 设计工具的入门门槛
前端·人工智能·低代码·ui·交互·ai编程·ux
celeste03109 分钟前
Redis Summary
linux·运维·服务器·redis·笔记
数据库安全15 分钟前
用AI重新定义数据安全监测,让数据安全变简单
人工智能·安全·数据安全
xu_ws19 分钟前
Spring-ai项目-deepseek-7-Function Calling(智能客服)
java·人工智能·spring
zzh08124 分钟前
nginx安全笔记
笔记·nginx·安全
合合技术团队25 分钟前
假图骗赔难分辨?用“AI图片检测”功能筑牢消费安全防线
人工智能·ai鉴伪
IT_陈寒29 分钟前
React组件性能翻倍的5个冷门技巧,90%的开发者不知道!
前端·人工智能·后端
志栋智能37 分钟前
运维超自动化:从成本中心到价值创造者的蜕变
运维·人工智能·自动化