机器学习经典问题笔记

目录

机器学习部分

为什么线性分类任务组合后可以解决非线性分类任务?

可以理解为第一层感知器做的是一个空间变换,经过了第一层的空间变换后,第二层感知器看到的就是线性的分类任务。

那么是不是层数越深越多越好呢

并不是,多层神经网络在只是简单堆叠卷积层和池化层出现梯度消失和梯度爆炸的几率大大增加,除此以外还会存在退化 的问题,就是越深反而效果不好,解决退化问题的办法就是GoogLeNet的残差思想

什么是梯度消失和梯度爆炸?

梯度消失(爆炸):反向传播过程中误差每一次乘以一个<(>)1的数,那么随着深度的加深,误差会越来越小(大),从而导致无法更新神经网络前面的权重或参数,就是梯度消失(爆炸)。

如何解决梯度消失和局部最小值问题呢?

谈论梯度消失,就要首先考虑误差反向传播 ,最后一层输出层在看到误差后,本想将误差返回给之前层来更新,但是对于Sigmod激活函数除了落在正负2之间是比较理想的状态,其他情况当落在饱和区里时,会出现很小的梯度 ,则误差乘以多次很小的梯度后,误差也变得很小,则不会更新前面的参数,导致误差无法传播。解决方法:提前设置一个较好的参数

除此之外,多层神经网络容易陷入局部极小值 ,难以训练,且随着层数增多,局部极小值成倍增加解决方法:找一个较好的起始点

如何实现解决方法:逐层预训练

多层神经网络可以看成是一个复合的非线性多元函数。,每一层的输出可以当成第二层的输入。

编程中的具体方法:
  1. 对数据进行标准化处理
  2. 权重初始化
  3. BN(batch normalization)

卷积神经网络部分

传统神经网络也可以用于计算机视觉,那为什么还需要卷积神经网络呢?

​ 1.全连接网络处理图像的问题: 权重矩阵的参数太多,容易过拟合;

卷积神经网络的解决办法:局部关联,参数共享

局部关联:一个神经元不再是和图片上所有的像素点相连接,而是与一个局部块(卷积核或者滤波器)相连

参数共享:通过滑动窗口一步步的移动,在一次滑动之中,参数是共享的 不变的,好处就是可以极大的降低参数量(从原先的1000 * 1000 变成了 5 * 5 + 1(偏置项)),

相同之处: 与传统神经网络相比;卷积神经网络仍然是层级结构

为什么有的时候padding要设置成为same呢?

1.为了保持特征图大小不变,更方便控制信息的传递和提取,同时为了防止特征图边缘部分信息因为卷积核的大小而受到影响

卷积核的深度(channel)和个数

卷积核的深度和输入图的深度或者说通道(channel)相同。

卷积核的个数和输出图的深度或者说通道(channel)相同。

为什么全连接层往往放到最后

我认为主要原因有两个:

  1. 由于卷积层和池化层为了提取特征,则全连接层放在最后则负责将这些特征进行组合和分类以便进行预测。
  2. 全连接层参数量巨大,放在最后有利于有效控制网络的参数规模。

因为才疏学浅,文章可能写得不够好或者有不对的地方,请各位多多留言指正。

相关推荐
深蓝海拓6 分钟前
PySide6从0开始学习的笔记(二十五) Qt窗口对象的生命周期和及时销毁
笔记·python·qt·学习·pyqt
小白跃升坊10 分钟前
基于1Panel的AI运维
linux·运维·人工智能·ai大模型·教学·ai agent
kicikng14 分钟前
走在智能体前沿:智能体来了(西南总部)的AI Agent指挥官与AI调度官实践
人工智能·系统架构·智能体协作·ai agent指挥官·ai调度官·应用层ai
测试者家园16 分钟前
测试用例智能生成:是效率革命,还是“垃圾进,垃圾出”的新挑战?
人工智能·职场和发展·测试用例·测试策略·质量效能·智能化测试·用例设计
GIS瞧葩菜17 分钟前
Cesium 轴拖拽 + 旋转圈拖拽 核心数学知识
人工智能·算法·机器学习
njsgcs19 分钟前
dqn和cnn有什么区别 dqn怎么保存训练经验到本地
人工智能·神经网络·cnn
AndrewHZ27 分钟前
【AI黑话日日新】什么是AI智能体?
人工智能·算法·语言模型·大模型·llm·ai智能体
跃渊Yuey29 分钟前
【Linux】线程同步与互斥
linux·笔记
AI视觉网奇43 分钟前
FBX AnimSequence] 动画长度13与导入帧率30 fps(子帧0.94)不兼容。动画必须与帧边界对齐。
笔记·学习·ue5
cd_949217211 小时前
九昆仑低碳科技:所罗门群岛全国森林碳汇项目开发合作白皮书
大数据·人工智能·科技