机器学习经典问题笔记

目录

机器学习部分

为什么线性分类任务组合后可以解决非线性分类任务?

可以理解为第一层感知器做的是一个空间变换,经过了第一层的空间变换后,第二层感知器看到的就是线性的分类任务。

那么是不是层数越深越多越好呢

并不是,多层神经网络在只是简单堆叠卷积层和池化层出现梯度消失和梯度爆炸的几率大大增加,除此以外还会存在退化 的问题,就是越深反而效果不好,解决退化问题的办法就是GoogLeNet的残差思想

什么是梯度消失和梯度爆炸?

梯度消失(爆炸):反向传播过程中误差每一次乘以一个<(>)1的数,那么随着深度的加深,误差会越来越小(大),从而导致无法更新神经网络前面的权重或参数,就是梯度消失(爆炸)。

如何解决梯度消失和局部最小值问题呢?

谈论梯度消失,就要首先考虑误差反向传播 ,最后一层输出层在看到误差后,本想将误差返回给之前层来更新,但是对于Sigmod激活函数除了落在正负2之间是比较理想的状态,其他情况当落在饱和区里时,会出现很小的梯度 ,则误差乘以多次很小的梯度后,误差也变得很小,则不会更新前面的参数,导致误差无法传播。解决方法:提前设置一个较好的参数

除此之外,多层神经网络容易陷入局部极小值 ,难以训练,且随着层数增多,局部极小值成倍增加解决方法:找一个较好的起始点

如何实现解决方法:逐层预训练

多层神经网络可以看成是一个复合的非线性多元函数。,每一层的输出可以当成第二层的输入。

编程中的具体方法:
  1. 对数据进行标准化处理
  2. 权重初始化
  3. BN(batch normalization)

卷积神经网络部分

传统神经网络也可以用于计算机视觉,那为什么还需要卷积神经网络呢?

​ 1.全连接网络处理图像的问题: 权重矩阵的参数太多,容易过拟合;

卷积神经网络的解决办法:局部关联,参数共享

局部关联:一个神经元不再是和图片上所有的像素点相连接,而是与一个局部块(卷积核或者滤波器)相连

参数共享:通过滑动窗口一步步的移动,在一次滑动之中,参数是共享的 不变的,好处就是可以极大的降低参数量(从原先的1000 * 1000 变成了 5 * 5 + 1(偏置项)),

相同之处: 与传统神经网络相比;卷积神经网络仍然是层级结构

为什么有的时候padding要设置成为same呢?

1.为了保持特征图大小不变,更方便控制信息的传递和提取,同时为了防止特征图边缘部分信息因为卷积核的大小而受到影响

卷积核的深度(channel)和个数

卷积核的深度和输入图的深度或者说通道(channel)相同。

卷积核的个数和输出图的深度或者说通道(channel)相同。

为什么全连接层往往放到最后

我认为主要原因有两个:

  1. 由于卷积层和池化层为了提取特征,则全连接层放在最后则负责将这些特征进行组合和分类以便进行预测。
  2. 全连接层参数量巨大,放在最后有利于有效控制网络的参数规模。

因为才疏学浅,文章可能写得不够好或者有不对的地方,请各位多多留言指正。

相关推荐
冰西瓜6007 小时前
从项目入手机器学习——鸢尾花分类
人工智能·机器学习·分类·数据挖掘
爱思德学术7 小时前
中国计算机学会(CCF)推荐学术会议-C(人工智能):IJCNN 2026
人工智能·神经网络·机器学习
偶信科技7 小时前
国产极细拖曳线列阵:16mm“水下之耳”如何撬动智慧海洋新蓝海?
人工智能·科技·偶信科技·海洋设备·极细拖曳线列阵
Java后端的Ai之路7 小时前
【神经网络基础】-神经网络学习全过程(大白话版)
人工智能·深度学习·神经网络·学习
庚昀◟7 小时前
用AI来“造AI”!Nexent部署本地智能体的沉浸式体验
人工智能·ai·nlp·持续部署
喜欢吃豆8 小时前
OpenAI Realtime API 深度技术架构与实现指南——如何实现AI实时通话
人工智能·语言模型·架构·大模型
数据分析能量站8 小时前
AI如何重塑个人生产力、组织架构和经济模式
人工智能
wscats9 小时前
Markdown 编辑器技术调研
前端·人工智能·markdown
AI科技星9 小时前
张祥前统一场论宇宙大统一方程的求导验证
服务器·人工智能·科技·线性代数·算法·生活
GIS数据转换器9 小时前
基于知识图谱的个性化旅游规划平台
人工智能·3d·无人机·知识图谱·旅游