女娲补天系列--深度学习

一、概述

1.机器学习:从有限的数据中推测规律,并用规律预测未来。

具体步骤:原始数据(数据收集) ->数据预处理 -->特征处理-->模型训练-->预测&结果

2.深度学习:需要经过多层特征转换得到一种特征表示,并用规律预测未来。【自动的】

具体步骤:原始数据(数据收集) ->底层-->中层-->高层->预测&结果

贡献度分配问题: 深度学习是层层嵌套、高度非线性的,很难知道每个层度的贡献(重要性)

3.神经网络(深度学习的一种模型,易于解决贡献度分配问题 )

三个层级:输入、隐藏 (可以多层)、输出

分类 :前馈网络、记忆网络、图网络

二、前馈神经网络

1.人工神经元:一个简单的线性模型

激活函数:1.连续且可导 的非线性函数 2.可以直接利用数值优化的方法来学习网络参数3.简单 高效

4.导函数的值域 要在一定的区间内5.单调递增

常见的激活函数:

激活函数 公式 / 范围 优点 缺点 适用场景
Sigmoid 1/(1+e−x)0~1 平滑、可输出概率 两端梯度饱和→梯度消失非零均值、收敛慢、计算贵 二分类输出层(少用)
Tanh ex+e−xex−e−x​-1~ 1 零均值、收敛比 sigmoid 快 依然梯度饱和 / 消失 早期 RNN、隐藏层过时
ReLU max(0,x) 0~+∞ 极快、简单正区梯度 = 1 缓解消失 负区硬饱和→神经元死亡非零均值 隐藏层通用首选
Leaky ReLU max(αx,x) 缓解神经元死亡、保留负梯度 需调超参 α 防止 Dead ReLU
Softmax 归一化指数和为 1 输出标准概率分布 数值易不稳定类别不平衡尖锐 多分类最后一层
GELU/Swish 平滑非线性 梯度更稳、效果更强 计算略慢 Transformer、大模型

2.神经网络

定义: 可以信息传递(连接主义模型并行 ;通过误差反向传播改进学习能力

3.前馈神经网络(FNN)

特征:

1.各神经元分别属于不同的层,层内没有链接

2.相邻两层之间的神经元全部两两相连

3.整个网络之中无反馈,从输入层到输出层单向传播

4.每一层的神经元可以接收前一层神经元的信号,并产生信号到下一层

深层前馈神经网络

4.参数学习:梯度下降法

5.优化问题:

深度学习步骤:1.定义网络 2.损失函数 (误差)3.优化(参数、模型)

难点:1.参数多,解释困难 2.非凸优化问题(局部最优解)3.梯度消失问题

三、卷积神经网络

1.卷积:

用一个卷积核(滤波器)在图像上滑动,做加权求和

作用:提取局部特征(边缘、纹理、形状)。

一维卷积:信号处理 y[i]= ​ w[k]*x[i+k]

二维卷积:图像处理【卷积 常作为特征提取的有效方法,一幅图像经过卷积后得到的结果常称为:特征映射

卷积核:大小步长 :滑动时的时间间隔 **零填充:**两端补0

2.卷积神经网络(CNN)

一种具有局部链接、权重共享的深层前馈神经网络

构成:隐藏层===卷积层、汇聚层、全连接层

卷积层:特征提取 卷积核:特征提取器

汇聚层:特征选择,降低特征数量,从而减少参数数量(池化层:pooling )

3.常见的卷积神经网络:

LeNet-5:手写识别

AlexNet :现代 使用ReLU作为非线性激活函数、防止过拟合

Inception 网络

四、循环神经网络:

1.延时神经网络:建议一个额外的延时单元,用来存储网络的历史信息,在时间维度上共享全职,以降低参数数量。在前馈网络的非输出层都添加一个延时器

2.循环神经网络(RNN ):通过使用带自反馈的神经元,能够处理任意长度的时序数据

3.简单循环网络(SRN):只有一个隐藏层

应用:情感分类、中文分词、信息抽取(自然语言方面NLP)

长短期记忆网络:

1.梯度爆炸:深度网络反向传播时,梯度指数级增大,导致参数更新过大、训练崩溃。

梯度消失:梯度越来越小,趋近 0,网络学不动

2.长程依赖问题:RNN 处理长序列时,早期信息因梯度消失无法影响后续输出。

【类似读书读到后期,忘记了前面出现过的人物】

3.基于门控的神经网络:在普通 RNN 基础上,加入门控机制(Gate) ,用来控制信息的保留、遗忘、更新 ,解决 RNN 的梯度消失长程依赖问题

长短期记忆网络:是一种改进型循环神经网络(RNN) ,专门解决普通 RNN 的梯度消失 和梯度爆炸**问题。**引入门控机制来控制信息的累计速度,包括有选择的加入新信息,有选择地以往之前积累的信息。

五、网络优化与正则化:

1.网络优化:找一个模型使经验或者结构风险最小化【模型选择、参数学习】

2.优化算法:梯度下降法:随机梯度下降、小批量梯度下降

方法 每次迭代用多少数据 优点 缺点 实际使用
批量梯度下降 BGD 全部样本 梯度准确、收敛稳定 速度极慢、占内存大、无法处理大数据 几乎不用
随机梯度下降 SGD 1 个样本 速度最快、易跳出局部最优 梯度噪声大、震荡严重、收敛不稳定 较少单独用
小批量梯度下降 MBGD 一小批样本(batch size) 速度快、梯度稳定、适合并行 需要调节 batch size 深度学习主流

3.数据预处理:

标准化: 归一化(最大最小规范化)、Z-Score标准化。

分箱:建立分类模型时,将连续变量离散化,降低过拟合的风险

4.网络正则化:避免过拟合,提高泛化能力

正则化两种思路:

1.增加优化约束---》数据增强

2.干扰优化过程----》权重衰减、随机梯度下降、提前停止

相关推荐
cici158742 小时前
卡尔曼滤波器实现RBF神经网络训练
人工智能·深度学习·神经网络
Neolnfra5 小时前
拒绝数据“裸奔”!把顶级AI装进自己的硬盘,这款神仙开源工具我粉了
人工智能·开源·蓝耘maas
code_li5 小时前
只花了几分钟,用AI开发了一个微信小程序!(附教程)
人工智能·微信小程序·小程序
飞Link6 小时前
瑞萨联姻 Irida Labs:嵌入式开发者如何玩转“端侧视觉 AI”新范式?
人工智能
RSTJ_16256 小时前
PYTHON+AI LLM DAY THREETY-SEVEN
开发语言·人工智能·python
郝学胜-神的一滴6 小时前
深度学习优化核心:梯度下降与网络训练全解析
数据结构·人工智能·python·深度学习·算法·机器学习
Aision_6 小时前
Agent 为什么需要 Checkpoint?
人工智能·python·gpt·langchain·prompt·aigc·agi
小贺儿开发6 小时前
《唐朝诡事录之长安》——盛世马球
人工智能·unity·ai·shader·绘画·影视·互动
秋96 小时前
ESP32 与 Air780E 4G 模块配合做 MQTT 数据传输
人工智能
DeepFlow 零侵扰全栈可观测6 小时前
运动战:AI 时代 IT 运维的决胜之道——DeepFlow 业务全链路可观测性的落地实践
运维·网络·人工智能·arcgis·云计算