【机器学习】039_合理初始化

一、稳定训练

目标:使梯度值在更合理的范围内

常见方法如下:

· 将乘法变为加法

· ResNet:当层数较多时,会加入一些加法进去

· LSTM:如果时序序列较长时,把一些对时序的乘法做加法

· 归一化

· 梯度归一化:把梯度转化为一个均值0、方差1这样的数,从而避免梯度的数值过大或过小

· 梯度裁剪:如果梯度大于一个阈值,就强行拉回来减到一个范围里

· 合理的权重初始化、选取合理的激活函数

二、合理初始化操作

目标:让每层的方差都为一个常数

· 让每层的输出和梯度都看作"随机变量"

· 让输出和梯度的均值和方差都保持一致,那么就可以在每层的传递之间保持,不会出现问题

权重初始化

目标:将参数和权重初始化在一个合理的区间值里,防止参数变化过大或过小导致出现问题

· 当训练开始时,数值更易出现不稳定的问题

· 随机初始的参数可能离最优解很远,更新幅度较陡,损失函数会很大,从而导致梯度较大

· 最优解附近一般较缓,更新幅度会较小

· 假设不定义初始化方法,框架将使用默认初始化,即采用正态分布初始化权重值

· 这种初始化方法对小型神经网络较为有效,但当网络较深时,这种初始化方法往往表现较差

· Xavier初始化:

某些没有非线性 的全连接层输出(例如,隐藏变量) 的尺度分布:

· 对于某一层 输入 以及其相关权重 ,输出由下式给出:

权重 都是从同一分布中独立抽取的

· 假设该分布具有均值 0 和方差 (不一定是标准正态分布,只需均值方差存在)

· 假设层 的输入也具有均值 0 和方差 ,且独立于 并彼此独立

可以按下列方式计算 的均值与方差:

为了保障 的方差不变化,可设置

现在考虑反向传播过程,我们面临着类似的问题,尽管梯度是从更靠近输出的层传播的。

使用与前向传播相同的推断,我们可以看到:

· 除非 ,否则梯度的方差可能会增大。其中 是该层输出的数量。

· 然而,我们不可能同时满足 这两个条件。

但我们只需满足:

即可达到要求,这便是Xavier初始化的基础。

通常,Xavier初始化从均值为 0,方差 的高斯分布中采样权重。

Xavier初始化表明:

· 对于每一层,输出的方差不受输入数量的影响;

· 任何梯度的方差不受输出数量的影响。

相关推荐
BeforeEasy8 分钟前
从零搭建一个完整的ai-agent小项目
人工智能·langchain
Jack___Xue12 分钟前
AI大模型微调(三)------Qwen3模型Lora微调(使用Llamafactory)
人工智能
狮子座明仔24 分钟前
Plan-and-Act:让AI智能体学会“先想后做“
人工智能·深度学习·语言模型·自然语言处理
许泽宇的技术分享27 分钟前
当 AI 助手遇上全平台消息:Clawdbot 的架构奇遇记
人工智能·typescript·ai助手
GatiArt雷41 分钟前
基于YOLOv8的轻量化AI目标检测在嵌入式设备上的落地实现
人工智能·yolo·目标检测
0思必得01 小时前
[Web自动化] 处理爬虫异常
运维·爬虫·python·selenium·自动化·web自动化
喵手1 小时前
Python爬虫零基础入门【第九章:实战项目教学·第17节】内容指纹去重:URL 变体/重复正文的识别!
爬虫·python·爬虫实战·python爬虫工程化实战·零基础python爬虫教学·内容指纹去重·url变体
搞科研的小刘选手1 小时前
【双一流高校主办】第五届光学与机器视觉国际学术会议(ICOMV 2026)
人工智能·计算机视觉·机器视觉·光学·学术会议·控制工程·先进算法
Katecat996631 小时前
使用YOLOv26实现乌鸦鸽子麻雀等城市鸟类自动检测与分类
人工智能·yolo·分类
喵手1 小时前
Python爬虫零基础入门【第五章:数据保存与入库·第1节】先学最通用:CSV/JSONL 保存(可复现、可分享)!
爬虫·python·python爬虫实战·python爬虫工程化实战·python爬虫零基础入门·数据保存与入库·csv/jsonl