神经网络——数据预处理

基于方差缩放的参数初始化

方差缩放方法能够根据神经元的链接数量来自适应地调整初始化分布地方差,尽可能的保证每个神经元的输入和输出方差一致。

那么,为什么要保证前后方差的一致性呢?

这是因为如果输入空间和输出空间的方差差别较大,也就是说数据空间分布差异较大,那么在反向传播时可能会引起梯度消失或爆炸问题。

比如,当输入空间稀疏,输出空间稠密时,将在输出空间计算得到的误差反向传播给输入空间时,这个误差可能会显得微不足道,从而引起梯度消失。而当输入空间稠密,输出空间稀疏时,将误差反向传播给输入空间,就可能会引起梯度爆炸,使得模型震荡。

参考:

深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。-腾讯云开发者社区-腾讯云 (tencent.com)

相关推荐
没有钱的钱仔1 天前
机器学习笔记
人工智能·笔记·机器学习
听风吹等浪起1 天前
基于改进TransUNet的港口船只图像分割系统研究
人工智能·深度学习·cnn·transformer
化作星辰1 天前
深度学习_原理和进阶_PyTorch入门(2)后续语法3
人工智能·pytorch·深度学习
boonya1 天前
ChatBox AI 中配置阿里云百炼模型实现聊天对话
人工智能·阿里云·云计算·chatboxai
8K超高清1 天前
高校巡展:中国传媒大学+河北传媒学院
大数据·运维·网络·人工智能·传媒
qzhqbb1 天前
神经网络 - 卷积神经网络
神经网络·计算机视觉·cnn
老夫的码又出BUG了1 天前
预测式AI与生成式AI
人工智能·科技·ai
AKAMAI1 天前
AI 边缘计算:决胜未来
人工智能·云计算·边缘计算
flex88881 天前
输入一个故事主题,使用大语言模型生成故事视频【视频中包含大模型生成的图片、故事内容,以及音频和字幕信息】
人工智能·语言模型·自然语言处理
TTGGGFF1 天前
人工智能:大语言模型或为死胡同?拆解AI发展的底层逻辑、争议与未来方向
大数据·人工智能·语言模型