神经网络——数据预处理

基于方差缩放的参数初始化

方差缩放方法能够根据神经元的链接数量来自适应地调整初始化分布地方差,尽可能的保证每个神经元的输入和输出方差一致。

那么,为什么要保证前后方差的一致性呢?

这是因为如果输入空间和输出空间的方差差别较大,也就是说数据空间分布差异较大,那么在反向传播时可能会引起梯度消失或爆炸问题。

比如,当输入空间稀疏,输出空间稠密时,将在输出空间计算得到的误差反向传播给输入空间时,这个误差可能会显得微不足道,从而引起梯度消失。而当输入空间稠密,输出空间稀疏时,将误差反向传播给输入空间,就可能会引起梯度爆炸,使得模型震荡。

参考:

深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。-腾讯云开发者社区-腾讯云 (tencent.com)

相关推荐
技术小黑几秒前
TensorFlow学习系列09 | 优化猫狗识别
人工智能·学习·tensorflow
指掀涛澜天下惊1 分钟前
AI 基础知识十三 Transformer注意力机制(Attention)
人工智能·深度学习·机器学习·transformer·q k v
weifont2 分钟前
太烧token了,我用Ai写了一个vscode的插件wps-editor(已开源)
人工智能·vscode·wps
春末的南方城市8 分钟前
AI 首次实现电影级多镜头长视频生成!快手&港中文开源ShotStream,可实现单NVIDIA GPU上可达16 FPS 互式故事讲述和高效即时帧生成。
人工智能·音视频
宇擎智脑科技10 分钟前
Claude Code 源码分析(一):多 Agent 协调器架构 —— 一个工业级 Coordinator-Worker 模式的完整实现
人工智能·agent·claude code
Jayin_chan10 分钟前
大语言模型(LLM)输出机制(方便自己查阅)
人工智能·语言模型·自然语言处理
李元豪14 分钟前
3分分类计算差值
人工智能·分类·数据挖掘
云烟成雨TD15 分钟前
Spring AI 1.x 系列【22】深度拆解 ToolCallbackProvider 生命周期与调用链路
java·人工智能·spring
萌>__<新15 分钟前
AI聊天助手-测试报告
人工智能·python
KC27015 分钟前
OpenAkita 深度解析:开源多Agent协作框架的实战指南
人工智能·aigc·ai编程