AI学习日记——参数的初始化

目录

一、权重初始化的重要性

[1. 为什么权重初始值不能为0](#1. 为什么权重初始值不能为0)

[2. 不良初始化的后果](#2. 不良初始化的后果)

二、初始化策略

[1. Xavier初始值](#1. Xavier初始值)

[2. He初始值](#2. He初始值)

总结


一、权重初始化的重要性

1. 为什么权重初始值不能为0

将权重初始值全部设为0会导致严重的对称性问题:

权重均一化原理:

  • 如果所有权重初始值相同,同一层的所有神经元会计算出相同的输出

  • 在反向传播时,这些神经元会收到相同的梯度更新

2. 不良初始化的后果

权重值过小的问题(如标准差0.01):

  • 激活值集中在0.5附近(对sigmoid),表现力受限:神经元输出过于相似,无法学习多样化特征,缺乏广度

权重值过大的问题(如标准差1):

  • 激活值集中在0和1 附近(对sigmoid),梯度消失**:**偏向0和1的数据分布会造成反向传播中梯度的值不断变小

二、初始化策略

1. Xavier初始值

使用场景

针对sigmoid和tanh等S型激活函数,左右对称且中间可以视为线性函数。

数学原理:

标准差 = ,其中n为前一层的节点数

代码实现:

node_num = 100 # 前一层的节点数

w = np.random.randn(node_num, node_num) / np.sqrt(node_num)

实验结果对比:

初始化方法 激活值分布 问题
标准差1.0 偏向0和1 梯度消失
标准差0.01 集中在0.5附近 表现力受限
Xavier初始化 分布相对均匀 效果最佳 * 正向传播:信息多样性得以保持 * 反向传播:梯度有效传递

2. He初始值

使用场景

He初始值策略针对于ReLU激活函数,解决非线性情况。

数学原理:

与Xavier初始值相似,标准差 = ,其中n为前一层的节点数。因为ReLU函数将负值置零,只有一半的神经元被激活,所以需要乘2保证广度。

实验结果对比:

代码实现:

node_num = 100 #前一层的节点数

w = np.random.randn(node_num, node_num) * np.sqrt(2.0 / node_num)


总结

神经网络权重初始化对模型性能至关重要。全零初始化会导致对称性问题,使神经元输出相同;过小初始化(如标准差0.01)会使激活值集中在0.5附近,限制表现力;过大初始化(如标准差1)则会导致梯度消失。针对不同激活函数应采用特定初始化策略:Xavier初始化适用于sigmoid/tanh函数,通过标准差=1/√n保证激活值均匀分布;He初始化专为ReLU设计,标准差=√(2/n)以补偿ReLU的负值抑制特性。实验证明,这两种方法能有效保持信息多样性和梯度传递,是深度学习模型的最佳初始化选择。

相关推荐
Shawn_Shawn4 小时前
mcp学习笔记(一)-mcp核心概念梳理
人工智能·llm·mcp
冷雨夜中漫步6 小时前
Python快速入门(6)——for/if/while语句
开发语言·经验分享·笔记·python
33三 三like6 小时前
《基于知识图谱和智能推荐的养老志愿服务系统》开发日志
人工智能·知识图谱
芝士爱知识a6 小时前
【工具推荐】2026公考App横向评测:粉笔、华图与智蛙面试App功能对比
人工智能·软件推荐·ai教育·结构化面试·公考app·智蛙面试app·公考上岸
郝学胜-神的一滴6 小时前
深入解析Python字典的继承关系:从abc模块看设计之美
网络·数据结构·python·程序人生
百锦再6 小时前
Reactive编程入门:Project Reactor 深度指南
前端·javascript·python·react.js·django·前端框架·reactjs
腾讯云开发者7 小时前
港科大熊辉|AI时代的职场新坐标——为什么你应该去“数据稀疏“的地方?
人工智能
工程师老罗7 小时前
YoloV1数据集格式转换,VOC XML→YOLOv1张量
xml·人工智能·yolo
盐焗西兰花7 小时前
鸿蒙学习实战之路-Reader Kit修改翻页方式字体大小及行间距最佳实践
学习·华为·harmonyos
QiZhang | UESTC7 小时前
学习日记day76
学习