AI学习日记——参数的初始化

一、权重初始化的重要性

[1. 为什么权重初始值不能为0](#1. 为什么权重初始值不能为0)

[2. 不良初始化的后果](#2. 不良初始化的后果)

二、初始化策略

[1. Xavier初始值](#1. Xavier初始值)

[2. He初始值](#2. He初始值)

总结

一、权重初始化的重要性

1. 为什么权重初始值不能为0

将权重初始值全部设为0会导致严重的对称性问题：

权重均一化原理：

如果所有权重初始值相同，同一层的所有神经元会计算出相同的输出
在反向传播时，这些神经元会收到相同的梯度更新

2. 不良初始化的后果

权重值过小的问题（如标准差0.01）：

激活值集中在0.5附近（对sigmoid），表现力受限：神经元输出过于相似，无法学习多样化特征，缺乏广度

权重值过大的问题（如标准差1）：

激活值集中在0和1 附近（对sigmoid），梯度消失**：**偏向0和1的数据分布会造成反向传播中梯度的值不断变小

二、初始化策略

1. Xavier初始值

使用场景

针对sigmoid和tanh等S型激活函数，左右对称且中间可以视为线性函数。

数学原理：

标准差 = ，其中n为前一层的节点数

代码实现：

node_num = 100 # 前一层的节点数

w = np.random.randn(node_num, node_num) / np.sqrt(node_num)

实验结果对比：

初始化方法	激活值分布	问题
标准差1.0	偏向0和1	梯度消失
标准差0.01	集中在0.5附近	表现力受限
Xavier初始化	分布相对均匀	效果最佳 * 正向传播：信息多样性得以保持 * 反向传播：梯度有效传递

2. He初始值

使用场景

He初始值策略针对于ReLU激活函数，解决非线性情况。

数学原理：

与Xavier初始值相似，标准差 = ，其中n为前一层的节点数。因为ReLU函数将负值置零，只有一半的神经元被激活，所以需要乘2保证广度。

实验结果对比：

代码实现：

node_num = 100 #前一层的节点数

w = np.random.randn(node_num, node_num) * np.sqrt(2.0 / node_num)

总结

神经网络权重初始化对模型性能至关重要。全零初始化会导致对称性问题，使神经元输出相同；过小初始化（如标准差0.01）会使激活值集中在0.5附近，限制表现力；过大初始化（如标准差1）则会导致梯度消失。针对不同激活函数应采用特定初始化策略：Xavier初始化适用于sigmoid/tanh函数，通过标准差=1/√n保证激活值均匀分布；He初始化专为ReLU设计，标准差=√(2/n)以补偿ReLU的负值抑制特性。实验证明，这两种方法能有效保持信息多样性和梯度传递，是深度学习模型的最佳初始化选择。