神经网络基础-神经网络补充概念-40-神经网络权重的初始化

概念

神经网络权重的初始化是深度学习中的重要步骤,良好的权重初始化可以加速模型的训练收敛,提高模型的性能和稳定性。以下是一些常用的权重初始化方法:

零初始化(Zero Initialization):将权重初始化为零。然而,这种方法不太适合深层神经网络,因为它会导致所有神经元在同一时间具有相同的输出,从而破坏了网络的对称性。因此,在实践中很少使用纯粹的零初始化。

随机初始化(Random Initialization):将权重初始化为随机值。常见的随机初始化方法包括:

均匀分布(Uniform Distribution):在某个范围内随机采样权重值,如 [ − a , a ] [-a, a] [−a,a]。

正态分布(Normal Distribution):从均值为 0、标准差为 σ \sigma σ 的正态分布中随机采样权重值。

随机初始化的目的是打破权重的对称性,使不同神经元可以学到不同的特征。

Xavier 初始化(Glorot Initialization):Xavier 初始化是一种常用的权重初始化方法,特别适用于 sigmoid 和 tanh 等激活函数。对于具有 n n n 个输入和 m m m 个输出的全连接层,Xavier 初始化从均匀分布 U [ − 6 n + m , 6 n + m ] U[-\sqrt{\frac{6}{n+m}}, \sqrt{\frac{6}{n+m}}] U[−n+m6 ,n+m6 ] 中采样权重值。

He 初始化:He 初始化是适用于 ReLU 激活函数的权重初始化方法。对于具有 n n n 个输入的全连接层,He 初始化从正态分布 N ( 0 , 2 n ) N(0, \sqrt{\frac{2}{n}}) N(0,n2 ) 中采样权重值。

LeCun 初始化:LeCun 初始化是适用于 tanh 激活函数的权重初始化方法。对于具有 n n n 个输入的全连接层,LeCun 初始化从均匀分布 U [ − 1 n , 1 n ] U[-\sqrt{\frac{1}{n}}, \sqrt{\frac{1}{n}}] U[−n1 ,n1 ] 中采样权重值。

Orthogonal 初始化:Orthogonal 初始化是将权重矩阵初始化为正交矩阵,有助于防止梯度消失和梯度爆炸。这种方法特别适用于循环神经网络(RNN)等架构。

代码实现

python 复制代码
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# 生成示例数据
X = np.random.rand(100, 10)

# 定义模型
def build_model(initializer):
    model = keras.Sequential([
        layers.Input(shape=(X.shape[1],)),
        layers.Dense(64, activation='relu', kernel_initializer=initializer),
        layers.Dense(32, activation='relu', kernel_initializer=initializer),
        layers.Dense(1, activation='sigmoid', kernel_initializer=initializer)
    ])
    return model

# 随机初始化(均匀分布)
random_initializer = tf.keras.initializers.RandomUniform(minval=-0.05, maxval=0.05)
model_random = build_model(random_initializer)
model_random.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Xavier 初始化
xavier_initializer = tf.keras.initializers.GlorotUniform()
model_xavier = build_model(xavier_initializer)
model_xavier.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# He 初始化
he_initializer = tf.keras.initializers.he_normal()
model_he = build_model(he_initializer)
model_he.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# LeCun 初始化
lecun_initializer = tf.keras.initializers.lecun_uniform()
model_lecun = build_model(lecun_initializer)
model_lecun.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Orthogonal 初始化
orthogonal_initializer = tf.keras.initializers.orthogonal()
model_orthogonal = build_model(orthogonal_initializer)
model_orthogonal.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 打印各种初始化方法的模型结构
print("Random Initialization:")
model_random.summary()

print("\nXavier Initialization:")
model_xavier.summary()

print("\nHe Initialization:")
model_he.summary()

print("\nLeCun Initialization:")
model_lecun.summary()

print("\nOrthogonal Initialization:")
model_orthogonal.summary()
相关推荐
Yo_Becky10 分钟前
【PyTorch】PyTorch预训练模型缓存位置迁移,也可拓展应用于其他文件的迁移
人工智能·pytorch·经验分享·笔记·python·程序人生·其他
DeepSeek-大模型系统教程12 分钟前
深入金融与多模态场景实战:金融文档分块技术与案例汇总
人工智能·ai·语言模型·程序员·大模型·大模型学习·大模型教程
xinxiangwangzhi_18 分钟前
pytorch底层原理学习--PyTorch 架构梳理
人工智能·pytorch·架构
yzx99101322 分钟前
关于网络协议
网络·人工智能·python·网络协议
AiTEN_Robot23 分钟前
AGV 无人叉车关键技术问题解析:精准定位算法 / 安全避障逻辑 / 系统对接协议全方案
人工智能·机器人·自动化·制造
云天徽上24 分钟前
【PaddleOCR】OCR常见关键信息抽取数据集,包含FUNSD、XFUND、WildReceipt等整理,持续更新中......
人工智能·计算机视觉·信息可视化·paddlepaddle·paddleocr·文本识别
zskj_zhyl25 分钟前
智绅科技:以科技为翼,构建养老安全守护网
人工智能·科技·安全
刘海东刘海东26 分钟前
结构型智能科技的关键可行性——信息型智能向结构型智能的转换(提纲)
人工智能
Jay Kay1 小时前
TensorFlow源码深度阅读指南
人工智能·python·tensorflow
FF-Studio1 小时前
【硬核数学 · LLM篇】3.1 Transformer之心:自注意力机制的线性代数解构《从零构建机器学习、深度学习到LLM的数学认知》
人工智能·pytorch·深度学习·线性代数·机器学习·数学建模·transformer