深度学习5(深层神经网络 + 参数和超参数)

锅挤2025-07-06 10:30

深层神经网络是机器学习中一种重要的模型，它通过增加网络的"深度"（即隐藏层的数量）来提升模型对复杂数据的表示和学习能力。同浅层类似，也分为三个部分：

输入层：接收原始数据（如图像像素、文本向量等）。

隐藏层：由多层组成，每一层包含若干神经元（节点），通过权重和激活函数处理数据。

输出层：生成最终预测结果（如分类概率、回归值等）。

原理比较容易理解，与浅层神经网络类似，可以分为多个逻辑回归，进行反向传播

模型内部学习得到的变量，通过训练数据自动优化，无需人工设定。

示例：

神经网络中的权重（Weights） 和偏置（Bias）。

线性回归中的系数（θ0,θ1θ0,θ1）。

数据驱动：通过反向传播（如梯度下降）从数据中学习。

数量庞大：深层网络的参数量可达数百万甚至数十亿（如GPT-3有1750亿参数）。

存储于模型中：训练完成后，参数被保存用于预测。

最小化损失函数（如交叉熵、均方误差）。

训练前人为设定的配置，控制模型的学习过程或结构。

示例：

学习率（Learning Rate）：梯度下降的步长。

批量大小（Batch Size）：每次迭代使用的样本数。

网络结构：层数、每层神经元数量。

正则化参数：L2惩罚系数（λλ）、Dropout率。

优化器选择：Adam、SGD等。

人工依赖：无法直接从数据中学习，需通过经验或调优确定。

影响全局：超参数的选择直接影响模型收敛速度、泛化能力和最终性能。

需实验验证：通常通过网格搜索、随机搜索或贝叶斯优化确定。