神经网络的工程基础（二）——随机梯度下降法｜文末送书

一、随机梯度下降法：更优化的算法

梯度下降法虽然在理论上很美好，但在实际应用中常常会碰到瓶颈。为了说明这个问题，令 L i L_i Li表示模型在 i i i点的损失，即 L i = ( y i − a x i − b ) 2 L_i = (y_i - ax_i - b)^2 Li=(yi−axi−b)2，对所有数据点的损失求和后，可以得到整体损失函数： L = 1 ⁄ n ∑ i L i L = 1⁄n ∑_iL_i L=1⁄n∑iLi 。即模型的损失函数实际上是各个数据点损失的平均值，这一观点适用于大多数模型 ^[1](#1)。

计算整体损失函数 L L L的梯度可得， ∇ L = 1 ⁄ n ∑ i L i ∇L = 1⁄n \sum_i L_i ∇L=1⁄n∑iLi。也就是说，损失函数的梯度等于所有数据点处梯度的平均值。但是在实际应用中，通常会使用大型数据集计算所有数据点的梯度和，这需要相当长的时间。为了加速这个计算过程，可以考虑使用随机梯度下降法（Stochastic Gradient Descent，SGD）。

二、算法细节

随机梯度下降法的核心思想是：每次迭代时只随机选择小批量的数据点来计算梯度，然后用这个小批量数据点的梯度平均值来代替整体损失函数的梯度^[2](#2)。

为了使算法的细节更加准确，引入一个超参数，称为批量大小（Batch Size），记作m。每次随机选取m个数据，记为 I 1 , I 2 , ⋯ , I m I_1,I_2,⋯,I_m I1,I2,⋯,Im。使用这些数据点的梯度平均值来近似代替整体损失函数的梯度： ∇ L = 1 ⁄ n ∑ i ∇ L i ≈ 1 ⁄ m ∑ j = 1 m ∇ L I j ∇L = 1⁄n ∑i∇L_i ≈ 1⁄m ∑{j = 1}^m∇L_{I_j } ∇L=1⁄n∑i∇Li≈1⁄m∑j=1m∇LIj 。由此得到新的参数迭代公式：
a k + 1 = a k − η / m ∑ j = 1 m ∂ L I j / ∂ a b k + 1 = b k − η / m ∑ j = 1 m ∂ L I j / ∂ b (1) a_{k + 1} = a_k - η/m ∑{j = 1}^m∂L{I_j }/∂a \\ b_{k + 1} = b_k -η/m ∑{j = 1}^m∂L{I_j }/∂b \tag{1} ak+1=ak−η/mj=1∑m∂LIj/∂abk+1=bk−η/mj=1∑m∂LIj/∂b(1)

在随机梯度下降法中，所有数据点都使用了一遍，称为模型训练了一轮。由此在实际应用中常使用另一个超参数------训练轮次（Epoch），表示所有数据将被用几遍，用于控制随机梯度下降法的循环次数。换句话说，就是公式（1）被迭代运算多少次。

在一些机器学习书籍和学术文献中，还对随机梯度下降法（当m=1时）和小批量梯度下降法（当m>1时）进行了进一步的区分。然而，这两种方法之间的区别并不大，其核心思想都是基于随机采样来近似计算梯度，从而高效地更新参数、优化模型。在实际应用中，会根据问题的性质和数据规模选择合适的批次大小，以获得最佳的训练效果。因此，本书将统一使用随机梯度下降法来代表这一类方法，以保持概念清晰和简洁。

与梯度下降法相比，随机梯度下降法更高效，这是因为小批量梯度计算比整体梯度计算快得多。尽管在随机梯度下降法中，采用小批量数据估计梯度可能会引入一些噪声，但实践证明这些噪声对整个优化过程有好处，有助于模型克服局部最优的"陷阱"，逐步逼近全局最优参数。

三、代码实现

随机梯度下降法的实现与梯度下降法类似，不同之处在于，每次计算梯度时需要"随机"选取一部分数据，具体的实现步骤可以参考程序清单1（完整代码）。

在程序清单1的第2行，引入一个名为batch_size的超参数，用于控制每个批次中的数据量大小。选择合适的batch_size对算法的运行效率和稳定性至关重要。如果参数设置过大，可能会导致算法运行效率下降；而过小的参数可能使算法变得过于随机，影响收敛的稳定性。选择合适的参数需要结合具体的模型和应用场景，结合相关领域的经验进行决策。
在程序清单1的第11---13行，展示了一种随机选取批次数据的实现方式。这也是随机梯度下降法与普通梯度下降法的主要区别之一。实现随机性的方式有很多种，比如引入随机数等。这里仅呈现一种经典方法：将数据按顺序划分成批次。

程序清单1 随机梯度下降法

python 复制代码

 1 |  # 定义每批次用到的数据量
 2 |  batch_size = 20
 3 |  # 定义模型
 4 |  model = Linear()
 5 |  # 确定最优化算法
 6 |  learning_rate = 0.1
 7 |  optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)
 8 |  
 9 |  for t in range(20):
10 |      # 选取当前批次的数据，用于训练模型
11 |      ix = (t * batch_size) % len(x)
12 |      xx = x[ix: ix + batch_size]
13 |      yy = y[ix: ix + batch_size]
14 |      yy_pred = model(xx)
15 |      # 计算当前批次数据的损失
16 |      loss = (yy - yy_pred).pow(2).mean()
17 |      # 将上一次的梯度清零
18 |      optimizer.zero_grad()
19 |      # 计算损失函数的梯度
20 |      loss.backward()
21 |      # 迭代更新模型参数的估计值
22 |      optimizer.step()
23 |      # 注意！loss记录的是模型在当前批次数据上的损失，该数值的波动较大
24 |      print(f'Step {t + 1}, Loss: {loss: .2f}; Result: {model.string()}')

在随机梯度下降法的执行过程中，通常使用模型的整体损失作为指标来监测算法的运行情况。但要注意的是，程序清单1中第16行定义的loss表示模型在小批量数据上的损失，这个值仅依赖于少量数据，迭代过程中会表现出极大的不稳定性，因此并不适合作为评估算法运行情况的主要标志。

如果希望更准确地监测算法的运行情况，需要在更大的数据集上估计模型的整体损失，例如在全部训练数据上计算损失，如图1所示。这种评估方式更稳定，能够更全面地反映模型的训练进展。

图1

四、粉丝福利

参与方式：关注博主、点赞、收藏、评论区评论"解构大语言模型"（切记要点赞+收藏，否则抽奖无效，每个人最多评论三次！）

本次送书数量不少于3本，【阅读量越多，送得越多】

活动结束后，会私信中奖粉丝，请各位注意查看私信哦～
活动截止时间：2024-05-24 24:00:00

对于解决回归问题的模型，这个结论显然成立。对于解决分类问题的模型（比如逻辑回归模型），只需对模型的似然函数做简单的数学变换（先求对数，再求相反数），就可以得到同样的结论。 ↩︎
这在数学上是完全合理的。从统计的角度来看，用所有数据点求平均值，并不比随机抽样的方法高明很多。与线性回归参数估计值类似，两个结果都是随机变量：它们都以真实梯度为期望，只是前者的置信区间更小。 ↩︎

神经网络的工程基础（二）——随机梯度下降法｜文末送书

相关说明

内容大纲

一、随机梯度下降法：更优化的算法

二、算法细节

三、代码实现

四、粉丝福利