机器学习（8）梯度下降的实现与过拟合问题

一、梯度下降的实现（Gradient Descent Implementation）

在训练模型时，我们的目标是最小化代价函数（Cost Function） 。

梯度下降是一种常用的优化算法，通过不断调整参数 w,b，让代价函数 J(w,b) 逐渐逼近最小值。

梯度下降算法的核心思想是：

从某一点出发，沿着函数下降最快的方向（即负梯度方向）前进，直到到达最小值。

更新规则为：

其中：

虽然线性回归与逻辑回归都使用梯度下降算法，但它们的代价函数与导数不同：

模型	预测函数	代价函数	特点
线性回归			使用平方误差，函数为凸函数
逻辑回归			使用对数损失，函数为凸函数

二者的梯度下降形式一致，但梯度计算方式不同。

过拟合（Overfitting） 是指模型在训练数据上表现很好，但在测试数据上表现很差。即模型"记住"了训练数据的特征，而没有学会通用的规律。

假设我们要使用线性模型预测房价。

这就是典型的过拟合现象。

同样地，过拟合问题也会出现在分类任务中。例如：

获取更多样化的训练数据，能帮助模型学习到更真实的分布，减少过度拟合噪声的风险。

这相当于"让模型变简单"，降低复杂度。

正则化是一种通过约束参数大小来防止过拟合的方法。我们不直接删除特征，而是让参数的值尽量小。

在代价函数中加入一个"惩罚项"，鼓励参数 wiw_iwi 变小。

其中：

有些情况下，我们可以直接去除权重较小或不重要的特征（相当于让参数为0），进一步简化模型。