用Python实现9大回归算法详解——03. 岭回归算法

1. 岭回归的基本概念与动机

1.1 为什么使用岭回归？

在线性回归中，当特征之间存在强烈的相关性（即多重共线性）时，回归系数会变得不稳定，导致模型在新数据上的表现很差。多重共线性会导致普通最小二乘法（OLS）估计的方差变大，从而使模型的泛化能力下降。为了解决这个问题，岭回归通过在损失函数中加入一个正则化项，来惩罚模型中较大的系数，从而控制模型的复杂度，提高模型的稳定性。

岭回归 （Ridge Regression），又称为Tikhonov 正则化 ，是一种线性回归模型，它通过引入正则化来防止模型过拟合。与 Lasso 回归不同，岭回归不会将系数缩减为零，而是通过缩小系数的大小来控制模型复杂度，从而增强模型的泛化能力。岭回归的主要作用包括：

减少模型复杂度：通过正则化，岭回归能够控制模型的复杂度，减少过拟合的风险。
处理多重共线性问题：在自变量之间存在较强相关性的情况下，岭回归能够有效减小系数的方差，提高模型的稳定性。

1.2 岭回归的目标函数

岭回归的目标是在普通最小二乘法的损失函数中加入 L2L_2L2 正则化项，目标函数形式如下：

其中：

是第个样本的实际值。
是第个样本的预测值。
是模型的回归系数。
是样本数。
是特征数。
是正则化参数，控制正则化项的强度。

1.3 正则化的作用

正则化项在目标函数中的作用是惩罚大系数。通过引入正则化项，岭回归能够避免模型过于依赖某些特征，从而减小系数的方差，提高模型在新数据上的表现。

当时，岭回归退化为普通的线性回归。
当很大时，模型会强制所有的系数趋向于零，模型的复杂度会大大降低，但也可能导致欠拟合。

2. 岭回归的数学推导与解析解

2.1 岭回归的优化问题

岭回归的优化问题可以表示为最小化以下目标函数：

为了解这个优化问题，我们可以通过求解目标函数的导数来得到回归系数的解析解。

2.2 岭回归的解析解

在岭回归中，回归系数的解析解可以通过以下公式计算得到：

其中：

是特征矩阵，形状为。
是目标变量的向量，形状为。
是正则化参数。
是单位矩阵，形状为。

这一公式表明，岭回归的解是在普通最小二乘法解的基础上，加入了的修正，从而使得矩阵的条件数降低，解决了多重共线性问题。

2.3 与 Lasso 回归的比较

与 Lasso 回归不同的是，岭回归不会将系数缩减为零，而是通过均匀地缩小所有系数的大小来控制模型的复杂度。相比之下，Lasso 回归则倾向于将部分系数缩减为零，从而实现特征选择。因此：

岭回归 适用于所有特征都具有一定重要性的情况。
Lasso 回归 更适合特征选择，即数据中存在许多无用特征的情况。

3. 岭回归的具体实现与案例分析

接下来，我们将通过一个具体的案例展示如何使用 Python 实现岭回归，并对结果进行详细分析。

3.1 数据准备

首先，我们生成一个包含多重共线性特征的数据集，并将其分为训练集和测试集。

python 复制代码

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# 生成模拟数据
np.random.seed(42)
X = np.random.randn(100, 10)  # 100个样本，10个特征
true_coefficients = np.array([1.5, -2, 0, 0, 3, 0, 0, 0, 0, 5])  # 实际的回归系数
y = X.dot(true_coefficients) + np.random.randn(100) * 0.5  # 生成目标变量，并加入噪声

# 将数据划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 查看数据
df = pd.DataFrame(X, columns=[f"Feature_{i+1}" for i in range(X.shape[1])])
df['Target'] = y
print(df.head())

输出：

python 复制代码

   Feature_1  Feature_2  Feature_3  Feature_4  Feature_5  Feature_6  Feature_7  Feature_8  Feature_9  Feature_10    Target
0   0.496714  -0.138264   0.647689   1.523030  -0.234153  -0.234137   1.579213   0.767435  -0.469474    0.542560   0.513884
1  -0.463418  -0.465730   0.241962  -1.913280  -1.724918  -0.562288  -1.012831   0.314247  -0.908024   -1.412304  -8.905334
2  -1.424748  -0.544383   0.110923  -1.150994   0.375698  -0.600639  -0.291694  -0.601707   1.852278   -0.013497   1.041154
3  -1.057711   0.822545  -1.220844   0.208864  -1.959670  -1.328186   0.196861   0.738467   0.171368   -0.115648  -5.937149
4  -1.478522  -0.719844  -0.460639   1.057122   0.343618  -1.763040   0.324084  -0.385082  -0.676922    0.611676  -0.340138

解释：

我们生成了 100 个样本，每个样本有 10 个特征。目标变量是通过线性组合特征生成的，并加入了一些噪声。这个数据集具有一定的多重共线性，因为一些特征的系数为零，而其他特征的系数较大。

3.2 岭回归模型的训练

我们使用 scikit-learn 中的 Ridge 模型来进行训练，并选择合适的正则化参数。

python 复制代码

from sklearn.linear_model import Ridge

# 定义Ridge回归模型，并选择正则化参数alpha
ridge_model = Ridge(alpha=1.0)  # alpha越大，正则化力度越强
ridge_model.fit(X_train, y_train)

# 输出模型系数
print("模型截距 (Intercept):", ridge_model.intercept_)
print("模型系数 (Coefficients):", ridge_model.coef_)

输出：

python 复制代码

模型截距 (Intercept): -0.036855808783992476
模型系数 (Coefficients): [ 1.40097955 -1.88929326  0.03064085  0.05790153  2.91676702 -0.03334393
  0.02943111  0.03240594 -0.03458046  4.91910377]

解释：

模型截距 (Intercept)：表示所有特征都为零时，目标变量的预测值。
模型系数 (Coefficients)：系数比普通线性回归模型略小，说明正则化起到了作用，缩小了系数的绝对值。这表明岭回归通过缩减系数来控制模型的复杂度，防止模型过拟合。

3.3 模型预测与性能评估

使用训练好的岭回归模型对测试集进行预测，并评估模型的性能。

python 复制代码

from sklearn.metrics import mean_squared_error, r2_score

# 对测试集进行预测
y_pred = ridge_model.predict(X_test)

# 计算均方误差 (MSE) 和决定系数 (R²)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("均方误差 (MSE):", mse)
print("决定系数 (R²):", r2)

输出：

python 复制代码

均方误差 (MSE): 0.27605161439218365
决定系数 (R²): 0.9840364446632746

解释：

均方误差 (MSE)：表示预测值与实际值之间的平均平方误差。MSE越小，模型的预测效果越好。在本例中，MSE为 0.276，表明模型的误差较小。
决定系数 (R²)：表示模型解释了目标变量方差的百分比。R²越接近 1，模型的拟合效果越好。这里的 R² 为 0.984，说明模型很好地拟合了数据。

3.4 不同正则化参数的影响

为了更直观地展示正则化参数对岭回归模型的影响，我们可以尝试不同的值，并比较它们的结果。

python 复制代码

alphas = [0.01, 0.1, 1.0, 10.0, 100.0]
coefficients = []

for alpha in alphas:
    ridge_model = Ridge(alpha=alpha)
    ridge_model.fit(X_train, y_train)
    coefficients.append(ridge_model.coef_)

# 将系数结果转化为DataFrame以便查看
coeff_df = pd.DataFrame(coefficients, columns=[f"Feature_{i+1}" for i in range(X.shape[1])])
coeff_df['alpha'] = alphas
print(coeff_df.set_index('alpha'))

输出：

python 复制代码

         Feature_1  Feature_2  Feature_3  Feature_4  Feature_5  Feature_6  Feature_7  Feature_8  Feature_9  Feature_10
alpha                                                                                                                
0.01      1.469771  -1.964156   0.022727   0.037196   2.985805  -0.019095   0.015440   0.015959  -0.018294    4.977115
0.10      1.424151  -1.912312   0.028308   0.052663   2.938131  -0.028925   0.024737   0.026438  -0.027695    4.936889
1.00      1.400979  -1.889293   0.030641   0.057902   2.916767  -0.033344   0.029431   0.032406  -0.034580    4.919104
10.00     1.196850  -1.695668   0.027220   0.055065   2.741789  -0.030606   0.026840   0.030761  -0.032755    4.766272
100.00    0.437950  -0.938444   0.015090   0.040474   1.935999  -0.015499   0.013374   0.015349  -0.016265    4.103764

解释：

当较小时，正则化力度较弱，系数接近普通线性回归的结果。
随着增大，正则化力度增强，系数逐渐缩小。尤其是当时，系数明显缩小，模型复杂度大幅度降低。

4. 岭回归在实际中的应用与注意事项

4.1 应用场景

岭回归适用于以下几种情况：

多重共线性严重的场合：当特征之间存在高度相关性时，岭回归可以稳定回归系数，防止模型过拟合。
所有特征都有重要性的场合：与 Lasso 回归不同，岭回归不会将系数缩减为零，因此适合所有特征都对预测有贡献的场景。

4.2 参数选择

正则化参数是岭回归中最关键的参数。选择一个合适的值对模型性能有很大影响。通常可以通过交叉验证来选择最优的值。

5. 总结

通过对岭回归的详细解析，我们理解了岭回归的数学原理、实现方法及其应用场景。岭回归通过引入正则化项，能够有效应对多重共线性问题，提高模型的稳定性和泛化能力。通过具体的案例分析，我们展示了岭回归在处理具有多重共线性数据集中的优越性，并演示了不同正则化参数对模型的影响。