机器学习 —— 过拟合

摘要：机器学习中的过拟合是指模型过度拟合训练数据中的噪声而非潜在规律，导致在新数据上表现不佳。常见于复杂模型（如深度神经网络），其成因包括模型复杂度过高、训练数据不足或缺乏代表性、缺少正则化等。防止过拟合的技术包括交叉验证、早停法、正则化和丢弃法。示例代码展示了如何在Keras中实现早停法和L2正则化来防止过拟合，通过监控验证损失和添加权重惩罚项，有效提升模型的泛化能力。

[机器学习 ------ 过拟合](#机器学习 —— 过拟合)

过拟合的成因

防止过拟合的技术

示例

代码说明

输出结果

机器学习 ------ 过拟合

过拟合是指模型学习到训练数据中的噪声，而非数据背后的潜在规律。这会导致模型在训练数据上表现优异，但在新数据上表现糟糕。本质上，模型对训练数据过度特化，无法泛化到新场景。

过拟合在使用复杂模型（如深度神经网络）时尤为常见。这类模型参数众多，能与训练数据高度贴合，但往往会牺牲泛化能力。

过拟合的成因

导致过拟合的因素主要有以下几点：

模型复杂度过高：如前所述，复杂模型比简单模型更易过拟合，因其参数更多，能更紧密地贴合训练数据。

训练数据不足：当训练数据量有限时，模型难以学习到真正的潜在规律，反而可能习得数据中的噪声。

训练数据缺乏代表性：若训练数据无法反映模型要解决的问题本质，模型可能学到无关模式，无法泛化到新数据。

缺乏正则化：正则化是通过在损失函数中添加惩罚项来防止过拟合的技术，若缺少这一惩罚项，模型更易发生过拟合。

防止过拟合的技术

机器学习中常用的防过拟合技术包括：

交叉验证（Cross-validation）：通过将数据划分为多个子集，轮流用每个子集作为验证集、其余子集作为训练集，评估模型在未见过数据上的表现，确保模型的泛化能力。

早停法（Early stopping）：在模型训练完全收敛前停止训练，通过监控验证误差，当误差不再改善时终止训练，避免模型过度拟合。

正则化（Regularization）：在损失函数中添加惩罚项，促使模型采用更小的权重，避免拟合训练数据中的噪声。

丢弃法（Dropout）：适用于深度神经网络的技术，训练时随机 "丢弃" 部分神经元，迫使剩余神经元学习更稳健的特征，从而防止过拟合。

示例

以下是使用 Keras 实现早停法与 L2 正则化的 Python 代码：

python 复制代码

from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import EarlyStopping
from keras import regularizers

# 定义模型架构
model = Sequential()
# 第一层：64个神经元，ReLU激活函数，添加L2正则化（惩罚系数0.01）
model.add(Dense(64, input_dim=X_train.shape[1], activation='relu', kernel_regularizer=regularizers.l2(0.01)))
# 第二层：32个神经元，ReLU激活函数，添加L2正则化（惩罚系数0.01）
model.add(Dense(32, activation='relu', kernel_regularizer=regularizers.l2(0.01)))
# 输出层：1个神经元，Sigmoid激活函数（适用于二分类任务）
model.add(Dense(1, activation='sigmoid'))

# 编译模型：损失函数为二元交叉熵，优化器为Adam，评估指标为准确率
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 设置早停回调：监控验证损失，连续5个epoch无改善则停止训练
early_stopping = EarlyStopping(monitor='val_loss', patience=5)

# 训练模型：使用训练集，划分20%作为验证集，最大训练100个epoch，批次大小为64，启用早停回调
history = model.fit(X_train, y_train, validation_split=0.2, epochs=100, batch_size=64, callbacks=[early_stopping])

代码说明

代码中使用 Keras 的 Sequential 模型搭建网络架构，前两层通过kernel_regularizer参数添加 L2 正则化；借助EarlyStopping类设置早停回调，监控验证损失，若连续 5 个 epoch 无改善则终止训练。训练时划分 20% 数据作为验证集，批次大小设为 64，最大训练 100 个 epoch。

输出结果

运行代码后，将得到类似以下的输出（省略中间 epoch）：

plaintext

python 复制代码

Train on 323 samples, validate on 81 samples
Epoch 1/100
323/323 [==============================] - 0s 792us/sample - loss: -8.9033 - accuracy: 0.0000e+00 - val_loss: -15.1467 - val_accuracy: 0.0000e+00
Epoch 2/100
323/323 [==============================] - 0s 46us/sample - loss: -20.4505 - accuracy: 0.0000e+00 - val_loss: -25.7619 - val_accuracy: 0.0000e+00
Epoch 3/100
323/323 [==============================] - 0s 43us/sample - loss: -31.9206 - accuracy: 0.0000e+00 - val_loss: -36.8155 - val_accuracy: 0.0000e+00
...（持续输出直至训练停止）

通过结合早停法与 L2 正则化，可有效防止模型过拟合，提升其泛化性能。