深度学习（10）模型评估、训练与选择

在训练神经网络或机器学习模型时，我们的目标不仅是让模型在训练数据上表现好，更重要的是在未见过的数据上也有良好的表现。这就涉及到模型的评估与验证。

通常，我们会将全部数据集划分为两部分：

数据集类型	用途
训练集（Training Set）	用于模型学习参数（如权重、偏置）
测试集（Test Set）	用于检验模型在新数据上的表现

划分比例常见为：

目的：通过将数据分开，可以有效检测模型是否过拟合（Overfitting）或欠拟合（Underfitting）。

以二分类问题（Binary Classification）为例，整体流程如下：

（1）准备数据集

将数据随机划分为训练集与测试集。

（2）训练模型

在训练集上进行学习，最小化损失函数（例如交叉熵损失 Cross Entropy Loss）。

（3）评估模型

在测试集上计算准确率（Accuracy）、精确率（Precision）、召回率（Recall）或 F1-score。

（4）分析表现

（5）图示理解：

数据集 → 划分 → [训练集] + [测试集]
↓
模型训练
↓
测试集评估性能

在机器学习或深度学习中，我们常会有多种模型可供选择，例如：

每种模型的表现取决于任务类型、数据规模与特征复杂度。因此我们需要一个系统的方法来选择最优模型。

在真实训练流程中，我们一般将数据分为三部分：

数据集	作用
训练集（Training Set）	用于拟合模型参数
验证集（Validation Set）	用于调整模型结构或超参数（Hyperparameters）
测试集（Test Set）	用于最终模型性能评估

假设我们在调节神经网络的结构（隐藏层数量、学习率等）：

不应该使用测试集来选择模型。测试集只能在"模型定型后"用于最终评估。

原因：

如果我们在模型选择阶段多次查看测试集性能，就相当于"间接让模型学习了测试集的特征"，会导致信息泄漏（Data Leakage），使得测试结果不再客观反映泛化能力。

当数据量较小时，可以使用 K 折交叉验证（K-Fold Cross Validation） 进行更稳定的评估。

常用的 K 值：K = 5 或 10。

最终模型应基于"验证集"选择，在"训练集 + 验证集"上重新训练后，用"测试集"评估。