训练误差和泛化误差
训练误差:模型在训练数据上的误差
泛化误差:模型在新数据上的误差
验证数据集:一个用来评估模型好坏的数据集
- 例如拿出50%的数据作为训练
测试数据集:只能用一次
K则交叉验证
在没有足够数据时使用
算法:
- 将训练数据分割为k块
- for i in range(0, k]
- 使用第i块作为验证数据集,其余作为训练数据集
- 报告k个验证集误差的平均
训练数据集:训练模型参数
验证数据集:选择模型超参数
非大数据集上通常使用K折交叉验证
过拟合和欠拟合
根据数据集的复杂度选择模型容量
本质是泛化误差和训练误差的平衡
VC维可以衡量训练误差和泛化误差的间隔,但在深度学习中很少使用
SVM能解决的问题少于神经网络,神经网络可以通过卷积得到多种特征