用了验证集还有可能会过拟合
这个片段可以从理论上证明这一点

以上整个挑选模型的过程也可以想象为一种训练。
把三个模型导出的最小损失公式看成一个集合,现在要做的就是在这个集合中找到某个h(此处可以视为训练),使得在验证集上的损失最低

当抽到不好的训练数据时,理想和现实会有差距。
训练数据不好的原因:
- 训练资料的大小
- 模型的复杂程度(越复杂,结果越糟的可能性越大)
当拿到的验证集不好时,理想和现实会有差距。
拿到的验证集不好的原因:
- 验证集的大小
- 这个模型的复杂程度(一般不会太大,比如说这里只有3个,取决于如何设计实验)
