
讨论一下,在机器学习中,为什么对模型的测试不能在训练数据上进行,而是需要一个独立的测试集?
由于过拟合现象的存在,在训练数据上测试的性能再好,也不能反映在未知数据集上的性能。
另一方面,当一个系统实际部署时,遇到的绝大多数是没有见过的数据,
因此,只有在未知数据(即测试集)上测出的结果才能代表系统在实际运行中的性能。

讨论一下,在机器学习中,为什么对模型的测试不能在训练数据上进行,而是需要一个独立的测试集?
由于过拟合现象的存在,在训练数据上测试的性能再好,也不能反映在未知数据集上的性能。
另一方面,当一个系统实际部署时,遇到的绝大多数是没有见过的数据,
因此,只有在未知数据(即测试集)上测出的结果才能代表系统在实际运行中的性能。