INT303 Big Data Analysis 大数据分析 Pt.11 模型选择和词向量(Word Embeddings)我们上次说到我们对模型有很多评估标准。 但是光有评估标准是不够的,我们还要考虑一些其他方面。如果我们的模型只是为了训练而训练,那样我们就会出现过拟合(Overfitting)。 模型过度拟合了训练数据中的无意义模式,这种现象叫“过拟合”。 因此我们需要将模型放在新的数据上进行评估,这便是测试数据。 如果模型在训练集上误差很小,但在测试集上误差很大,说明模型过拟合了,不能真正泛化到新数据。如图所示。 训练数据的均方误差MSE是2.0,但是测试数据的MSE是12.3。