模型评估——acc、P、R、F值、交叉验证、K折交叉验证

模型评估：对预测函数地预测精度的评估。
多重回归：涉及三个及其以上的变量的回归问题。
评估模型的方法：

交叉验证：将数据集分成测试集和训练集，可以采用3：7或者2：8的比例方式进行划分 ，使用测试集进行对模型的评估，对测试数据计算测试数据的误差的平方，再取其平均值，也就是以前提及的均方差MSE（Mean Square Error，误差越小，精度越高）：

TP：True Positive，预测正确(T)，实际为正，预测为正

FP：False Positive，预测错误(F)，实际为负，预测为正

TN：True Negative，预测正确(T)，实际为负，预测为负

FN：False Negative，预测错误(F)，实际为正，预测为负
分类准确率公式：其值越高，则模型精度越高，意味着模型越好（在数据量平衡的情况下）

如何在不考虑数据量是否均衡的情况下，使得其能更好评估模型，这就涉及精确率公式：

该值越高，说明被错误分类的样本越少

同时还有另外一个评估模型的指标公式，其为召回率Recall：

三个公式总结图：

所以一般评估模型采用分类准确率acc、精确率P、召回率R来综合来评价一个模型。但是一般来说，精确率P和召回率R会一个高一个低，需要对其进行取舍。所以为了更为全面的评估一个模型的好坏，故引入F值，F值是能够综合评定模型性能的指标。F值的公式如下所示：

该F值的公式称为F1值更为准确，因为这是在β权重为1时的公式表达式，F1值为精确率和召回率的调和平均值。其更为普适的公式为Fβ公式：

在计算P、R、F值的时，统计的对象可能是TP，也可以是TN。那么我们该如何选择呢？
当面对数据不平衡的情况，使用数据较少的数据集作为统计对象，来计算其对应的P、R、F值。即用数量少的。
K折交叉验证：

不单单可以将数据分成3：7或者2：8，这里有一个K折交叉验证，将全部的数据集划分为K份，将K-1份数据作为训练数据，剩下的一份作为测试数据，然后每次更好训练数据和测试数据，重复K次交叉验证。再最后计算K个精度的平均值，作为其最终的精度。

那么K折交叉验证的K值的确定怎么设定合适呢？

设定过大，会增加时间的耗费。所以只能尽可能凭借经验确定一个合适的K值。