1、泛华误差的分解
训练模型的目的------最小化损失函数------泛化误差 可以分解为偏差(Biase) 、方差(Variance) 和噪声(Noise)。
bias:拟合值和真实值之间有较大的偏差。 用所有可能的训练数据集 训练出的所有模型 的输出的平均值 与真实模型的输出值之间的差异。
varience:反映的是拟合值波动的情况。不同的训练数据集训练出的模型输出值之间的差异。
Noise:噪声 的存在是学习算法所无法解决的问题,数据的质量决定了学习的上限。假设在数据已经给定的情况下,此时上限已定,我们要做的就是尽可能的接近这个上限。
2、偏差、方差与过拟合、欠拟合的关系?
偏差(Bias)与方差(Variance) - 知乎 (zhihu.com)
3、trade-off between bias and variance
泛华误差=偏差(Biase)+方差(Variance)+噪声(Noise)。
从本质上讲,如果你使模型更复杂并添加更多变量,你将会失去一些 Bias 但获得一些 Variance,这就是我们所说的权衡(tradeoff)。这也是为什么我们在建模的过程中,不希望这个模型同时拥有高的偏差和方差。
4、KNN对比K-means
有监督和无监督。
都是基于距离的。