机器学习常见面试题总结

月亮月亮要去太阳2024-05-06 23:25

1、泛华误差的分解

训练模型的目的------最小化损失函数------泛化误差 可以分解为偏差（Biase） 、方差（Variance） 和噪声（Noise）。

bias：拟合值和真实值之间有较大的偏差。 用所有可能的训练数据集 训练出的所有模型 的输出的平均值 与真实模型的输出值之间的差异。

varience：反映的是拟合值波动的情况。不同的训练数据集训练出的模型输出值之间的差异。

Noise：噪声 的存在是学习算法所无法解决的问题，数据的质量决定了学习的上限。假设在数据已经给定的情况下，此时上限已定，我们要做的就是尽可能的接近这个上限。

泛华误差=偏差（Biase）+方差（Variance）+噪声（Noise）。

从本质上讲，如果你使模型更复杂并添加更多变量，你将会失去一些 Bias 但获得一些 Variance，这就是我们所说的权衡（tradeoff）。这也是为什么我们在建模的过程中，不希望这个模型同时拥有高的偏差和方差。

有监督和无监督。

都是基于距离的。