机器学习_01_KNN

K近邻算法（K-Nearest Neighbors，KNN）

一个样本的类别，由它最近的K个邻居投票决定

KNN不学任何公式，它只是记住所有训练数据，然后对新来的样本，看它周围最近的K个邻居是什么类别，就跟着投个票。

步骤	操作	说明
1	计算距离	新样本和训练集里每一个样本算距离（默认欧式距离）
2	找K个最近邻	按距离从小到大排序，取前K个
3	投票或平均	分类：K个邻居里，哪个类别多，新样本就是哪个类别回归：K个邻居的标签值取平均，作为预测值

原因：KNN靠距离判断。如果特征单位不统一，数值大的特征会主导距离计算，导致预测结果完全被它绑架。

K值情况	训练集表现	测试集表现	问题	形象理解
太小（如K=1）	满分	差	过拟合（学到噪声）	只听一个邻居的话，容易被骗
太大（如K=N）	差	差	欠拟合（太模糊）	听全村人的话，反而没主见
合适（如K=3~15）	良好	最好	泛化最佳	听几个靠谱邻居的建议

不把命运交给一次验证集，而是把训练数据分成K份，轮流当验证集。

你给几个候选K值（如[3,5,7,9,11]），网格搜索挨个试，交叉验证评估，最后告诉你哪个K值最好。

KNN是一种基于距离的惰性学习算法，通过找最近的K个邻居来投票（分类）或平均（回归）。

KNN适合小数据集、低维度、可解释性要求高的场景。数据量大或维度高时，优先考虑树模型或其他非线性算法。

我是小迦索，一个刚毕业的AI专业学长。 关注我，从0开始，一起走进AI大模型的世界。