K近邻算法（KNN）学习笔记

K近邻算法（KNN，k-Nearest Neighbor）：每个样本可由其最接近的K个邻近值代表，属于监督学习中的分类算法，核心逻辑是"近朱者赤，近墨者黑"。

当k=3时：根据新数据周围3个最近邻的类别（蓝三角占比更高），判定新数据为"蓝三角"类。

当k=5时：根据新数据周围5个最近邻的类别（红圆占比更高），判定新数据为"红圆"类。

结论：k值不同可能导致分类结果不同，需根据数据特点合理选择k值。

距离度量是KNN算法中判断"相似度"的核心依据，常用两种方法：

定义：最常见的距离度量，衡量多维空间中两个点的绝对距离，对应二维/三维空间中两点间的直线距离。

二维空间：d=\sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2}

三维空间：d=\sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_1 - z_2)^2}

n维空间：d=\sqrt{\sum_{i=1}^{n}(x_{1i} - x_{2i})^2}（x_{1i}、x_{2i}分别为两个点在第i维的特征值）

定义：由赫尔曼·闵可夫斯基提出，衡量两个点在标准坐标系上的绝对轴距总和，又称"出租车几何"。

平面空间公式：对于坐标(x_1,y_1)的点i和坐标(x_2,y_2)的点j，距离d(i,j)=|x_1 - x_2| + |y_1 - y_2|。

案例1：鸢尾花分类（基于sklearn实现）

数据集：sklearn内置iris数据集，包含3类鸢尾花（Iris Versicolor、Iris Setosa、Iris Virginica）。

特征：4个数值型特征，分别是花萼长度（sepal length, cm）、花萼宽度（sepal width, cm）、花瓣长度（petal length, cm）、花瓣宽度（petal width, cm）。

标签：iris.target（对应3类鸢尾花的编号）；类别名称：iris.target_names。

加载数据集：iris = datasets.load_iris()
划分训练集与测试集：x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3)（测试集占比30%）
创建并训练模型：

knn = KNeighborsClassifier(n_neighbors=5, metric="euclidean") # k=5，使用欧式距离

knn_train = knn.fit(x_train, y_train) # 训练模型

训练集得分：train_score = knn.score(x_train, y_train)

测试集得分：test_score = knn.score(x_test, y_test)

预测测试集标签：y_pred = knn.predict(x_test)

电影类型电影名称打斗镜头数接吻镜头数

爱情片 California Man 3 104

爱情片 He's Not Really into Dudes 2 100

爱情片 Beautiful Woman 1 81

动作片 Kevin Longblade 101 10

动作片 Robo Slayer 3000 99 5

动作片 Amped II 98 2

未知电影：打斗镜头18次，接吻镜头90次。