K 近邻算法（K-Nearest Neighbors, KNN）详解及案例

K近邻算法（K-Nearest Neighbors, KNN）详解及案例

K近邻算法是一种监督学习算法 ，核心思想是"物以类聚，人以群分"：对于一个新样本，通过计算它与训练集中所有样本的"距离"，找出距离最近的K个样本（即"近邻"），再根据这K个近邻的标签（分类问题）或数值（回归问题）推断新样本的结果。

KNN属于"惰性学习（Lazy Learning）"，它没有显式的"训练过程"，不会提前构建模型，而是在预测时直接依赖训练数据进行计算，因此也被称为"实例-based学习"。

距离用于衡量样本间的相似性，距离越小，样本越相似。常用的距离度量包括：

欧氏距离（最常用） ：适用于连续特征，计算n维空间中两个点的直线距离。

公式：对于样本x=(x1,x2,...,xn)x=(x_1,x_2,...,x_n)x=(x1,x2,...,xn)和y=(y1,y2,...,yn)y=(y_1,y_2,...,y_n)y=(y1,y2,...,yn)，欧氏距离为：
d(x,y)=∑i=1n(xi−yi)2d(x,y)=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}d(x,y)=i=1∑n(xi−yi)2
曼哈顿距离 ：适用于高维数据，计算坐标轴上的"城市街区距离"。

公式：d(x,y)=∑i=1n∣xi−yi∣d(x,y)=\sum_{i=1}^{n}|x_i-y_i|d(x,y)=∑i=1n∣xi−yi∣
余弦相似度 ：适用于高维稀疏数据（如文本），衡量向量方向的相似性（与模长无关）。

公式：cos⁡θ=x⋅y∣∣x∣∣⋅∣∣y∣∣=∑i=1nxiyi∑i=1nxi2⋅∑i=1nyi2\cos\theta=\frac{x\cdot y}{||x||\cdot||y||}=\frac{\sum_{i=1}^{n}x_i y_i}{\sqrt{\sum_{i=1}^{n}x_i^2}\cdot\sqrt{\sum_{i=1}^{n}y_i^2}}cosθ=∣∣x∣∣⋅∣∣y∣∣x⋅y=∑i=1nxi2 ⋅∑i=1nyi2 ∑i=1nxiyi

K值是KNN的核心超参数，直接影响预测结果：

已知4部电影的特征（搞笑镜头数、打斗镜头数）和标签（喜剧片/动作片），预测一部新电影的类型。

电影ID	搞笑镜头数（特征1）	打斗镜头数（特征2）	标签
A	30	10	喜剧片
B	20	5	喜剧片
C	5	40	动作片
D	10	30	动作片

待预测电影E：搞笑镜头数=25，打斗镜头数=20，需预测其类型。

选择欧氏距离作为度量方式，K=3（奇数，避免平局）。

电影E（25,20）与A、B、C、D的欧氏距离：

与A（30,10）的距离：(25−30)2+(20−10)2=(−5)2+102=25+100=125≈11.18\sqrt{(25-30)^2+(20-10)^2}=\sqrt{(-5)^2+10^2}=\sqrt{25+100}=\sqrt{125}\approx11.18(25−30)2+(20−10)2 =(−5)2+102 =25+100 =125 ≈11.18
与B（20,5）的距离：(25−20)2+(20−5)2=52+152=25+225=250≈15.81\sqrt{(25-20)^2+(20-5)^2}=\sqrt{5^2+15^2}=\sqrt{25+225}=\sqrt{250}\approx15.81(25−20)2+(20−5)2 =52+152 =25+225 =250 ≈15.81
与C（5,40）的距离：(25−5)2+(20−40)2=202+(−20)2=400+400=800≈28.28\sqrt{(25-5)^2+(20-40)^2}=\sqrt{20^2+(-20)^2}=\sqrt{400+400}=\sqrt{800}\approx28.28(25−5)2+(20−40)2 =202+(−20)2 =400+400 =800 ≈28.28
与D（10,30）的距离：(25−10)2+(20−30)2=152+(−10)2=225+100=325≈18.03\sqrt{(25-10)^2+(20-30)^2}=\sqrt{15^2+(-10)^2}=\sqrt{225+100}=\sqrt{325}\approx18.03(25−10)2+(20−30)2 =152+(−10)2 =225+100 =325 ≈18.03

距离从小到大排序：

A（11.18）→ B（15.81）→ D（18.03）→ C（28.28）

前3个近邻为：A、B、D。

电影E被预测为喜剧片。

KNN是一种基于"相似性"的简单算法，核心依赖距离度量和K值选择。尽管存在计算成本高的问题，但因其直观性和适应性，在推荐系统、图像识别、文本分类等领域仍被广泛应用（如推荐系统中"相似用户喜欢的商品"推荐）。实际使用时需注意优化样本量和距离计算，以提升效率。