机器学习-KNN算法

​一、KNN算法核心思想​

  1. ​定义​

    • K近邻(K Nearest Neighbor):通过样本在特征空间中与最近邻样本的距离判断其类别/数值。

    • ​核心思想​​:若一个样本的k个最相似样本中多数属于某类别,则该样本也属于此类别(分类)或取k个样本目标值的均值(回归)。

  2. ​关键问题​

    • ​相似性度量​​:使用距离公式(如欧氏距离)。

    • ​K值选择​​:

      • ​K过小​​:易受噪声影响,过拟合风险高。

      • ​K过大​​:忽略局部特征,欠拟合风险高。

      • ​极端情况​​:若K=训练样本数,模型始终预测训练集中最多类别。


​二、算法流程​

​分类流程​
  1. 计算未知样本到所有训练样本的距离。

  2. 按距离升序排列训练样本。

  3. 选取前K个最近邻样本。

  4. 统计K个样本中最多类别,作为预测结果。

​回归流程​
  1. 计算未知样本到所有训练样本的距离。

  2. 按距离升序排列训练样本。

  3. 选取前K个最近邻样本。

  4. 计算K个样本目标值的均值,作为预测结果。


​三、距离度量方法​

​距离类型​ ​公式​ ​特点​
​欧氏距离​ ∑i=1n​(xi​−yi​)2​ 最常用,空间直线距离
​曼哈顿距离​ $\sum_{i=1}^n x_i - y_i
​切比雪夫距离​ $\max( x_i - y_i
​闵可夫斯基距离​ $\left( \sum_{i=1}^n x_i - y_i

​四、特征预处理​

​为什么需要?​

特征量纲差异过大会影响模型结果(如某个特征的方差远大于其他特征)。

​方法对比​
​方法​ ​公式​ ​特点​ ​适用场景​
​归一化​ X′=max−minX−min​ 缩放到[0,1];对异常值敏感 小规模精确数据
​标准化​ X′=σX−μ​ 均值为0,标准差为1;抗异常值能力强 大规模嘈杂数据

​代码实现​​:

python 复制代码
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 归一化
scaler = MinMaxScaler(feature_range=(0, 1))
X_normalized = scaler.fit_transform(X)

# 标准化
scaler = StandardScaler()
X_standardized = scaler.fit_transform(X)

​五、API使用​

​分类问题​
python 复制代码
from sklearn.neighbors import KNeighborsClassifier

# 初始化模型(K=3)
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)
​回归问题​
python 复制代码
from sklearn.neighbors import KNeighborsRegressor

model = KNeighborsRegressor(n_neighbors=2)
model.fit(X_train, y_train)
y_pred = model.predict([[3, 11, 10]])  # 输入需为二维数组

⚠️ ​​易错点​ ​:预测时输入必须是二维数组(如[[1]]而非[1])。


​六、超参数调优:交叉验证与网格搜索​

​交叉验证(Cross-Validation)​
  • ​目的​​:提高模型评估的可靠性。

  • ​流程​​:

    1. 将训练集分为n份(如n=5)。

    2. 轮流用1份作为验证集,其余n-1份训练模型。

    3. 取n次评估的平均值作为模型得分。

​网格搜索(Grid Search)​
  • ​目的​​:自动寻找最优超参数组合。

  • ​流程​​:遍历所有预设参数组合,用交叉验证评估每组性能。

​代码实现​
python 复制代码
from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {'n_neighbors': [1, 3, 5, 7]}
model = KNeighborsClassifier()

# 交叉验证网格搜索
grid = GridSearchCV(model, param_grid, cv=5)
grid.fit(X_train, y_train)

# 输出最优参数
print("Best K:", grid.best_params_)

​七、实战案例​

​鸢尾花分类​
python 复制代码
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 1. 加载数据
data = load_iris()
X, y = data.data, data.target

# 2. 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 3. 标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 4. 训练模型
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# 5. 评估
accuracy = model.score(X_test, y_test)
​手写数字识别​
python 复制代码
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier

# 1. 加载数据(28x28像素)
data = pd.read_csv('digits.csv')
X = data.iloc[:, 1:] / 255  # 归一化像素值
y = data.iloc[:, 0]

# 2. 训练模型
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# 3. 预测新图片
img = plt.imread('digit.png').reshape(1, -1)  # 转换为1x784
prediction = model.predict(img)

​关键要点总结​

  1. ​K值选择​​:需平衡过拟合与欠拟合(交叉验证调优)。

  2. ​特征预处理​​:优先使用标准化(鲁棒性强)。

  3. ​距离度量​​:欧氏距离最常用,高维数据可用曼哈顿距离。

  4. ​评估方法​​:分类用准确率,回归用均方误差。

  5. ​模型优化​​:网格搜索+交叉验证是超参数调优黄金组合。

相关推荐
七月稻草人1 分钟前
CANN生态ops-nn:AIGC的神经网络算子加速内核
人工智能·神经网络·aigc
2501_924878731 分钟前
数据智能驱动进化:AdAgent 多触点归因与自我学习机制详解
人工智能·逻辑回归·动态规划
芷栀夏3 分钟前
CANN开源实战:基于DrissionPage构建企业级网页自动化与数据采集系统
运维·人工智能·开源·自动化·cann
物联网APP开发从业者3 分钟前
2026年AI智能软硬件开发领域十大权威认证机构深度剖析
人工智能
MSTcheng.8 分钟前
构建自定义算子库:基于ops-nn和aclnn两阶段模式的创新指南
人工智能·cann
Charlie_lll8 分钟前
力扣解题-移动零
后端·算法·leetcode
chaser&upper9 分钟前
矩阵革命:在 AtomGit 解码 CANN ops-nn 如何构建 AIGC 的“线性基石”
程序人生·算法
User_芊芊君子11 分钟前
CANN图编译器GE全面解析:构建高效异构计算图的核心引擎
人工智能·深度学习·神经网络
lili-felicity11 分钟前
CANN加速Whisper语音识别推理:流式处理与实时转录优化
人工智能·whisper·语音识别
沈浩(种子思维作者)12 分钟前
系统要活起来就必须开放包容去中心化
人工智能·python·flask·量子计算