K近邻算法(knn)

核心概念

  1. 算法定义

每个样本由其最接近的K个邻近样本代表(K通常≤20)。

对新数据分类时,提取训练集中特征最相似的K个样本,统计其类别频率,将最高频类别作为预测结果。

  1. 算法步骤

① 计算新数据与所有训练样本的距离;

② 按距离递增排序;

③ 选取距离最小的K个点;

④ 统计K个点的类别频率;

⑤ 返回频率最高的类别作为预测分类。

距离度量方法

  1. 欧氏距离

多维空间中的绝对距离。

公式(n维):

d = \\sqrt{\\sum_{i=1}\^{n}(x_i - y_i)\^2}

  1. 曼哈顿距离

坐标轴上的绝对轴距总和。

公式(二维):

d = \|x_1 - x_2\| + \|y_1 - y_2\|

实战案例:鸢尾花分类(基于sklearn)

  1. 数据集

特征:花萼长度/宽度、花瓣长度/宽度(4个特征)。

标签:3种鸢尾花类别(`setosa`, `versicolor`, `virginica`)。

  1. 实现步骤

  2. 加载数据

iris = datasets.load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3)

  1. 创建KNN模型(K=5,欧氏距离)

knn = KNeighborsClassifier(n_neighbors=5, metric="euclidean")

knn.fit(X_train, y_train)

  1. 评估与预测

train_score = knn.score(X_train, y_train) # 训练集准确率

test_score = knn.score(X_test, y_test) # 测试集准确率

y_pred = knn.predict(X_test) # 预测标签

```

相关推荐
海边夕阳20062 小时前
【每天一个AI小知识】:什么是生成对抗网络?
人工智能·经验分享·深度学习·神经网络·机器学习·生成对抗网络
Wise玩转AI2 小时前
Day 27|智能体的 UI 与用户交互层
人工智能·python·ui·ai·chatgpt·ai智能体
youcans_2 小时前
【youcans论文精读】VM-UNet:面向医学图像分割的视觉 Mamba UNet 架构
论文阅读·人工智能·计算机视觉·图像分割·状态空间模型
铮铭2 小时前
扩散模型简介:The Annotated Diffusion Model
人工智能·机器人·强化学习·世界模型
轻竹办公PPT2 小时前
轻竹论文:毕业论文AI写作教程
人工智能·ai·ai写作
呵呵哒( ̄▽ ̄)"3 小时前
专项智能练习(课程类型)
人工智能
2501_918126913 小时前
如何用ai把特定领域的生活成本归零
人工智能·生活·个人开发
Brianna Home3 小时前
[鸿蒙2025领航者闯关] 鸿蒙 6.0 星盾安全架构 + AI 防窥:金融级支付安全实战与深度踩坑实录
人工智能·安全·harmonyos·安全架构
飞哥数智坊4 小时前
V4/R4 没来,但 DeepSeek-V3.2 好像又便宜又好用?
人工智能·deepseek