《机器学习》——运用OpenCV库中的KNN算法进行图像识别

文章目录

KNN算法的简单介绍
下载OpenCV库
实验内容
实验结果
完整代码
自己手写数字传入模型中测试

KNN算法的简单介绍

一、KNN算法的基本要素
- K值的选择：K值代表选择与新测试样本距离最近的前K个训练样本数，通常K是不大于20的整数。K值的选择对算法结果有重要影响，需要通过交叉验证等方法来确定最优的K值。
- 距离度量：常用的距离度量方式包括闵可夫斯基距离、欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离等。其中，欧氏距离在KNN算法中最为常用。
- 分类决策规则：一般采用多数投票法，即选择K个最相似数据中出现次数最多的类别作为新数据的分类。
二、KNN算法的工作流程
- 准备数据：对数据进行预处理，包括收集、清洗和归一化等步骤，以确保所有特征在计算距离时具有相等的权重。
- 计算距离：计算测试样本点到训练集中每个样本点的距离。
- 排序与选择：根据距离对样本点进行排序，并选择距离最小的K个样本点作为测试样本的邻居。
- 分类决策：根据K个邻居的类别信息，采用多数投票法确定测试样本的类别。

下载OpenCV库

python 复制代码

pip install opencv-python
# 可以根据自己python的版本选择下载适配的opencv，可以在后面加上 == 指定版本 
# 例如
pip install opencv-python==3.4.17.63

调用包的时候有点写法上的区别

python 复制代码

import cv2

实验内容

实验目的
- 通过构建模型，传入训练的数据后，让模型达到尽可能高的准确率，并对传入的测试数据可以得出正确的结果
实验大致流程
- 下面是一张已经经过一些初步处理过的图片，其中含有0~9的手写数字 ，且每一个数字都是5行，100列 ，共有5000个数字
- 本次实验需要通过对这张2000*1000像素的图片 进行切分处理
- 将其划分成独立的数字 ，每个数字大小为20*20像素 ，共计5000个 ；并平均切分为左右两个等份 ，一份作为训练集 ，一份作为测试集
- 将训练集放到模型中训练后，再传入测试集进行测试，得到结果后，通过与正确结果比较得出准确率
- 最后我们可以自己手写出一些数字，放入实验项目下，并处理后放入模型，测试出结果
实验步骤
- 1、获取数据
- 2、处理数据
- 3、分配标签
- 4、模型构建和训练
- 5、测试
- 6、通过测试集校验准确率

- 1、获取数据

因为这次的实验已经给定了数据，所以只需要将这张图片存放在实验项目下，并读取到代码中即可

python 复制代码

# 通过opencv中imread方法，读取图片
img = cv2.imread('digits.png')

2、处理数据

在完成一个实验项目过程中，获取数据和处理数据需要花费很多时间
- 因为给定的这张图片中，背景是黑色的，数字是白色的，除了黑色，其他任何颜色的图片都会有不同程度的亮度，而且白色是亮度最高的颜色（255）,为了简化图片信息和提高计算效率 ，我们需要将图片转化为灰度图
- 将原始图像划分成独立的数字
- 用numpy的方法将划分后的图像块重塑为一个四维数组，其中最后两个维度对应于每个图像块的宽度和高度（50，100，20，20）。
- 划分训练集和测试集
- 将数据构造为符合KNN算法的输入
  python 复制代码
```
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  # 转换为灰度图
# 将原始图像划分成独立的数字，每个数字大小20*20，共计5000个
cells = [np.hsplit(row, 100) for row in np.vsplit(gray, 50)]
# 转换成array，形状(50,100,20,20),50行，100列，每个图像20*20大小
x = np.array(cells)

train = x[:, :50]  # 划分训练集和测试集：比例各占一半
test = x[:, 50:100]
# 将数据构造为符合KNN的输入，将每个数字的尺寸由20*20调整为1*400（一行400个像素）
train_new = train.reshape(-1, 400).astype(np.float32)  # Size = (2500,400)
test_new = test.reshape(-1, 400).astype(np.float32)  # Size = (2500,400)
```
- 注意：
  - .astype(np.float32): 是为了将reshape后的数组的数据类型转换为np.float32，即32位浮点数。这是因为在机器学习或深度学习中，通常会使用浮点数来表示特征或标签，而np.float32相比于64位浮点数（np.float64）可以节省内存，同时对于大多数应用来说，其精度已经足够。

3、分配标签

分别为训练集数据、测试集数据分配标签（图像对应的实际值）

因为这里有10种数字，每类数字都需要重复分配标签250次

python 复制代码

# 分配标签：分别为训练数据、测试数据分配标签（图像对应的实际值）
k = np.arange(10)  # (0123456789)
labels = np.repeat(k, 250) # repeat->重复数组中的元素，每个元素重复250次
# np.newaxis是NumPy库中的一个特殊对象，用于在数组中增加一个新的维度
train_labels = labels[:, np.newaxis]  # 在训练集种加入标签维度
test_labels = np.repeat(k, 250)[:, np.newaxis] # 生成一个测试标签，就是正确的结果，用于后面计算准确率

4、模型构建和训练

因为opencv库中有KNN算法，所以我们可以直接调用

在KNN算法中传入训练集和标签

python 复制代码

# 模型构建+训练 
knn = cv2.ml.KNearest_create()  # 通过cv2创建一个KNN模型
# train训练方法
knn.train(train_new, cv2.ml.ROW_SAMPLE, train_labels) # cv2.ml.ROW_SAMPLE：这是一个标志，告诉OpenCV训练数据是按行组织的，即每一行代表一个样本，每一列代表一个特征

5、测试

传入训练集，并指定K的值，可以更改不同的K值来找到最佳的测试结果

python 复制代码

# 测试
# findNearest测试方法
res, result, neighbours, dist = knn.findNearest(test_new, k=3)
# ret: 表示查找操作是否成功
# result：浮点数数组，表示测试样本的预测标签
# neighbours：这是一个整数数组，表示与测试样本最接近的K个邻居的索引。这些索引对应于训练集中的样本，可以用来检查哪些训练样本对预测结果产生了影响
# dist：这是一个浮点数组，表示测试样本与每个最近邻居之间的距离。这些距离可以帮助理解预测结果的置信度；距离越近，预测通常越可靠

6、通过测试集校验准确率
python 复制代码
```
matches = result == test_labels
correct = np.count_nonzero(matches)
accuracy = correct * 100.0 / result.size
print("当前使用KNN识别手写数字的准确率为:", accuracy)
```
- 代码解释
  - matches = result == test_labels：这行代码通过比较result（KNN算法预测的结果）和test_labels（测试集的真实标签）来生成一个布尔数组matches。如果result中的某个预测值与test_labels中对应的真实标签相等，则matches中对应位置的值为True，否则为False。
  - correct = np.count_nonzero(matches)：这行代码使用np.count_nonzero函数计算matches数组中True的数量，即正确预测的数量。np.count_nonzero函数会统计数组中所有非零元素（在这个场景下，即True）的数量。
  - accuracy = correct * 100.0 / result.size：这行代码计算准确率。首先，将正确预测的数量correct乘以100.0（为了得到百分比），然后除以result.size（即预测结果的总数，也就是测试集的大小）。这样得到的accuracy就是准确率，以百分比形式表示。
  - print("当前使用KNN识别手写数字的准确率为:", accuracy)：最后，这行代码将计算得到的准确率打印出来。

实验结果

打印出准确率

完整代码

python 复制代码

import numpy as np
import cv2

img = cv2.imread('digits.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  # 转换为灰度图
# 将原始图像划分成独立的数字，每个数字大小20*20，共计5000个
cells = [np.hsplit(row, 100) for row in np.vsplit(gray, 50)]
# 转换成array，形状(50,100,20,20),50行，100列，每个图像20*20大小
x = np.array(cells)

train = x[:, :50]  # 划分训练集和测试集：比例各占一半
test = x[:, 50:100]
# 将数据构造为符合KNN的输入，将每个数字的尺寸由20*20调整为1*400（一行400个像素）
train_new = train.reshape(-1, 400).astype(np.float32)  # Size = (2500,400)
test_new = test.reshape(-1, 400).astype(np.float32)  # Size = (2500,400)

# 分配标签：分别为训练数据、测试数据分配标签（图像对应的实际值）
k = np.arange(10)  # (0123456789)
labels = np.repeat(k, 250) # repeat重复数组中的元素，每个元素重复250次
train_labels = labels[:, np.newaxis] # np.newaxis是NumPy库中的一个特殊对象，用于在数组中增加一个新的维度
test_labels = np.repeat(k, 250)[:, np.newaxis]

# 模型构建+训练  opencv里面也有KNN算法
knn = cv2.ml.KNearest_create()  # 通过cv2创建一个KNN模型
knn.train(train_new, cv2.ml.ROW_SAMPLE, train_labels) # cv2.ml.ROW_SAMPLE：这是一个标志，告诉OpenCV训练数据是按行组织的，即每一行代表一个样本，每一列代表一个特征

# 测试
res, result, neighbours, dist = knn.findNearest(test_new, k=3)
# ret: 表示查找操作是否成功
# result：浮点数数组，表示测试样本的预测标签
# neighbours：这是一个整数数组，表示与测试样本最接近的K个邻居的索引。这些索引对应于训练集中的样本，可以用来检查哪些训练样本对预测结果产生了影响
# dist：这是一个浮点数组，表示测试样本与每个最近邻居之间的距离。这些距离可以帮助理解预测结果的置信度；距离越近，预测通常越可靠

# 通过测试集校验准确率
matches = result == test_labels
correct = np.count_nonzero(matches)
accuracy = correct * 100.0 / result.size
print("当前使用KNN识别手写数字的准确率为:", accuracy)

自己手写数字传入模型中测试

下图是通过电脑自带的画图工具，写出的数字6，并且已经将大小调整为20*20像素大小的图片

将图片经过与实验中相同的处理方法，加以处理并传入到模型中进行测试

python 复制代码

# 读取图片
img_6 = cv2.imread('6.png')
# 将图片转换为灰度图
gray_6 = cv2.cvtColor(img_6, cv2.COLOR_BGR2GRAY)
# 将图片转换为数组结构
test_gray_6 = np.array(gray_6)
# 将尺寸由20*20调整为1*400（一行400个像素），才能符合KNN的输入结构
test_6 = test_gray_6.reshape(-1, 400).astype(np.float32)
# 将处理好的测试图片放入模型中
res_6, result_6, neighbours_6, dist_6 = knn.findNearest(test_6, k=3)
print(result_6)

得出结果
- 因为模型中训练是以数组的形式进行的，所以结果也会以数组的形式返回出来
- 由此可以看出，此次实验的模型还是相对比较准确的