《机器学习》KNN算法实现手写数字识别

import numpy as np
import cv2
from networkx.classes import neighbors
from sklearn.neighbors import KNeighborsClassifier

img_gray = cv2.imread(r'./data/num.png',0)

# 将每张照片分割出来
# 列表推导式
cells = [np.hsplit(row,100) for row in np.vsplit(img_gray,50)]
# 列表推导式展开
# cells = []
# for row in np.vsplit(img_gray,50):
#     cells.append(np.hsplit(row, 100))

# 将cells列表转换为数组
x = np.array(cells)
# 将前50列分割为训练集
train = x[:,:50]
# 将后50列分割为测试集
test = x[:,50:100]

# 将每张图像展开为一行400列
train_new = train.reshape(-1,400).astype(np.float32)
test_new = test.reshape(-1,400).astype(np.float32)

# 创建标签
k = np.arange(0,10)
labels = np.repeat(k,250)
# 创建训练集标签
train_labels = labels[:,np.newaxis]
# 创建测试标签
test_labels = labels[:,np.newaxis]

# 创建KNN模型（为cv2库自带）
knn = cv2.ml.KNearest_create()
# 训练模型
knn.train(train_new,cv2.ml.ROW_SAMPLE,train_labels)
# 用测试集测试模型
ret,result,neigh,dist = knn.findNearest(test_new,k=3)
# 计算模型的正确率
matches = result == test_labels
correct = np.count_nonzero(matches)
accuracy = correct*100.0/result.size
print('使用cv2准确率为：',accuracy)

# 使用sklearn库自带的KNN库进行试验
knn1 = KNeighborsClassifier(n_neighbors=3)
knn1.fit(train_new,train_labels)
result1 = knn1.predict(test_new)
result1 = result1[:,np.newaxis]
matches = result1 == test_labels
correct = np.count_nonzero(matches)
accuracy = correct*100.0/result1.size
print('使用sklearn准确率为：',accuracy)

实验结果

可见该模型的正确率还挺客观，但远远达不到预期结果。

五、使用自己的数据进行测试

以下是本人自己写的几张20*20像素的手写数字图片

代码展示

python 复制代码

import numpy as np
import cv2
from sklearn.neighbors import KNeighborsClassifier

img_gray = cv2.imread(r'./data/num.png',0)
# 读取自己的数据
img_2 = cv2.imread(r'./data/2.png',0).reshape(-1,400).astype(np.float32)
img_3 = cv2.imread(r'./data/3.png',0).reshape(-1,400).astype(np.float32)
img_5 = cv2.imread(r'./data/5.png',0).reshape(-1,400).astype(np.float32)
img_8 = cv2.imread(r'./data/8.png',0).reshape(-1,400).astype(np.float32)

cells = [np.hsplit(row,100) for row in np.vsplit(img_gray,50)]
x = np.array(cells)
train = x[:,:50]
train = train.reshape(-1,400).astype(np.float32)

# 将数据纵向合并
test = np.vstack((img_2,img_3,img_5,img_8))

# 训练集标签
k = np.arange(0,10)
labels = np.repeat(k,250)
train_labels = labels[:,np.newaxis]
# 设置验证集标签
test_labels = [[2], [3], [5], [8]]

# 创建KNN模型
Knn = KNeighborsClassifier(n_neighbors=3)
# 训练模型
Knn.fit(train,train_labels)
# 进行预测
result = Knn.predict(test)
result = result[:,np.newaxis]
# 计算正确率
matches = result == test_labels
correct = np.count_nonzero(matches)
accuracy = correct*100.0/result.size
print('验证自写2、3、5、8正确率为：',accuracy)

结果展示

可见模型将数字8预测成了3

六、总结

KNN算法是机器学习的入门算法，所以对初学者来说能够熟练运用对以后的学习有很大意义。虽然模型的正确率不高但对训练模型的学习过程很重要。