【机器学习系列】使用KNN模型进行数据分析和预测的完整流程

目录

一、导入数据

二、选择特征变量

三、划分训练集和测试集

四、训练KNN模型

五、进行预测

六、计算混淆矩阵

七、计算准确率

八、计算精确度

九、计算召回率

十、计算F1值

十一、计算十折交叉验证

十二、选取最优参数K值

(一)设置空列表用于储存分数

[(二) 通过for循环遍历K值](#(二) 通过for循环遍历K值)

[(三) 生成各个K值对应的模型评分](#(三) 生成各个K值对应的模型评分)

[(四) 绘制不同参数K对应的评分的折线图](#(四) 绘制不同参数K对应的评分的折线图)

[(五) 使用最佳参数n_neighbors=17建模](#(五) 使用最佳参数n_neighbors=17建模)


一、导入数据

复制代码
#将华南地区的数据作为样本数据,导入data变量中
import pandas
data = pandas.read_csv('华南地区.csv',encoding='utf8')
复制代码
#导入需要预测的华北地区数据
import pandas
华北地区数据 = pandas.read_csv('华北地区.csv',encoding='utf8')

二、选择特征变量

复制代码
#特征变量
x = data[['注册时长', '营收收入', '成本']]
#目标变量
y = data['是否续约']

三、划分训练集和测试集

复制代码
from sklearn.model_selection import train_test_split

#把数据集分为训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.3
)

四、训练KNN模型

复制代码
from sklearn.neighbors import KNeighborsClassifier
#新建一个KNN模型,设置个数为3
knnModel = KNeighborsClassifier(n_neighbors=3)
#使用训练集训练KNN模型
knnModel.fit(x_train, y_train)
#使用测试集测试KNN模型
knnModel.score(x_test, y_test)

在测试集上的准确率分数如下:

五、进行预测

复制代码
#预测测试数据集的目标变量
y_test_predict = knnModel.predict(x_test)

六、计算混淆矩阵

复制代码
#计算混淆矩阵
from sklearn.metrics import confusion_matrix
confusion_matrix(
    y_test, 
    y_test_predict, 
    labels=['续约', '不续约']
)

七、计算准确率

复制代码
#准确率
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_test_predict)
#混淆矩阵
#array([[225,  82],
#       [ 56,  87]], dtype=int64)
#(225+87)/(225+82+56+87)

八、计算精确度

复制代码
#精确率
from sklearn.metrics import precision_score
precision_score(y_test, y_test_predict, pos_label="续约")
precision_score(y_test, y_test_predict, pos_label="不续约")
#混淆矩阵
#array([[225,  82],
#       [ 56,  87]], dtype=int64)
#(225)/(225+56)

九、计算召回率

复制代码
#召回率
from sklearn.metrics import recall_score
recall_score(y_test, y_test_predict, pos_label="续约")
recall_score(y_test, y_test_predict, pos_label="不续约")

#混淆矩阵
#array([[225,  82],
#       [ 56,  87]], dtype=int64)
#(225)/(225+82)

十、计算F1值

复制代码
#f1值
from sklearn.metrics import f1_score
f1_score(y_test, y_test_predict, pos_label="续约")
f1_score(y_test, y_test_predict, pos_label="不续约")

#混淆矩阵
#array([[225,  82],
#       [ 56,  87]], dtype=int64)
#2/(1/((225)/(225+56)) + 1/((225)/(225+82)))

十一、计算十折交叉验证

复制代码
from sklearn.model_selection import cross_val_score
#进行K折交叉验证
knnModel = KNeighborsClassifier(n_neighbors=3)
cvs = cross_val_score(knnModel, x, y, cv=10)
cvs
cvs.mean()

十二、选取最优参数K值

(一)设置空列表用于储存分数

复制代码
from sklearn.metrics import make_scorer
#用来保存KNN模型的邻居个数
ks = []
#用来保存准确率
accuracy_means = []
#用来保存精确率
precision_means = []
#用来保存召回率
recall_means = []
#用来保存f1值
f1_means = []

(二) 通过for循环遍历K值

复制代码
#n_neighbors参数,从2到29,一个个尝试
for k in range(2, 30):
    #把n_neighbors参数保存起来
    ks.append(k)
    #改变KNN模型的参数n_neighbors为k
    knnModel = KNeighborsClassifier(n_neighbors=k)
    #计算10折交叉验证的准确率
    accuracy_cvs = cross_val_score(
        knnModel, 
        x, y, cv=10, 
        scoring=make_scorer(accuracy_score)
    )
    #将10折交叉验证的准确率的均值保存起来
    accuracy_means.append(accuracy_cvs.mean())
    #计算10折交叉验证的精确率
    precision_cvs = cross_val_score(
        knnModel, 
        x, y, cv=10, 
        scoring=make_scorer(
            precision_score, 
            pos_label="续约"
        )
    )
    #将10折交叉验证的精确率的均值保存起来
    precision_means.append(precision_cvs.mean())
    #计算10折交叉验证的召回率
    recall_cvs = cross_val_score(
        knnModel, 
        x, y, cv=10, 
        scoring=make_scorer(
            recall_score, 
            pos_label="续约"
        )
    )
    #将10折交叉验证的召回率的均值保存起来
    recall_means.append(recall_cvs.mean())
    #计算10折交叉验证的f1值
    f1_cvs = cross_val_score(
        knnModel, 
        x, y, cv=10, 
        scoring=make_scorer(
            f1_score, 
            pos_label="续约"
        )
    )
    #将10折交叉验证的f1值的均值保存起来
    f1_means.append(f1_cvs.mean())

(三) 生成各个K值对应的模型评分

复制代码
#生成参数对应的模型评分
scores = pandas.DataFrame({
    'k': ks,
    'precision': precision_means,
    'accuracy': accuracy_means,
    'recall': recall_means,
    'f1': f1_means
})

(四) 绘制不同参数K对应的评分的折线图

复制代码
#绘制不同参数对应的评分的折线图
scores.plot(
    x='k', 
    y=['accuracy', 'precision', 'recall', 'f1']
)

(五) 使用最佳参数n_neighbors=17建模

复制代码
#使用最佳参数n_neighbors=17建模
knnModel = KNeighborsClassifier(n_neighbors=17)
#使用所有训练样本训练模型
knnModel.fit(x, y)
#对未知的目标数据进行预测
华北地区数据['预测续约'] = knnModel.predict(
    华北地区数据[['注册时长', '营收收入', '成本']]
)

pandas.options.display.max_columns = None
pandas.options.display.max_rows = None
华北地区数据[['注册时长','营收收入','成本','预测续约']]

预测结果如下:

相关推荐
love530love7 小时前
【笔记】ComfUI RIFEInterpolation 节点缺失问题(cupy CUDA 安装)解决方案
人工智能·windows·笔记·python·插件·comfyui
Lucky小小吴7 小时前
Google《Prompt Engineering》2025白皮书——最佳实践十四式
人工智能·prompt
AI科技星8 小时前
为什么变化的电磁场才产生引力场?—— 统一场论揭示的时空动力学本质
数据结构·人工智能·经验分享·算法·计算机视觉
青瓷程序设计8 小时前
昆虫识别系统【最新版】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
咩图8 小时前
C#创建AI项目
开发语言·人工智能·c#
深蓝海拓8 小时前
opencv的模板匹配(Template Matching)学习笔记
人工智能·opencv·计算机视觉
美林数据Tempodata8 小时前
李飞飞最新论文深度解读:从语言到世界,空间智能将重写AI的未来十年
人工智能·ai·空间智能
东哥说-MES|从入门到精通8 小时前
数字化部分内容 | 十四五年规划和2035年远景目标纲要(新华社正式版)
大数据·人工智能·数字化转型·mes·数字化工厂·2035·十四五规划
小殊小殊8 小时前
DeepSeek为什么这么慢?
人工智能·深度学习
极客BIM工作室8 小时前
从静态到动态:Sora与文生图潜在扩散模型的技术同异与AIGC演进逻辑
人工智能·aigc