决策树项目——电信客户流失预测

AUC性能测量

在机器学习中,性能测量是一项基本任务。因此,当涉及到分类问题时,我们可以依靠AUC - ROC曲线。当我们需要检查或可视化多类分类问题的性能时,我们使用AUC(曲线下面积)ROC(接收器工作特性)曲线。它是检查任何分类模型性能的最重要评估指标之一。

AUC的含义

AUC是衡量学习器优劣的一种性能指标。从定义可知,AUC可通过对ROC曲线下各部分的面积求和而得。AUC越大,说明模型对正负样本的区分能力越强,模型的性能也就越好。

AUC的优点

AUC考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价。它不受样本不平衡问题的影响,因此是一个相对稳健的评价指标。

项目案例:

python 复制代码
import pandas as pd


# 可视化混淆矩阵
def cm_plot(y, yp):
    from sklearn.metrics import confusion_matrix
    import matplotlib.pyplot as plt

    cm = confusion_matrix(y, yp)
    plt.matshow(cm, cmap=plt.cm.Blues)
    plt.colorbar()
    for x in range(len(cm)):
        for y in range(len(cm)):
            plt.annotate(cm[x, y], xy=(y, x), horizontalalignment='center',
                         verticalalignment='center')
            plt.ylabel('True label')
            plt.xlabel('Predicted label')
    return plt


# 导入数据
datas = pd.read_excel(r"E:\xwechat_files\wxid_qi43v1w2nqcb12_e432\msg\file\2025-12\电信客户流失数据.xlsx")
# 将变量与结果划分开
data = datas.iloc[:, :-1]  # 1、datas.年龄    datas[年龄]   datas.iloc[ : , :-1]
target = datas.iloc[:, -1]  #

# 划分数据集
"""

导入模块对数据进行划分;
"""
from sklearn.model_selection import train_test_split

data_train, data_test, target_train, target_test = \
    train_test_split(data, target, test_size=0.2,
                     random_state=42)
# 定义决策树
from sklearn import tree

dtr = tree.DecisionTreeClassifier(criterion='gini', max_depth=8, random_state=60)
dtr.fit(data_train, target_train)

"""
训练集混淆矩阵
"""
# 训练集预测值
train_predicted = dtr.predict(data_train)

from sklearn import metrics

# 绘制混淆矩阵
print(metrics.classification_report(target_train, train_predicted))
# 可视化混淆矩阵
cm_plot(target_train, train_predicted).show()

"""
测试集混淆矩阵
"""
# 测试集预测值
test_predicted = dtr.predict(data_test)  # 直接得到预测的结果

# 绘制混淆矩阵
print(metrics.classification_report(target_test, test_predicted))
# 可视化混淆矩阵
cm_plot(target_test, test_predicted).show()
# 对决策树测试集进行评分
dtr.score(data_test, target_test)

'''AUC值的计算'''
y_pred_proba = dtr.predict_proba(data_test)
a = y_pred_proba[:, 1]
auc_result = metrics.roc_auc_score(target_test, a)

'''绘制AUC-ROC曲线'''
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve  # 得到不同阈值的roc

# 计算ROC曲线的点
fpr, tpr, thresholds = roc_curve(target_test, a)  # 用来计算不同阈值下的fpr和tpr,

# 绘制ROC曲线
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve(area=%0.2f)' % auc_result)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')  # 函数来绘制一条从点 (0,0) 到点 (1,1) 的线段。
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend()
plt.show()
# 到逻辑回归里
相关推荐
Swift社区13 小时前
LeetCode 471 编码最短长度的字符串
算法·leetcode·职场和发展
没有天赋那就反复13 小时前
JAVA length
java·开发语言·算法
Tisfy13 小时前
LeetCode 0712.两个字符串的最小ASCII删除和:反向思维保留最大(动态规划)
算法·leetcode·动态规划·字符串·dp·子序列
ohoy13 小时前
RedisTemplate 使用之Hash
redis·算法·哈希算法
sunfove13 小时前
上帝的乐谱:从线性代数视角重构傅里叶变换 (FT) 的数学表达式
线性代数·机器学习·重构
栈与堆13 小时前
LeetCode-88-合并两个有序数组
java·开发语言·数据结构·python·算法·leetcode·rust
万俟淋曦13 小时前
【论文速递】2025年第52周(Dec-21-27)(Robotics/Embodied AI/LLM)
人工智能·深度学习·机器学习·机器人·大模型·论文·具身智能
源代码•宸13 小时前
Leetcode—712. 两个字符串的最小ASCII删除和【中等】
开发语言·后端·算法·leetcode·职场和发展·golang·dp
无限进步_13 小时前
【C语言&数据结构】相同的树:深入理解二叉树的结构与值比较
c语言·开发语言·数据结构·c++·算法·github·visual studio
java修仙传13 小时前
力扣hot100:每日温度
算法·leetcode·职场和发展