数据挖掘:航空公司的客户价值分析

需求分析

理解并掌握聚类分析方法,掌握数据的标准化,掌握寻找最佳聚类数,掌握聚类的绘图,掌握聚类分析的应用场景。

系统实现

实验流程分析

  • 借助航空公司数据,对客户进行分类
  • 对不同类别的客户进行特征分析,比较不同类别客户的价值
  • 对不同价值的客户类别进行个性化服务,制定相应的营销策略

数据准备

  • 加载本次实验所需要用到的包

打开spyder,输入以下代码

复制代码
import pandas as pd
import numpy as np
from sklearn.metrics import silhouette_score
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans,AgglomerativeClustering
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import datetime
plt.rcParams['font.sans-serif']=['SimHei']  #中文正常显示
plt.rcParams['axes.unicode_minus']=False   #让负号正常显示
  • 读取数据,查看数据和整理数据信息

https:staticfile.eduplus.netldataSetsystemLiblc3b5c0f37fe24797808613bc713d5585.rar。压缩包中的数据为csv数据,解压并将该数据移动到c:/数据分析/data目录中

读取并查看数据

取出SUM_YR_1和SUM_YR_2不为空的样本

去除掉第一年、第二年票价均为0,同时平均折扣系数大于零和飞行里程大于零的数据

  • 取出LRFMC模型数据,并整理

取出LRFMC模型数据

计算入会天数

复制代码
L = pd.to_datetime(new_data['LOAD_TIME'])-pd.to_datetime(new_data['FFP_DATE'])
L = np.int64(L.astype(str).str.split().str[0])  # 会员入会天数          
L=pd.DataFrame(L,columns=['Days'])
air_features = pd.concat([L, new_data.iloc[:, 2:]], axis=1)   # 横向拼接
print(air_features.head())

更改列名,描述性统计

重置索引

数据标准化

寻找最佳聚类个数

  • 绘制拐点图,寻找下降最剧烈的点

    sse=[]
    for i in range(2,10):
    result=KMeans(i,random_state=100).fit(data_scale)
    sse.append(result.inertia_)
    plt.figure()
    plt.plot(range(2,10),sse,marker='o')
    plt.xlabel('k')
    plt.ylabel('sse')
    plt.show()

k=3/4时最激烈

  • 绘制轮廓系数图,寻找轮廓系数高的点

    sil=[]
    for i in range(2,8):
    result=KMeans(i,random_state=100).fit(data_scale)
    sil.append(silhouette_score(air_features,result.labels_))
    plt.figure()
    plt.plot(range(2,8),sil,marker='o')
    plt.xlabel('k')
    plt.ylabel('sil')
    plt.show()

k=2/3轮廓系数最高,综合k=3

建立聚类模型

  • 绘制聚类图,观察聚类情况

kmeans聚类

绘制聚类图

结果分析

  • 合并数据,并加入分类
  • 聚合各类,对各特征计算平均值
  • 加入客户分类并画图

    def customer_type(cluser):
    if cluser==0:
    return '重要发展客户'
    elif cluser==1:
    return '最重要客户'
    else:
    return '一般客户'

    air_features['客户类型']=air_features['cluster'].apply(customer_type)
    print(air_features.head())

绘制图像

复制代码
customer_count=air_features['客户类型'].value_counts()
plt.figure()
plt.subplot(1,2,1)
plt.bar(customer_count.index,customer_count.values)
#添加文本
for a,b in zip(customer_count.index,customer_count.values):
    plt.text(a,b,b,ha='center',va='bottom',color='b')
plt.subplot(1,2,2)
plt.pie(customer_count.values,labels=list(customer_count.index),autopct='%.1f%%', textprops={'color':'r'},shadow=True)
plt.legend(loc=1)
plt.show()
相关推荐
wx_xkq12883 分钟前
营销智脑V3重磅迭代:从工具到平台,AI营销进入“全能时代“
人工智能
阿钱真强道4 分钟前
02 从 MLP 到 LeNet:数据、标签和任务:机器学习到底在解决什么问题?
人工智能·深度学习·机器学习·cnn·分类算法·lenet
天蓝色的鱼鱼6 分钟前
别慌!AI时代,记住这12个新名词,你就赢了一半的人
人工智能
秋913 分钟前
《世界的本质》的深度分析与解读,给出了如何“顺天应人”以实现个人价值最大化的行动指南
人工智能
阿钱真强道21 分钟前
04 从 MLP 到 LeNet:sigmoid 和 softmax 到底在做什么?为什么输出层需要它们?
人工智能·机器学习·softmax·分类模型·sigmoid·深度学习入门
Forrit22 分钟前
Agent长期运行(Long-Running Tasks)实现方案与核心挑战
大数据·人工智能·深度学习
不熬夜的熬润之25 分钟前
APCE-平均峰值相关能量
人工智能·算法·计算机视觉
人工智能训练37 分钟前
从 1.1.3 到 1.13.2!Ubuntu 24.04 上 Dify 升级保姆级教程(零数据丢失 + 一键迁移)
linux·运维·人工智能·windows·ubuntu·dify
醉舞经阁半卷书137 分钟前
从零到1了解Agent Skills
人工智能·机器学习
冰西瓜60039 分钟前
深度学习的数学原理(二十二)—— Seq2Seq编码器-解码器基础框架
人工智能·深度学习