Python 数据分析实战——为什么销售额减少?酒卷隆治_案例1

# 为什么黑猫游戏的销售额会减少?

# 数据集

DAU : 每天至少来访问一次的用户数据

数据内容 数据类型 字段名

访问时间 string(字符串) log_data

应用名称 string(字符串) app_name

用户 ID int(数值) user_id

DPU: 每天至少消费1日元的用户数据

数据内容 数据类型 字段名

消费日期 string(字符串) log_data

应用名称 string(字符串) app_name

用户 ID int(数值) user_id

消费额 int(数值) Payment

INSTALL : 每个用户首次玩这个游戏的时间数据

数据内容 数据类型 字段名

首次使用的日期 string(字符串)

python 复制代码
# 加载模块
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 

# 导入数据
DAU = pd.read_csv("D:/data/datasource/数据分析实战_酒卷隆治/R/section3-dau.csv")
DPU = pd.read_csv("D:/data/datasource/数据分析实战_酒卷隆治/R/section3-dpu.csv")
INSTALL = pd.read_csv("D:/data/datasource/数据分析实战_酒卷隆治/R/section3-install.csv")
python 复制代码
# 将数据合并起来
data = DAU.merge(INSTALL,on='user_id')
data = pd.merge(data,DPU, on =['user_id','log_date'], how ='outer') # outer 外连接,保留两个数据集中所有的user_id, log_date
python 复制代码
# 对数据进行处理
data.fillna(value=0, inplace =True)
# 剔除多余的列
data.drop(columns=['app_name_y','app_name'])
# 生成新的列,年月份数据
data['log_mon'] = data.log_date.apply(lambda x: pd.to_datetime(x).strftime('%Y-%m'))
data['install_mon'] = data.install_date.apply(lambda x: pd.to_datetime(x).strftime('%Y-%m'))
# 按月聚合统计每位人员的销售额
data_mon = data.groupby(['log_mon','user_id','install_mon']).payment.sum().reset_index()

# 如果log_date 等于 install_date 则为新用户
data_mon['type'] = data_mon.apply(lambda x: '1' if x.log_mon == x.install_mon else '0', axis =1)
python 复制代码
# 按月统计新老客户的销售额
data1 = data_mon.groupby(['log_mon','type'])['payment'].sum().reset_index(name='tot_payment')
data_pivot = pd.pivot_table(data1,values='tot_payment',index='log_mon',columns='type',aggfunc='sum').reset_index().rename(columns={'0':'老用户','1':'新用户'})
# data_pivot.index=('老用户','新用户')
data_pivot
python 复制代码
# 堆积柱形图: 不同月份新老客户的销售额

bar1 = plt.bar(np.arange(2),data_pivot.老用户,color='green',label='老用户',width=0.2,alpha=0.5)
bar2 = plt.bar(np.arange(2),data_pivot.新用户,color='grey',label='新用户',bottom=data_pivot.老用户,width=0.2,alpha=0.5)

plt.bar_label(bar1,color='black')
plt.bar_label(bar2,color='black')

# # 设置x轴标签
plt.rcParams['font.sans-serif']=['SimHei'] # 用来显示中文
plt.title('黑猫游戏新老客户销售额',fontsize=18)
plt.xticks(np.arange(2),data_pivot.log_mon)
plt.xlabel('月份',fontsize=12)
plt.ylabel('月销售额(日元)',fontsize=12)
plt.ylim(0,300000) # 修改刻度
plt.legend(loc='upper right',ncol=1)
python 复制代码
# Note: 根据上图可知销售额的下降主要是优于新用户导致。
# 筛选新用户 且消费大于0的用户 的销售数据,对消费金额进行分组,统计不同组内的用户数
data_new = data_mon[(data_mon.type=='1')&(data_mon.payment>0)]
# 对数据进行分组
payment_min = data_new.payment.min()
payment_max = data_new.payment.max()

print(payment_min, payment_max,data_new.user_id.count())
data_new['payment_group'] =pd.cut(data_new.payment,
                                  bins=[payment_min-1,1000,2000,3000,4000,5000,6000,7000,payment_max+1],
                                  labels=['1000日元一下','1000-2000','2000-3000','3000-4000','4000-5000','5000-6000','6000-7000','7000日元以上']) 

data_new_group = pd.pivot_table(data_new,values='user_id',index='payment_group',columns='log_mon',aggfunc='count').reset_index().rename(columns={'2013-06':'六月份','2013-07':'七月份'})
data_new_group
python 复制代码
# 可视化
fig = plt.figure(figsize=(10,4)) 
bar1 = plt.bar(np.arange(8), height=data_new_group.六月份, color='blue', width=0.3,alpha = 0.5,label='2013年6月') # alpha 设置透明度
bar2 = plt.bar(np.arange(8)+0.3,height = data_new_group.七月份, color='green',width=0.3,alpha = 0.5,label='2013年7月')

plt.legend()

# 添加数据标注, 
plt.bar_label(bar1)
plt.bar_label(bar2)

# # 设置x轴标签
plt.rcParams['font.sans-serif']=['SimHei'] # 用来显示中文
plt.title('黑猫游戏新老客户销售额度比较',fontsize=18)
plt.xticks(np.arange(8)+0.2,data_new_group.payment_group)
plt.ylabel('消费人数(人)',fontsize=12)
plt.ylim(0,40) # 修改刻度
plt.legend(loc='upper right',ncol=1)

Note: 由图可知,本月消费2000以下的用户数量减少了。 (根据书本的样例数据计算的结果,并不能反应出销售额的下降是由于消费2000元以下的用户数减少,暂且认为是确实部分数据)

解决对策: 根据之间的假设 宣传活动减少,导致新客户数量减少,新客户带来了销售额的下降,建议恢复商业宣传活动到之前的水平。

Note: 在实际的工作中,还需要判断ROI,比较新用户的顾客终身价值和商业宣传活动的投入成本,再进行决策。

相关推荐
limingade3 小时前
手机实时提取SIM卡打电话的信令和声音-新的篇章(一、可行的方案探讨)
物联网·算法·智能手机·数据分析·信息与通信
编程零零七3 小时前
Python数据分析工具(三):pymssql的用法
开发语言·前端·数据库·python·oracle·数据分析·pymssql
惟长堤一痕9 小时前
医学数据分析实训 项目四回归分析--预测帕金森病病情的严重程度
数据挖掘·数据分析·回归
勤劳兔码农11 小时前
文本分类实战项目:如何使用NLP构建情感分析模型
自然语言处理·分类·数据挖掘
shiming887911 小时前
Python数据分析与可视化
开发语言·python·数据分析
一声沧海笑11 小时前
dplyr、tidyverse和ggplot2初探
信息可视化·数据分析·r语言
xuehaisj14 小时前
论文内容分类与检测系统源码分享
人工智能·分类·数据挖掘
xuehaisj17 小时前
食品检测与分类系统源码分享
人工智能·分类·数据挖掘
惟长堤一痕19 小时前
医学数据分析实训 项目九 糖尿病风险预测
机器学习·数据分析
will_guofeng19 小时前
数据分析-螺旋环状气泡图
数据挖掘·数据分析