数据挖掘:电商会员价值分析模型方案

某服装电商会员价值分析模型

(数据挖掘项目核心关注的是特征工程和业务梳理,本方案聚焦这两处进行分析。)

项目背景

背景说明

信息时代的来临使得企业营销焦点从产品转向了客户,客户关系管理(CRM)成为企业的核心问题。客户关系管理的关键问题是客户分群。通过客户分群,区分无价值客户和高价值客户。企业针对不同价值的客户制订优化的个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值客户,实现企业利润最大化目标。准确的客户分群结果是企业优化营销资源分配的重要依据,客户分群越来越成为客户关系管理中亟待解决的关键问题之一。

RFM模型

RFM模型,是CRM管理的常见方法,是服装零售企业在竞争激烈的商业形势下,用于精准营销,优化资源提升客户满意度的重要手段。

RFM模型是一个定量分析模型,它通过R(最近一次购买时间)、F(期间购买次数)以及M(期间消费金额)三个维度方向,通过客户的消费行为数据,立体绘制客户形象,构建具有各种特征的客户分类群体。

项目需求

需求描述

面对激烈的市场竞争,本方案根据会员数据和销售订单数据通过建立合理的会员价值评估模型,对会员进行打标签,分析及比较不同会员群体的客户价值,并制定相应的营销策略,对不同的会员群提供个性化的服务,为衡量会员价值和会员创利能力提供重要的分析手段。

需求分解

  1. 了解数据情况
  2. 构建会员价值评估模型
  3. 对会员进行打标签

应用方案

从数据读取、数据清洗、特征工程、模型构建、模型评估对测试数据进行挖掘。

数据情况

测试数据只取19年12月份自营3区1号至15号的销售数据,会员信息等。总共47000条记录。其中包含了销售订单指标、VIP客户维度指标、商品维度指标、店铺维度指标,具体数据指标信息如下所示:


数据预处理

销售订单数据由于原始数据的特征过多,不便直接用于会员价值分析,因此需要对特征进行筛选,挑选出衡量会员价值的关键特征。且原始数据存在少量异常值,包括一些销售件数、销售金额(不含券)为负数的数据需进行提取并处理,对会员入会时长异常的值利用会员第一次购买时间作为入会时间,只有对原始数据清洗后才能用于挖掘分析。

构建会员价值分析关键特征

在RFM模型中,R(Recency)指的是最近一次消费时间与截止时间的间隔,我们算出数提取日期到最近一次交费的时间间隔作为R指标,最近一次消费时间与截止时间的间隔越短,会员客户对即时提供的商品或是服务也最有可能感兴趣。

F(Frequency)指某段时间内所消费的次数。消费频率越高的顾客,也是满意度越高的顾客,其忠诚度越高,顾客价值也就越大,本方案统计出每个会员在时间窗口内累计购买的件数作为F指标。

M(Monetary)指顾客在某段时间内所消费的金额。消费金额越大的顾客,他们的消费能力自然也就越大,这就是所谓"20%的顾客贡献了80%的销售额"的二八法则。本方案采用统计每个会员在时间窗口内累计购买金额(含券)作为M指标,对换货、退货导致的购买金额为负的统一换成0。

同时,我们还根据数据构建了L指标,C指标,会员入会时间的长短在一定程度上能够影响客户价值,所以在模型中增加会员关系长度L。C指标代表会员在观测窗口期内的平均折扣率,反映会员对折扣和优惠的敏感程度,以此作为区分会员价值的另外两个特征指标。

模型 L R F M C
LRFMC模型 会员入会时间距观测窗口结束的天数 会员最近一次消费时间距观测窗口结束的天数 会员在观测窗口内累计购买的件数 会员在观测窗口内累计购买金额 会员在观测窗口内的平均折扣

通过SQL或编程对销售订单数据进行提取关键L、R、F、M、C指标即可。

异常值和空值处理

对销售金额和销售件数为负数据进行转换,以及生成最近一次购物间隔和入会时长两项新增模型指标。

对数据进行标准化处理

完成五个特征的构建以后,对每个特征数据分布情况进行分析,其数据的取值范围如表所示。

从表中数据可以发现,五个特征的取值范围数据差异较大,为了消除数量级数据带来的影响,需要对数据做标准化处理。

模型构建

聚类算法

K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

最优K值选择(手肘法)

手肘法的评价K值好坏的标准是SSE(sum of the squared errors)

(其中 Ci代表第i个簇,p是簇Ci里的样本点,mi是簇的质心)

手肘法的核心思想是:随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE自然会逐渐变小。并且,当k小于最佳聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达最佳聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的最佳聚类数。这也是该方法被称为手肘法的原因。

我们利用可视化对输出的分数进行做图,可以看出最优K值在5-7之间,我们选取5作为我们分类数目。

数据建模

会员价值分析模型构建主要分为两个部分:

  1. 利用 K-Means 算法对会员进行聚类分析,得到细分的会员群体;
  2. 利用聚类评价指标对聚类效果进行评估和验证。

聚类评价我们采用Calinski-Harabaz(CH)指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度,定义如下:

通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度,CH指标由分离度与紧密度的比值得到。从而,CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果。与轮廓系数指标的对比,CH指标速度更快,相差几百倍。

结果分析

聚类分析

对聚类的会员群体利用Smartbi自助仪表盘进行特征分析,得到会员价值分析模型,对18594位会员贴上群体标签,记为 0、1 、2 、3 、4五类。

根据每种会员类型的特征,对各类会员群进行会员价值排名,其结果如下图所示。

会员分类

我们定义了5个等级的会员类别:重要保持会员、重要发展会员、重要挽留会员、一般会员和低价值会员。

(1) 重要保持会员。是最为理想的客户类型,对企业利润的贡献最大,所占比例却较小。公司应该优先将资源投放到他们身上,对他们进行差异化管理和一对一营销提高这类会员的忠诚度与满意度,尽可能延长这类会员的高水平消费。

(2) 重要发展会员。他们是公司的潜在价值客户。虽然这类会员的当前价值并不是很高,但却有很大的发展潜力,企业要努力促使这类会员增加在本公司各大品牌的消费。通过会员价值的提升,加强这类会员的满意度,提高他们转向竞争对手的转移成本,使他们逐渐成为公司的忠诚会员。

(3) 重要挽留会员。这类会员价值变化的不确定性很高。由于这类会员衰退的原因各不相同,所以掌握会员的最新信息,维持与会员的互动就显得尤为重要。企业应该根据这类会员的最近消费时间、购买件数等的变化情况,推测会员消费的异动状况,并列出会员名单,对其重点联系,采取一定的营销手段,延长会员的生命周期。

(4) 一般会员与低价值会员。他们是企业的一般会员与低价值会员,可能是在品牌打折或者其他促销活动才购买。

在数据与处理时,我们已经将18594位会员与会员群体一一对应,现在每类会员群体也对应了会员价值,至此得到了 18594位会员的价值分类结果,建模完成。

根据最后的输出我们对结果进行聚合,算出每类会员群体最大最小作为簇区间,提供较为简单的聚类效果观察,如下图所示。

对最后的输出分类我们也可以通过降维后的数据进行二维可视化展示,并对分类结果形成直观的评估和验证,如下图所示

本方案对打好标签的数据进行分析和展示,如下图所示,从图表中我们可以看到一般会员和低价值会员退货单比较多,低价值会员偏向于电商渠道购买,重要保持会员作为价值最高而数量最少的会员群体,在各大城市中的购买金额占比和购买件数占比都较高。

模型应用

一般而言,数据挖掘最终的目的是针对分析结果提出并开展一系列的运营营销策略,不类型的会员群提供不同的产品和服务,提升重要发展会员的价值,稳定和延长重要保持会员的高水平消费,防范重要挽留会员的流失并积极进行关系恢复。以期帮助企业发展。在本实例中,运营策略有三个方向:

  1. 提高活跃度: 提高一般会员、低价值会员的活跃度,将其转化为优质会员;
  2. 提高留存率: 与重要挽留会员互动,提高这部分会员的留存率;
  3. 提高付费率: 维系重要保持会员、重要发展会员的忠诚度,保持企业良好收入。

每个方向对应不同的策略,如新品上市、换季清仓等;其次,选择不同营销方式,如微信、电话、邮件、短信等,最后筛选符合商品特性的会员。

总结

本模型采用历史数据进行建模,随着时间的变化,分析数据的观测窗口也在变换。因此,对于新增会员的信息,考虑业务的实际情况,该模型建议每一个月运行一次,对其新增会员信息通过聚类中心进行判断,同时对本次新增会员的特征进行分析。如果增量数据的实际情况与判断结果差异大,需要业务部门重点关注,查看变化大的原因以及确认模型的稳定性。如果模型稳定性变化大,需要重新训练模型进行调整。目前模型进行重新训练的时间没有统一标准,大部分情况都是根据经验来决定的。根据经验建议是每隔半年训练一次模型比较合适。

相关推荐
wxl7812274 小时前
如何使用本地大模型做数据分析
python·数据挖掘·数据分析·代码解释器
老艾的AI世界5 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
DK221515 小时前
机器学习系列----关联分析
人工智能·机器学习
FreedomLeo15 小时前
Python数据分析NumPy和pandas(四十、Python 中的建模库statsmodels 和 scikit-learn)
python·机器学习·数据分析·scikit-learn·statsmodels·numpy和pandas
浊酒南街6 小时前
Statsmodels之OLS回归
人工智能·数据挖掘·回归
风间琉璃""6 小时前
二进制与网络安全的关系
安全·机器学习·网络安全·逆向·二进制
Java Fans7 小时前
梯度提升树(Gradient Boosting Trees)详解
机器学习·集成学习·boosting
谢眠7 小时前
机器学习day6-线性代数2-梯度下降
人工智能·机器学习
sp_fyf_20248 小时前
【大语言模型】ACL2024论文-19 SportsMetrics: 融合文本和数值数据以理解大型语言模型中的信息融合
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理
麦田里的稻草人w9 小时前
【数据分析实战】(一)—— JOJO战力图
数据挖掘·数据分析