数据分析常用方法:上

文章目录


前言

  • 熟悉描述统计当中的基本统计项(基本概念、计算方式、应用场景)
  • 熟悉不同场景下对应的数据分析方法,包括应用场景和执行步骤等

一、基础统计概念

1.1频数和频率

  • 频数指某个值或区间出现的次数,频率是频数与总样本量的比值。
  • 例如,某部门薪资为5000的员工个数(频数)为50,员工数100,占比为50%(频率)。

1.2正态分布

  • 曲线关于μ对称,均值、中位数、众数相等;
  • 当μ=0,σ=1时,称为标准正态分布,记作Z∼ N(0,1)

二、描述统计

  • 描述统计(descriptive statistics)又称为叙述统计,是统计学中用于描述和总结所观察到对象的基本统计信息的一门学科。描述统计的结果是对当前已知的数据进行更精确的描述和刻画,分析已知数据的集中性和离散性。
  • 查看数据现状

2.1描述统计在数据分析当中的意义

  • 1.可以更好的了解数据现状,对现有数据有更清晰、全面的认识;
  • 2.如果大家在之后的学习和工作中使用统计学或者机器学习等专业性很强的分析方式,描述统计就是必须掌握的基础。

2.2单变量描述统计------一组数据的情况

  • 通过统计学视角查看数据现状,每个统计项往往不单独解释意义,但参与分析计算。

2.3集中趋势

  • 集中趋势(central tendency)在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值。
  • 如何能反应某一群人的基本薪资情况?

2.4平均数

  • 平均数统计学术语,是表示一组数据集中趋势的量数。
  • 算术平均数:是指在一组数据中所有数据之和再除以这组数据的个数
  • Excel函数写法:AVERAGE(数据范围)

  • 几何平均数: n个观察值连乘积的n次方根(用于求平均发展速度,平均增长率等)

2.5平均数的应用场景

  • 衡量一群人的基本薪资情况使用平均数是否合适?
  • 如果一部电梯里的人数是10,大家的身份都是上班族,那平均薪资范围比较好估计,假如这时候马云进来了呢?
  • 平均数适用情况:
  • 1.数据分布均匀且无极端值时;
  • 2.需参与后续计算时。

2.6众数

  • 众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。 也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个,也可能没有众数。
  • Excel函数写法:MODE(数据范围)

2.7众数的应用场景

  • 若某薪资值出现频率最高,如多数员工薪资集中在某一档,众数可反映最常见的薪资水平。例如,某企业大部分员工薪资为某一固定金额,众数能体现这一普遍情况。
  • 若薪资数据按类别统计(如不同岗位、部门的薪资),众数可帮助识别最受欢迎或最常见的薪资类别。例如,统计不同岗位的薪资众数,可了解各岗位的典型薪资水平。
  • 众数的适用场景:
  • 1.数据有明显集中趋势时;
  • 2.有分类数据时

2.8中位数

  • 中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,其可将数值集合划分为相等的上下两部分。
  • 中位数的优点:不受少数几个极端值的影响,用它代表全体数据的一般水平更合适。
  • excel表格的函数表达:MEDIAN(数据范围)

2.9中位数的应用场景

  • 薪资数据中存在少数高收入或低收入极端值时,中位数更能反映普通员工的薪资水平。
  • 中位数代表了薪资排序中的中间值,有一半员工薪资高于它,一半低于它,能直观反映普通员工的薪资状况,适用于描述大多数人的薪资情况。
  • 中位数的适用场景:
    1.存在极端值或偏态分布时;
    2.关注"典型"数据水平时

2.10数据分布形态

  • 偏度衡量数据分布的对称性,反映数据分布的偏斜程度
  • 左偏分布的峰值靠右,左边拉长尾,说明取值较大的数据发生的概率大

2.11峰度

  • 峰度用于衡量数据分布的陡峭程度和尾部厚度,与正态分布对比,反映数据集中在均值附近还是分散在尾部
  • 峰度>0(高峰态):分布峰值高且尖锐,尾部较重,极端值较多。
  • 峰度<0(低峰态):分布峰值低且平缓,尾部较轻,极端值较少

2.12数据分布形态的应用场景

  • 假设某地区统计居民薪资数据,发现偏度为0.8(右偏),峰度为2.5(高峰态)。这表明该地区薪资分布右偏,多数人薪资低于均值,且存在少数高收入者拉高均值,同时薪资集中在均值附近,极端值相对较多。这种分布可能反映地区经济发展不均衡,高收入群体对整体薪资水平影响较大,且薪资差距较大。通过偏度和峰度分析,可为政策制定者提供数据支持,如制定针对性的收入调节政策或关注低收入群体的生活保障
  • 数据分布形态与集中趋势指标相互补充,帮助更全面地理解数据分布特征。偏度揭示数据的偏斜方向和程度,影响集中趋势指标的选择;峰度反映数据的集中程度和极端值风险,辅助评估集中趋势的稳定性。两者结合,能为数据分析、决策提供更丰富的信息。
  • 一家一线互联网公司里所有员工的薪资是什么分布?

2.13集中趋势练习

  1. 计算捐款金额的众数

  2. 计算捐款金额的中位数

  3. 计算捐款金额的平均数

2.14离散程度

  • 离散程度是指同类指标分布相对于某一中心
    指标分布的偏离程度。分散程度反映了一组
    数据远离其中心值的程度,因此也称为离中趋
    势。
  • 在统计分析中,离散程度指标可以说明集中
    趋势指标的代表性如何,还可在统计推断时
    用来计算误差的大小。
  • 离散程度指标还被用来说明事物在发展变化
    过程中的均衡性、节奏性和稳定性等问题。

2.15离散程度的应用场景

仍然以一群人基本薪资情况为例:

薪酬体系设计与调整;

绩效评估与奖励机制;

人才保留与流失分析;

市场竞争力分析;

薪酬公平性评估......

2.16异众比率

  • 异众比率(variation ratio)是统计学名词,是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。

2.17异众比率的应用场景

  • 衡量薪资结构的集中程度:异众比率高代表整体薪资水平代表性较弱,反之薪资结构相对集中;
  • 辅助决策与管理:若公司计划调整薪资政策,异众比率可帮助判断调整范围。高异众比率需要考虑不同薪资群体的需求,避免仅针对高收入或低收入群体进行调整;也可结合异众比率分析薪资公平性,异众比率低可能存在岗位价
    值评估偏差或者薪酬体系不合理问题;
  • 对比不同部门或岗位:技术部门异众比率低,销售部门异众比率高。

2.18极差

  • 极差又称范围误差或全距(Range),以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据。
  • 它是标志值变动的最大范围,它是测定标志变动的最简单的指标。

2.19极差的应用场景

  • 快速了解薪资范围:初步评估薪资差异程度;
  • 检测异常值:薪资是否录入错误或者有特殊薪酬情况;
  • 比较不同团队的薪资差异:了解各团队薪资均衡性;
  • 辅助制定薪酬政策:极差过大可能需要调整薪资结构,极差过小可能增加薪资层次激励员工。
  • 实际分析中需要结合平均值、中位数等指标综合判断。

2.20四分位差------一半的数集中在哪

  • 四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差称为四分位差(IQR)。

  • QUARTILE.EXC(数据范围,第一个分位点)

2.21四分位差的表现形式

  • 为什么上下两横线要定1.5IQR:
  • 以此作为边界可以覆盖大部分正常数据,又能识别距离较远的异常值,避免边界过宽或过窄造成误判

2.23四分位差的应用场景

  • 衡量薪资分布的离散程度:IQR越大,薪资分布越分散,反之越集中;
  • 识别异常值:若某员工薪资低于Q1-1.5×IQR或高于Q3+1.5×IQR,可能为异常值,需进一步核实是否为数据错误或特殊岗位;
  • 比较不同群体的薪资差异:研发部门IQR大于后勤部门,说明薪资波动更大,可能与绩效、经验等因素相关;
  • 制定薪酬策略:IQR过小可能薪资缺乏竞争力,IQR过大可能内部公平性不足;
  • 绘制箱线图直观展示:快速了解薪资分布的整体情况,便于管理层决策。

2.24离散程度练习

  1. 计算捐款金额的异众比

  2. 计算金额的极差

  3. 计算捐款金额的四分位数及四分位差


2.25方差

  • 方差用来计算每一个变量(观察值)与总体均值之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。


  • 函数:var.p(数据范围)
  • 实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式

  • 函数:var.s(数据范围)

2.26标准差

  • 标准差(standard deviation)是方差(variance)的平方根,用符号σ表示。 标准差表示一组数值的离散程度,标准差越大,表示该组数值与均值的偏差越大。
  • 函数:stdev.p(数据范围)
  • 函数:stdev.s(数据范围)
  • 开方函数:SQRT(方差值)
  • 方差值^(1/2)

2.27方差标准差的应用场景

  • 衡量薪资差异程度:方差或标准差大说明可能存在高收入或低收入群体,反之员工收入较为平衡;
  • 评估薪资稳定性:标准差能直观反应薪资波动范围;
  • 比较不同群体薪资差异;
  • 辅助薪酬政策制定:方差过大可能需要调整薪资结构缩小差距,反之可能需要拉开差距激励员工;
  • 识别异常薪资情况:与平均薪资超过一定标准差倍数,需要进一步核实是否存在薪酬错误或者特殊岗位情况。

2.28练习

  1. 计算捐款金额的总体方差(利用公式计算并用函数验证)
  1. 计算金额的总体标准差(利用公式计算并用函数验证)

2.29离散系数

  • 离散系数又称变异系数,是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

2.30离散系数的应用场景

  • 评估薪资结构稳定性:离散系数大表明薪资差异大,不稳定;
  • 比较不同群体薪资差异:离散系数可以消除水平影响差异,比较不同地区薪资离散程度;
  • 分析薪资政策合理性:某岗位薪资在实施时存在偏差或岗位价值评估不够准确,反之薪资缺乏激励作用;
  • 预测薪资变动风险:离散系数大,薪资变动可能受到市场供需、行业竞争等因素的影响更大,经济不景气的时候调整压力大,经济繁荣的时候更容易获薪资增长机会;
  • 支持人力资源决策:调薪等场景下确保薪资政策公平性和合理性

2.31分析工具库------描述统计汇总工具

  • 文件-选项-excel加载项-转到-勾选"分析工具库"
  • 数据-分析-数据分析-描述统计-输入区域(数值区域),如果标题在数值区域,勾选标志位于第一行,指定输出区域,勾选汇总,点击确定

2.32练习

  1. 使用分析工具库列出家庭年收入的描述统计项

2.33小结

  • 本章节学习了描述统计,用于刻画数据基本情况

三、分组分析

  • 分组分析法是一种重要的数据分析方法,这种方法是根据数据分析对象的特征,
    按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研
    究,以揭示其内在的联系和规律性。 ( 分组的目的就是为了便于对比 )

3.1分组分析案例

分组对象:消费者、产品用户、付费客户、患者、销售业绩......

分组分析场景:

市场细分与精准营销、用户行为分析、销售业绩分析、金融风险评

估、医疗健康研究......

3.2练习

销售人员分组

• 背景销售总监获得2W个线索(点击广告的目标人群中留下联系方式的人),

现在想尽快消耗掉这2W线索,找到作为数据分析师的你,希望你给出相应的

意见。

• 根据业务特性把销售人员分为三组 工具机器人(扫量), 一般销售(联系意向量

并推销), 销冠(攻单)

• 没有规则,自己找规则划分

3.3分组分析的特点

  • 优点:
  1. 简化数据:将复杂数据转化为更易理解的汇总数据,降低分析难度。
  2. 揭示模式:有助于发现数据中的趋势和规律,尤其在类别数据和时间序列分析中效果显著。
  3. 便于比较:不同组间的特征对比更直观,能快速发现差异和相似性。
  4. 处理异质性:通过分组可有效应对数据中的异质性,提高分析结果的可靠性。
  • 缺点:
  1. 信息丢失:个体数据汇总为组数据时,可能丢失部分细节信息。
  2. 分组主观性:分组标准可能存在主观性,不同分组方式可能影响结果。
  3. 组内异质性:若组内个体差异较大,分组结果可能无法准确反映组内特征。
  4. 分组数量难题:确定分组数量和区间需平衡组数过多或过少的问题。
  • 注意事项:
  1. 遵循原则:分组时需满足穷尽原则(总体单位均有归属)和互斥原则(单位只能属于一组)。
  2. 合理选择分组标志:根据分析目的和数据特点,选择能有效区分组间差异的标志。
  3. 控制组内异质性:尽量使组内个体特征相似,减少组内差异对分析结果的影响。
  4. 验证分组合理性:可通过交叉验证、敏感性分析等方法,检验分组方式对结果的影响。
  5. 结合其他方法:分组分析常与对比分析、相关分析等结合使用,以更全面地揭示数据关系。

四、象限分析

  • 象限分析法又叫策略分析模型,又称波士顿矩阵法,通俗点来说就是把数据放
    到四个象限里面进行分析,这种数据分析方法在企业经营分析、市场策略、运
    营策略等领域得到广泛的应用,它可以从更直观的角度,帮助决策者站在更高
    的视角,俯瞰整体情况,了解整个局势分布,找到不同项目的改进策略。

4.1象限分析案例

4.2象限分析应用场景

  • 时间管理:重要程度和紧急程度;
  • 广告投放效果评估:点击率和转化率;
  • 产品分析:市场占有率和销售增长率;
  • 用户分层管理:重点/一般客户,发展/保持客户;
  • 功能规划与资源分配:投入成本和产出价值;

4.3象限分析步骤

1.确定两个指标(指标间相关性不要太高)

2.对各指标进行二分类(分类阈值为均值或中位数)

3.对指标分类结果合并作为分类结果

4.对分类进行统计

5.可视化(对比主体不能太多)

4.4练习

• 对8个事件通过重要程度和紧急程度进行象限分析(散点图)

  1. 确定两个指标(指标间相关性不要太高)

  2. 对各指标进行二分类(分类阈值为均值或中位数)

  3. 对指标分类结果合并作为分类结果

  4. 对分类进行统计

  1. 可视化(对比主体不能太多)

4.5象限分析的特点

  • 优点:
  1. 直观清晰:通过图形化的方式展示数据,使复杂的分析结果一目了然,便于决策者快速理解数据背后的含义。
  2. 突出重点:能够明确区分不同象限的数据特征,帮助分析者快速定位关键问题或机会区域,例如重点关注高价值、高潜力的象限。
  3. 策略导向:每个象限对应不同的数据特征,可直接为制定针对性策略提供依据,例如针对不同象限的客户群体采取差异化的营销策略。
  4. 简化复杂性:将多维度数据整合到一个框架中,减少信息过载,使分析过程更加简洁高效。
  5. 广泛应用:适用于多种场景,如市场分析、客户管理、产品评估、时间管理等,具有较强的通用性。
  • 缺点:
  1. 维度限制:常规象限分析通常仅能处理两个维度的数据,对于复杂问题可能无法全面反映实际情况。若需分析更多维度,可能需要结合其他方法或进行数据简化。
  2. 主观性较强:象限的划分标准(如阈值、分类依据)往往依赖于分析者的主观判断,不同的人可能得出
    不同的结论,影响分析的客观性和一致性。
  3. 忽略个体差异:将数据归为不同象限时,可能会掩盖个体数据的细微差异,导致对某些特殊情况的忽视。
  4. 动态变化适应性弱:对于数据随时间或环境变化的情况,象限分析可能无法及时调整,需要定期重新评估和更新分析结果。
  • 注意事项:
  1. 选择合适的维度:确保所选维度与分析目标紧密相关,且具有明确的业务意义,避免因维度
    选择不当导致分析结果偏离实际需求。
  2. 明确划分标准:尽量采用客观、可量化的指标作为象限划分的依据,减少主观因素的影响。
    若需使用经验或主观判断,应充分说明理由并保持一致性。
  3. 结合其他方法:象限分析可与其他数据分析方法(如对比分析、趋势分析、聚类分析等)结
    合使用,以获取更全面的洞察。
  4. 动态调整:根据业务变化和数据更新,定期重新审视象限分析的结果,及时调整策略和决策。
  5. 解释与沟通:在向他人展示分析结果时,需清晰解释象限的含义、划分标准及策略建议,确保受众能够正确理解并应用分析结论。

五、RFM分析

5.1什么是RFM

  • RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过一个客户的近期购买行为(最近一次的购物日期)、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况,从而对客户进行分类,应用不同的营销策略。

R、F、M指标的代表意义:

  • Recency:用户最近一次消费距离现在(取数日期)的时间,上一次消费离得
    越近,Recency越小,用户价值越高;
  • Frequency:用户在一段时间内消费的次数,Frequency越大,用户价值越高;
  • Monetary:用户在一段时间内的消费金额,Monetary越大,用户价值越高。

5.2RFM模型

5.3RFM的应用场景

价值:针对不同层级的用户做不同的营销策略

精准客户分层

预测客户行为

优化营销策略

评估营销效果

动态监控客户价值

应用领域:

零售与电商

金融与电信

内容与社交平台

会员与订阅服务

......

5.4RFM分析步骤

1.确定数据窗口期(3个平均购物周期,包含70%左右用户的数据)

2.提取窗口期内的所有用户

3.计算每个用户的R,F,M指标

4.对R F M各指标进行二分类

5.对二分类后的指标进行组合划分用户类型

6.分析结论,推动业务部门对不同类型的用户进行对应的营销策略

5.5RFM用户营销策略

重要价值:消费时间近,消费次数高,金额高,属于VIP客户,必须重点关注,

跟踪他们的消费行为,及时提供高质量服务

重要保持:消费时间远,消费次数高,金额高,可能是一段时间没来的忠诚客户,

可以主动保持联系

重要发展:消费时间近,消费次数不高,金额高,可能是一些新客户或潜力客户,

必须重点发展

重要挽留:消费时间远,消费次数不高,金额高,可能是快要流失或已经流失的

客户,必须采取挽留措施

5.6练习

• 利用对窗口期为2个月的2万多条数据进行RFM分析

  • 提取窗口期

  • 提取窗口期用户 * 计算每个用户的R,F,M指标

  • 对R F M各指标进行二分类

  • 对二分类后的指标进行组合划分用户类型

  • 分析结论,推动业务部门对不同类型的用户进行对应的营销策略

5.7RFM用户营销策略------扩展参考

  • 优点
  1. 仅依赖 "最近消费、消费频率、消费金额" 三个核心交易指标,数据易获取、计算逻辑简单。
  2. 能快速划分用户层级(如高价值、忠诚、潜力、流失用户),落地性强。
  3. 聚焦用户实际行为,比单纯的人口统计标签更能反映用户价值和活跃度。
  • 缺点
  1. 不适用于低频高客单价行业(如房产、汽车),频率指标缺乏区分度。
  2. 未考虑用户画像、行为偏好等非交易因素,分层维度相对单一。
  3. 对数据质量要求高,缺失交易记录或异常值会影响分析结果。
  • 注意事项
  1. 明确指标定义:根据行业特性调整指标口径,比如 "最近消费(R)" 可按 7 天 / 30 天 / 90 天划分,"消费金额(M)" 需剔除退款、优惠金额。
  2. 合理设置阈值:通过分位数(如 25%、50%、75%)或业务经验校准阈值,避免一刀切,比如高客单价行业可提高 M 的阈值标准。
  3. 结合业务补充维度:对分层结果叠加用户偏好、生命周期阶段等标签,让运营动作更精准。
  4. 定期迭代优化:根据业务变化(如促销活动、行业淡旺季)更新 RFM 阈值和分层规则,保证时效性。

六、总结

  • 通过描述统计刻画一组数据。
  • 刻画方向是集中趋势和离散程度。
  • 集中趋势指标有众数,中位数,均值。
  • 离散程度指标有异众比,极差,方差,标准差,四分位差,离散系数。
  • 分组分析及象限分析对一个指标,两个指标的不同主体进行分组找其组内
    共性及组间差异进行对比。
  • RFM分析对三个指标的不同主体进行分组找其组内共性及组间差异进行对
    比。
相关推荐
佛祖让我来巡山4 小时前
Numpy
机器学习·数据分析·numpy·矢量运算
CS创新实验室6 小时前
正态分布的深入学习:从数学发现到自然法则的演变
学习·数据挖掘·数据分析·统计学·正态分布
duyinbi75177 小时前
YOLO11-MAN:多品种植物叶片智能识别与分类详解
人工智能·分类·数据挖掘
dear_bi_MyOnly7 小时前
数据分析常用操作汇总
大数据·python·数据挖掘·数据分析·学习方法
YangYang9YangYan7 小时前
2026高职大数据专业:数据分析学习的价值与前景
大数据·学习·数据分析
csdn_aspnet7 小时前
MATLAB 高效算法实战:数据分析与算法优化的效率秘诀
算法·matlab·数据分析
龙腾AI白云7 小时前
10分钟了解向量数据库(4)
人工智能·数据挖掘
lechcat7 小时前
多角色协同巡检流程设计技术教程
大数据·数据库·数据挖掘
jiaozi_zzq8 小时前
2026高职大数据与会计专业就业方向与能力发展指南
大数据·职场和发展·数据分析·证书
FL16238631298 小时前
七十四种不同鸟类图像分类数据集3995张74类别已划分好训练验证测试集
人工智能·分类·数据挖掘