Python数据分析基础01:描述性统计分析

下一篇:

Python数据分析基础04:预测性数据分析

Python数据分析基础03:探索性数据分析

python数据分析基础02:数据可视化分析

Python数据分析基础01:描述性统计分析

描述性统计分析是统计学中最基础、应用最广泛的部分。它旨在通过总结、组织和简化 数据,来描述和展示数据集合的主要特征,帮助我们理解数据的"样子",而不涉及对总体进行推断(那是推断统计的任务)。

1.0 核心目的:

  1. 概括数据: 用少数几个关键指标(如平均值、标准差)代表大量数据。

  2. 发现模式: 识别数据的分布形状、集中趋势、离散程度以及变量间可能的关系。

  3. 识别异常: 找出数据中可能存在的异常值。

  4. 数据呈现: 通过图表清晰、直观地展示数据特征。

  5. 为推断统计打基础: 提供对数据的初步理解,指导后续更复杂的分析(如假设检验、回归分析)。

2.0 主要分析内容:

描述性统计分析通常从以下几个关键维度来描述数据:

  1. 集中趋势:

    • 描述数据点围绕哪个中心值聚集。

    • 常用指标:

      • 均值: 所有数值的和除以数值个数。最常用,但受极端值影响大。Mean = Σxᵢ / n

      • 中位数: 将数据按大小排序后,位于中间位置的值。不受极端值影响,更能反映数据的"典型"中心。奇数个数据取中间值,偶数个取中间两个的平均值。

      • 众数: 数据集中出现频率最高的值。一个数据集可以有多个众数(多峰分布)或没有众数。适用于分类数据和数值数据。

  2. 离散程度:

    • 描述数据点偏离中心值的程度有多大,数据是紧密聚集还是分散开。

    • 常用指标:

      • 极差: 最大值与最小值之差。计算简单,但只利用了数据两端的信息,对异常值敏感。

      • 方差: 各数据点与均值之差的平方的平均值。衡量数据偏离均值的平均程度。Variance (s²) = Σ(xᵢ - Mean)² / (n - 1) (样本方差公式)。

      • 标准差: 方差的平方根。单位与原数据一致,是最常用的离散程度度量。Standard Deviation (s) = √Variance。标准差小,数据围绕均值紧密聚集;标准差大,数据分散。

      • 四分位距: 第三四分位数(Q3, 75%位置)与第一四分位数(Q1, 25%位置)之差。IQR = Q3 - Q1。衡量中间50%数据的离散程度,不受极端值影响,是识别异常值的基础(常用 Q1 - 1.5*IQRQ3 + 1.5*IQR 作为异常值边界)。

      • 平均绝对偏差: 各数据点与均值(或中位数)之差的绝对值的平均值。概念直观,但数学性质不如方差/标准差好。

  3. 分布形态:

    • 描述数据分布的对称性、偏斜程度和尖峰程度。

    • 常用指标和图:

      • 偏度: 衡量分布不对称性的方向和程度。

        • 偏度 ≈ 0: 分布大致对称(如正态分布)。

        • 偏度 > 0: 正偏态/右偏态。数据向右(较大值方向)拖尾。均值 > 中位数 > 众数

        • 偏度 < 0: 负偏态/左偏态。数据向左(较小值方向)拖尾。均值 < 中位数 < 众数

      • 峰度: 衡量分布曲线顶峰的尖锐程度(与正态分布相比)。

        • 峰度 ≈ 0: 峰度与正态分布相当(常峰态)。

        • 峰度 > 0: 尖峰态。数据分布比正态分布更集中在均值附近,尾部更厚。

        • 峰度 < 0: 低峰态/平顶峰。数据分布比正态分布更分散,尾部更薄。

      • 直方图: 最直观展示分布形状的图表。

      • 箱线图: 能同时展示中位数、四分位数、极差、异常值,对分布形状有粗略展示(特别是偏斜和异常值)。

      • Q-Q图 / P-P图: 用于更精确地检验数据是否服从特定分布(如正态分布)。

  4. 变量间关系:

    • 当数据集包含多个变量时,描述性统计也用于探索变量之间的关联。

    • 常用方法:

      • 散点图: 两个连续变量之间关系的直观展示(正相关、负相关、非线性相关、无相关)。

      • 协方差: 衡量两个变量协同变化 的方向。正值表示同向变化,负值表示反向变化。Cov(X,Y) = Σ[(xᵢ - Meanₓ)(yᵢ - Meanᵧ)] / (n - 1)。但其数值大小受变量自身量纲影响,不便于直接比较相关性强弱。

      • 相关系数:

        • 皮尔逊相关系数: 衡量两个连续 变量之间线性 关系的强度和方向。r = Cov(X,Y) / (sₓ * sᵧ)。取值范围 [-1, 1]。

          • |r| ≈ 1: 强线性相关。

          • |r| ≈ 0: 弱线性相关或无线性相关(可能存在非线性关系)。

          • r > 0: 正相关。

          • r < 0: 负相关。

        • 斯皮尔曼等级相关系数: 衡量两个变量之间的单调关系(不一定是线性)的强度和方向。基于数据的排名计算。

        • 卡方检验 / 列联表: 用于分析两个分类变量之间是否存在关联。

      • 交叉表: 展示两个或多个分类变量联合分布的频数或比例。

常用工具与方法:

  • 统计量计算: 直接计算上述各种指标(均值、标准差、方差、中位数、四分位数、极差、IQR、偏度、峰度、相关系数等)。

  • 数据可视化:

    • 单变量: 直方图、箱线图、茎叶图、饼图(分类数据)、条形图(分类数据)。

    • 双变量: 散点图、分组条形图、堆叠条形图、热力图。

    • 多变量: 散点图矩阵、平行坐标图(较少用)。

  • 频数分布表: 展示数据在不同类别或区间内出现的次数或比例。

描述性统计 vs. 推断性统计:

这是初学者容易混淆的关键点:

特征 描述性统计 推断性统计
目的 描述样本数据的特征 利用样本数据推断总体特征或检验假设
对象 样本数据本身 样本数据代表的未知总体
方法 计算统计量、绘制图表 参数估计(置信区间)、假设检验、回归分析等
结论 报告样本的实际情况(如样本均值=5.2) 对总体做出概率性陈述(如总体均值可能在4.8-5.6之间,置信度95%)
不确定性 不涉及抽样误差 核心是量化和管理抽样误差带来的不确定性

重要性与应用:

描述性统计是任何数据分析项目的第一步和基础。它在几乎所有涉及数据的领域都有广泛应用:

  • 商业智能: 报告销售总额、平均订单额、客户地域分布、产品销量排名等。

  • 市场研究: 描述消费者人口统计特征(年龄、性别分布)、满意度评分均值、品牌认知度比例等。

  • 金融: 计算股票收益率均值、波动率(标准差)、风险价值。

  • 社会科学: 描述调查问卷结果(各选项比例、平均态度得分)、人口普查数据(平均收入、教育水平分布)。

  • 自然科学与工程: 报告实验数据的平均值、误差范围(标准差)、测量结果的分布。

  • 质量控制: 监控生产过程的均值、标准差、合格率。

  • 日常报告: 任何需要总结和展示数据的场合。

总结:

描述性统计分析是打开数据宝库的第一把钥匙。它通过计算关键统计量(集中趋势、离散程度、分布形态)和绘制直观图表(直方图、箱线图、散点图等),有效地总结、简化和呈现数据的主要特征和模式,帮助我们快速理解"数据讲了什么故事"。它为后续更复杂的推断性统计分析、建模和决策提供了不可或缺的基础和洞察。不做好描述性统计就急于进行高级分析,就像不看地图就一头扎进未知森林一样危险。