数据分析笔记01:数据分析概述

数据分析笔记01:数据分析概述

数据分析的定义

数据分析是指使用适当的统计分析方法,对收集的大量数据进行分析、汇总和理解,以最大化数据中的价值和功能。

核心理解

  • 数据分析本质上是研究过程,从数据中提取有用信息并形成结论。
  • 统计学是数据分析的基石,数据分析依赖统计学方法实现。
  • 在信息时代,个体行为均会产生数据。

数据无处不在的时代

手机数据收集

根据2025年最新研究:

  • Android手机:在不使用任何软件的情况下,每12小时在后台发送约1.5MB数据给Google。
  • iOS手机:在相同条件下,每12小时收集约100KB数据。

数据应用实例

  • 抖音推荐算法:基于用户观看行为推荐相关内容。
  • 用户画像构建:通过行为数据为用户添加标签。
  • 精准营销:根据用户特征推送个性化商品。

统计学在各领域的应用

1. 会计领域

统计抽样在审计中的应用

  • 问题:会计师事务所需审计大量应收账款,逐一核查耗时费力。
  • 解决方案:采用统计抽样方法,从大量应收账款中抽取样本;若样本无问题,则推断整体账款合理性。
  • 优势:显著节省时间和人力成本。

2. 投资领域

股票投资分析

  • 投资顾问综合分析市盈率、股息率等财务数据。
  • 比较单只股票与市场指标(如沪深300)。
  • 实例:根据2025年数据,京东方股息收益率1.26%,而市场平均2.7%。
  • 结合基本面信息,做出持有、卖出或观望的投资建议。

3. 市场营销领域

零售业数据分析

  • 通过条形码扫描收集商品销售数据。
  • 分析商品陈列方式对销售的影响。
  • 研究促销活动的效果。

经典案例 - 啤酒与尿布

  • 发现:父亲购买尿布时常顺便购买啤酒。
  • 分析:将两种商品摆放在一起。
  • 结果:两种商品销量大幅增长。
  • 原理:关联规则分析的典型应用。

4. 运营领域

A/B测试

  • 目的:比较两种产品方案的优劣。
  • 方法:基于统计学的实验设计。
  • 应用:互联网产品功能迭代、用户体验优化。
  • 实例:评估微信新功能是否提升用户活跃度。

数据分析的三大方向

1. 描述性分析

  • 定义:描述过去发生的事件。
  • 包含技术:数据查询报告、描述统计、数据可视化、仪表板。
  • 常用方法:对比分析、交叉分析、平均分析。

2. 验证性分析

  • 定义:验证已有假设的真伪。
  • 应用场景:检验产品质量是否达到标准,使用假设检验等统计方法验证理论或假设。

3. 预测性分析

  • 定义:利用历史数据预测未来。
  • 应用场景:预测产品使用寿命、销售额变化,评估变量间影响关系。
  • 常用方法:线形回归(一元/多元)、时间序列分析、机器学习模型。

企业中的数据分析三大方向

1. 现状分析

  • 目的:描述过去发生的事件。
  • 具体应用:了解企业整体运营情况、经营指标完成情况、各业务构成、企业发展变动。
  • 常见形式:日报、周报、月报、年报。

2. 原因分析

  • 目的:分析某种状况发生的原因。
  • 分析维度:产品维度(哪些产品表现好/差)、地区维度(哪些地区表现好/差)、时间维度(哪段时间表现好/差)、突发事件(是否有特殊情况影响)。
  • 实例:2024年10月营收同比下降5%的原因分析,通过多维度拆解找出根本原因。
  • 形式:专题分析。

3. 预测性分析

  • 目的:预测将来可能发生的事件。
  • 应用场景:制定营运目标、销售目标、各种经营策略。
  • 形式:专题分析(频率相对较低)。

统计学基本概念

总体、样本、个体

  • 总体(Population):特定研究中所有感兴趣个体的集合,例如全国人口普查中的所有人。
  • 样本(Sample):总体的子集,来源于总体,例如从全国人口中抽取的代表性群体。
  • 个体(Individual):区分每个个体的基本单位,收集数据的最基本单位,例如每一个具体的人。

描述统计 vs 统计推断

  • 描述统计:以表格或图形式汇总数据的统计方法,例如疫情统计数据表格、各种统计图表,便于快速理解数据基本状况。
  • 统计推断:利用样本数据对总体特征进行估计,进行假设检验;优势:节省时间和费用,适用于大规模数据。

描述统计学:表格法与图形法

数据类型分类

分类型数据(Categorical Data)

  • 定义:可按类别划分的数据。
  • 特征:用标签或名称标识,每个数据仅归属一个类别。
  • 例子:性别(男、女);产品等级(优、良、达标、不达标)。

数量型数据(Quantitative Data)

  • 定义:可用数值表示大小多少的数据。
  • 特征:可进行数学运算,有具体数值和单位。
  • 例子:年龄(30岁、28岁);身高(1.8米);用电量(30千瓦时)。

分类型数据的处理方法

1. 频数分布(Frequency Distribution)

  • 定义:将数据汇总到互相不重叠的组中。
  • 频数:每组中项目的个数。
  • 实例:购买碳酸饮料数据
饮料类型 频数
可口可乐 19
百事可乐 8
雪碧 5
其他 18
总计 50
  • 价值:清楚显示各种饮料的受欢迎程度。

2. 相对频数和百分数频数分布

  • 相对频数:组频数 ÷ 样本总量,例如可口可乐:19 ÷ 50 = 0.38。
  • 百分数频数:相对频数 × 100%,例如可口可乐:38%。

3. 图形表示方法

饼图(Pie Chart)

  • 显示各组别占总体的比例。
  • 扇形角度 = 百分数频数 × 360°,例如可口可乐:38% × 360° = 136.8°。

条形图(Bar Chart)

  • X轴:类别;Y轴:频数。
  • 每个条形间有空隙。

数量型数据的处理方法

1. 频数分布的建立步骤

步骤一:确定组数

  • 建议:5-20个组,根据数据量确定,例如20个数据建议分成5组。

步骤二:确定组距(组宽)

  • 公式:组距 ≈ (最大值 - 最小值) ÷ 组数。
  • 注意:每个组的组距相同。
  • 实例:(33 - 12) ÷ 5 = 4.2,取整为5。

步骤三:确定组界

  • 上组界:组的最大值;下组界:组的最小值。
  • 目的:确保每个数据只属一个组。
  • 实例:审计时间数据分組
组别 频数 相对频数 百分数频数
10-14天 4 0.20 20%
15-19天 8 0.40 40%
20-24天 5 0.25 25%
25-29天 2 0.10 10%
30-34天 1 0.05 5%
  • 分析结果:40%的客户审计时间为15-19天;只有5%的客户需要30天或更多时间。

2. 直方图(Histogram)

  • 特征:条形之间无空隙(不同于条形图);底宽 = 组距;高度 = 频数/相对频数/百分数频数。
  • 应用:显示数据分布形态。

四种常见分布形态

  1. 左偏分布:尾巴向左延伸。
  2. 右偏分布:尾巴向右延伸,例如房价、工资数据。
  3. 对称分布:左右大致对称,例如身高、考试成绩。
  4. 严重右偏:右侧尾巴极长。

3. 累积频数分布

  • 定义:表示小于或等于某个组上限的所有数据个数。
  • 例子:小于等于24天的累积频数 = 第一组(4) + 第二组(8) + 第三组(5) = 17。
  • 应用:快速了解数据累积情况。

两个变量数据的图形描述

图形方法的优势

对于两个变量数据的模式和趋势识别,图形方法更有效。

1. 散点图和趋势线

  • 散点图:显示两个变量关系的图形。
  • 趋势线:显示相关性近似程度的直线。
  • 实例:广告次数与销售额关系。
  • 分析结果:随着广告次数增加,销售额呈上升趋势;存在正相关关系;由于点不完全在一条直线上,属不完全相关。

三种相关关系类型

  1. 正相关:X增加,Y增加。
  2. 负相关:X增加,Y减少。
  3. 无明显相关:无明显趋势。

2. 复合条形图和结构条形图

复合条形图

  • 每个类别不同子类的条形连在一起。
  • 便于比较同一类别下的不同子类。

结构条形图(堆积柱形图)

  • 长度分解成不同颜色的段。
  • 显示各子类在总体中的比例关系。
  • 实例:餐厅价格与评价关系。
  • 发现:随着餐价增加,评价逐漸提升;低价位大部分评价为"好";高价位大部分评价为"优秀"。
相关推荐
合作小小程序员小小店2 小时前
桌面开发,在线%考试管理%系统,基于eclipse,java,swing,mysql数据库。
java·数据库·mysql·eclipse·jdk
凯子坚持 c2 小时前
从 API 到应用:用 Rust 和 SQLx 为 Axum 服务添加持久化数据库
数据库·oracle·rust
傻啦嘿哟2 小时前
爬取数据存入SQLite:轻量级数据库实战指南
数据库·sqlite
一瓢一瓢的饮 alanchan2 小时前
Flink原理与实战(java版)#第2章 Flink的入门(第二节Flink简介)
java·大数据·flink·kafka·实时计算·离线计算·流批一体化计算
尘世壹俗人2 小时前
分离Hadoop客户端单独使用
大数据·hadoop·分布式
厨 神3 小时前
11月10日ES本机
大数据·elasticsearch·搜索引擎
小红的布丁3 小时前
Redis存储引擎剖析:从哈希表到智能数据结构
数据库·redis
微盛企微增长小知识3 小时前
企业微信AI怎么用?从智能表格落地看如何提升运营效率
大数据·人工智能·企业微信
私域实战笔记3 小时前
如何选择企业微信SCRM?2025年3个选型参考维度
大数据·人工智能·企业微信·scrm·企业微信scrm