数据分析------统计学知识点(二)

一、数据分布是什么?

1.指数分布

描述了事件发生的时间间隔的概率分布。当一个事件发生的概率与时间无关,且事件之间相互独立时,事件的发生服从指数分布。

(2)指数分布典型案例

呼叫中心的来电间隔时间,设备的无故障工作时间,放射性元素的衰变时间

与指数分布相关的著名的二八法则/帕累托法则,它描述了一种关键少数和无关多数的现象。

例如:一个企业80%的利润可能来自于20%的顾客,80%的财富被20%的人口所拥有,20%的员工可能完成80%的工作。

在市场营销、质量管理、人力资源管理多用二八法则。

2.正态分布/高斯分布

特点:其概率密度函数呈现钟形曲线/高斯曲线,关于均值对称,曲线下总面积为1,曲线形状由均值μ和标准差σ决定。均值决定了曲线位置,标准差决定了曲线形状。σ越大,曲线越矮胖;越小曲线越高瘦。

集中趋势:正态分布中,数据集中分布在均值附近。距离均值越远,数据出现的概率越小。

经验法则:约68%的数据包含于区间(μ-σ,μ+σ)

约95%的数据包含于区间(μ-2σ,μ+2σ)

约99.7%的数据包含于区间(μ-3σ,μ+3σ)

独立性和可加性:多个相互独立的正态分布变量之和仍然服从正态分布,且新的均值和方差分别是原均值之和、原方差之和。

中心极限定理:当样本量足够大时(通常>30),来自任意总体的样本均值近似地服从正态分布,且样本均值等于总体均值,方差等于总体方差除以样本量。

(2)应用例子:

①人的身高体重:成年人的身高体重通常服从正态分布,可用于设计合适的服装尺码、评估儿童的生长发育情况

②考试成绩:大规模考试的分数分布往往接近正态分布,可合理设置评分标准,鉴别考试的区分度。

③产品质量:产品的尺寸误差、强度等质量指标通常服从正态分布,利用过程能力指数等工具,可监控生产过程,确保产品质量稳定。

④金融风险:股票收益率通常近似服从正态分布,金融工程中,正态分布是期权定价,风险度量的基础。

⑤测量误差:重复测量下,测量误差往往服从正态分布,利用最大似然估计等方法,可校正测量误差,提高精度。

3.拉普拉斯分布/双指数分布

(1)拉普拉斯分布古关于位置参数μ对称,概率密度在μ处达到最大值1/2b,b为尺度参数。

与正态分布相比,拉普拉斯分布的峰更尖,尾部更厚,这意味着拉普拉斯分布更容易出现异常值或极端事件。

(2)无偏估计

拉普拉斯分布:样本中位数是μ的无偏估计,样本绝对偏差的均值是b的无偏估计。无偏性是评价估计量优劣的重要标准,这一性质使拉普拉斯分布在鲁棒统计中备受青睐。

即使数据受到污染或含有异常值,基于中位数和绝对误差的估计也稳健可靠。

(3)尾部特性

相比正态分布,其尾部更厚,下降更缓慢。

尾部分布意味着极端事件发生的概率更大,风险管理需要更谨慎。

(4)应用举例

①误差分析:测量和实验中,误差分布有时服从拉普拉斯分布,用拉普拉斯分布刻画误差,可提高参数估计和假设检验的效率。

②图像处理:在去噪、特征提取等任务中,假设噪声服从该分布,可得更稳健的滤波器和算法。如:拉普拉斯先验构建正则化项,可以更好地保持图像边缘和纹理。

③金融风险:在金融时间序列如股票收益率、汇率变动中,往往存在尖峰厚尾现象,用拉普拉斯分布刻画风险因子,可以更准确地度量和控制极端风险,如计算在险价值(VaR)等。

4.左偏右偏分布

偏离分布中心的程度在左右两侧不同,称为偏态分布/偏分布。

(1)左偏分布/负偏分布

指数据大部分值集中在右侧,左侧尾部更长。均值通常小于中位数,分布的峰值点位于中位数右侧。典型左偏分布:

①指数分布:描述事件发生的时间间隔,如设备的无故障工作时间。

②泊松分布:描述一定时间内随机事件发生的次数。如每小时顾客到达数。

③对数正态分布:描述乘积因子主导的过程,如个人收入、城市人口等。

(2)右偏分布/正偏分布

指数据的大部分集中在左侧,而右侧的尾部更长,均值通常大于中位数,分布的峰值点位于中位数左侧。典型的右侧分布:

①帕累托分布:描述社会财富分配的不平等性,也称巴拉巴西-阿尔伯特分布

②威布尔分布:描述事件的等待时间,如器件的寿命、降雨量等

③F分布、卡方分布:多用于方差分析、假设检验等统计推断场合

(3)偏度系数

为了定量描述分布的偏态程度,引入偏度系数。偏度系数通过测量均值与中位数的偏离程度来反映分布的不对称性,常见的偏度系数有:

①皮尔逊偏度系数:(均值-众数)/标准差,适用于单峰分布

②矩偏度系数:用分布的三阶中心矩除以标准差的三次方,称为标准化的三阶矩

③中位数-均值差:用(中位数-均值)/标准差来度量,简单易懂

偏度系数为正,表右偏分布;为负,表左偏分布;为0表对称分布。偏度系数的绝对值越大,分布的偏态程度越严重。

(4)应用举例

①收入分布:个人收入分布往往呈现右偏特征,少数人占据了大部分财富,了解收入分布的偏态性,有助于制定合理的税收政策和社会保障制度。

②股票收入:股票日收益率常呈左偏分布,投资者面临的下行风险大于上行风险。风险管理中要充分考虑收益分布的负偏态,控制投资组合的下行风险。

③网络流量:互联网流量如视频点击量、用户访问量常服从长尾分布,表现为右偏特征,挖掘长尾需求,优化资源配置,是互联网企业的重要课题。

5.长尾分布

(1)反映了一种"重要的少数和不重要的多数共存"的现象,同正态分布相比,长尾分布尾部更加肥厚。少数事件概率虽低,但它的累积概率不容忽视。

互联网和电子商务的崛起让长尾现象更普遍

传统书店受制于门店面积,只能销售最畅销的几十种图书,但网上书店不受此限制,通过销售大量非畅销书获得可观利润,这为"长尾效应"。

(2)其他常见分布:

均匀分布描述了随机变量在一个区间内等可能地取任何值的情况,如抛骰子的次数。

泊松分布描述了一定时间内随机事件发生的次数的概率,如一个小时内到达店铺的人数

二项分布描述了n次独立重复实验中成功次数的概率,如抛10次硬币正面朝上的次数。

(3)互联网行业的数据分析应用

数据分析广泛应用于用户行为分析、产品优化、精准营销等,常见:

①用户在线时长服从指数分布,根据二八法则,可重点关注高活跃用户,提供差异化的服务。

②用户年龄、消费金额等服从正态分布或对数正态分布,可利用这些数据划分用户群体制定个性化推荐和营销策略。

③视频网站中不同视频的访问量服从长尾分布,要重视挖掘长尾内容的价值,优化长尾内容的推荐和分发机制。

相关推荐
笨蛋少年派5 小时前
跨境电商大数据分析系统案例:③建模、分析与暂时收尾
hive·数据挖掘·数据分析
Cisyam^5 小时前
openGauss + LangChain Agent实战:从自然语言到SQL的智能数据分析助手
sql·数据分析·langchain
CC数学建模6 小时前
被问爆的 “高颜值 + 强功能” 学生管理系统!Flask+MySQL 全栈开发,自带数据分析 + 幸福指标,毕设 / 竞赛直接
mysql·数据分析·flask
咚咚王者9 小时前
人工智能之数据分析 Matplotlib:第四章 图形类型
人工智能·数据分析·matplotlib
语落心生11 小时前
大宗供应链企业舆情指标系统设计(一)舆情指标设计
数据分析
语落心生11 小时前
餐饮供应链的数仓设计思考 (五) 系统稳定性与SLA保障体系
数据分析
语落心生11 小时前
餐饮供应链的数仓设计思考 (四) 餐饮连锁企业数据模型可解释性
数据分析
语落心生11 小时前
餐饮供应链的数仓设计思考 (三) 数据管道与核心系统API对接方案
数据分析
语落心生11 小时前
餐饮供应链的数仓设计思考 (二) 餐饮连锁企业深度业务模型分析
数据分析
语落心生12 小时前
餐饮供应链的数仓设计思考 (一) 系统设计大纲
数据分析