数据分析------统计学知识点（三）

相关性分析

1.趋势分析与散点图

散点图可帮助我们发现和理解变量间的关系，可直观观察是否有相关性。

（1）散点图定义及组成要素

散点图是一种以点的形式在直角坐标系上表示两个数值变量间关系的图表

横坐标（x轴）：代表独立变量，如广告预算

纵坐标（y轴）：代表因变量，如销售额

数据点：表示记录的坐标点，反映变量间的关系

（2)散点图表意原则

正相关：点呈现从左下到右上的趋势，意味着一个变量的增加通常伴随着另一变量的增加。

负相关：点分布从左上到右下，一个变量的增加伴随着另一个变量的减少

非线性相关：点分布呈曲线形状，表明变量间的关系更复杂

（3）散点图洞察数据的技巧

为最大化散点图的价值，以下技巧是必需的

（a）使用趋势线：加入趋势线可帮助我们1更清晰地看到数据的整体方向和强度

（b）调整透明度：当数据点过多重叠时，调整点的透明度可以更好的显示分布情况

（c）考虑数据密度：使用颜色深浅或大小代表数据密集区域，可以更好的揭示聚类效应

（4）散点图分析注意事项

异常值：可能会影响趋势的判断，需仔细分析其背后的原因

聚类：数据聚类在某些区域可能会隐藏其他区域的特征

非因果相关：相关性并不代表因果关系，需要防止错误解读

（5）幸存者偏差及其影响

幸存者偏差指的是在分析过程中，只关注"幸存"的数据，而忽略了那些因各种原因而未被观察到的数据。在散点图分析中，这可能导致对关系的错误评估。

2.相关性分析概念

相关性分析是衡量两个变量间的关系强度和方向的统计手段，它帮助我们理解不同数据之间的相互作用。

3.常用计算方法

皮尔逊相关系数：衡量两个变量线性相关程度的指标，取值范围在-1到1之间，其中1表示完全正相关，-1表示完全负相关，0表示无线性相关。

斯皮尔曼等级相关系数：是一种非参数的相关性衡量方法，用来评价两个变量的等级或顺序间的相关性。

4.方法优缺点、适用条件和计算步骤

皮尔逊相关系数

优点：适用评估线性关系强度

缺点：对异常值敏感，只能用于连续变量

适用条件：两变量均为连续且大致呈正态分布

计算步骤：标准化变量，计算协方差，除以两变量的标准差的乘积

斯皮尔曼等级相关系数

优点：不要求数据正态分布，对异常值不敏感

缺点：只能捕捉单调关系

适用条件：至少有一个变量是有序分类变量

计算步骤：对每个变量进行等级排序，计算等级之间的皮尔逊相关系数

5.相关性分析的经典应用场景

①金融领域：分析股票价格与市场因素的相关性

②医学研究：探究生活习惯与健康状况的相关性

③社会科学：研究教育水平与收入水平的关系

④市场营销：评估广告投放与品牌知名度的相关性

6.鉴别相关性陷阱的建议

①多角度分析：结合其他图表和统计方法，全面了解数据

②数据清洗：识别并处理异常值和缺失数据

③专业知识：结合领域知识，合理解释数据关系

7.互联网场景下的相关性分析

相关性分析帮助企业从大数据中提取有价值的信息，实现精准营销和服务

电商：分析用户属性与购买行为的相关性

通过用户年龄、地域、历史购买数据等属性与其购买时间之间的相关性分析，可以实现个性化推荐，提高转化率

社交媒体：研究用户互动行为背后的相关因素

分析点赞、评论等用户互动行为与内容特征、发布时间等因素的关系，有助于优化内容推送策略

搜索引擎：挖掘搜索query与用户属性的相关性

关联用户的查询关键词与其个人信息，可以优化搜索算法，提高更为精准的搜索结果

在线广告：利用相关性分析给用户投放最感兴趣的广告创意

结合用户的浏览历史、点击行为与广告点击率进行相关性分析，可以帮助精准投放广告，增加广告效果。

标准差

1.标准差：数据离散程度的度量

反映了数据与其平均值之间的偏离程度。标准差越大，说明数据的离散程度越高；反之标准差越小，数据的离散程度越低。除标准差，还可以用离散系数来描述数据的离散程度。

离散系数是标准差与平均值的比值，通常用百分数表示，可以让我们更直观的比较不同的数据集的离散程度，尤其是当它们的量纲or平均值差异较大时

2.标准差的应用

①识别异常值：若某个数据点与平均值的偏差超过2-3个标准差，则通常可将其识别为异常值，离群值。

②构建置信区间：在一定置信水平（常用95%），我们可以用标准差构建一个区间，该区间有很大概率包含总体的真实参数。

③比较不同组别的数据：通过比较不同的组别数据的标准差，我们可以了解哪个组的数据更稳定，哪个组的数据波动更大。

3.标准误差：抽样误差的度量

实际工作通常无法获取全部总体数据，而只能通过抽样的方式来推断总体特征。标准误差就是用来描述由于抽样引入的误差。

公式：标准误差=标准差/根号n，n为样本量。样本量越大，标准误差越小，即抽样误差越小。

4.标准误差的应用

①估计总体参数

利用样本统计量和标准误差，可构建总体参数的置信区间，从而对总体参数进行估计。

②比较不同样本的差异

当想要比较两个或多个样本的均值时，可利用标准误差计算它们之间的差异是否具有统计学意义。

③确定样本量

在设计抽样调查时，可根据标准误差的大小来确定所需的样本量，以控制抽样误差在可接受的范围内。

5、互联网企业的应用场景

①用户行为分析：分析用户的活跃度、留存率、付费金额等指标时，可利用标准差来识别不同用户群体之间的差异，找出高价值用户or流失风险用户

②A/B测试：进行产品优化时，通常会将用户随机分成两组或多组，分别体验不同的产品版本，通过比较不同组别的关键指标（eg：转化率、点击率）的均值、标准误差，可判断哪个版本表现优

③广告效果评估：对于广告投放，我们需要评估不同广告创意或投放渠道的效果，利用标准差和标准误差，我们可以比较不同的广告或渠道的点击率、转化率等指标优化广告策略。

④异常检测：在实时监控系统的关键指标时，可利用标准差来设置异常阈值。当指标偏离平均值超过一定的标准差时，系统就会自动报警，提醒数据分析师及时处理潜在的问题。