【机器学习】数学知识:标准差,方差,协方差,平均数,中位数,众数

标准差、方差和协方差是统计学中重要的概念,用于描述数据的分散程度和变量之间的关系。以下是它们的定义和公式:

1. 标准差 (Standard Deviation)

标准差是方差的平方根,表示数据的分散程度,以与数据相同的单位表示。

公式
  • 对于样本:
  • 对于总体:

2. 方差 (Variance)

方差是衡量一组数据与其均值之间偏差的平方的平均值。它表示数据的分散程度。

公式
  • 对于样本数据:
  • 对于总体数据:
  • 其中, 是每个数据点, 是样本均值, 是总体均值,n 是样本大小,N 是总体大小。

3. 协方差 (Covariance)

协方差是衡量两个变量之间关系的度量,表示它们如何一起变化。正协方差表示两个变量同向变化,负协方差表示它们反向变化。

公式
  • 对于样本数据:
  • 对于总体数据:
  • 其中,X 和 Y 是两个随机变量, 是它们的观测值, 是它们的均值, 是总体均值。

这些概念在数据分析、概率论和统计学中非常重要,能够帮助理解数据的分布和变量之间的关系。


中位数、平均数和众数是描述数据集中趋势的三种常用统计量。各有其适用场景和统计意义,选择哪一个更具统计意义取决于数据的性质和分析目的。以下是它们的定义和计算方法及其适用情况:

4. 平均数 (Mean)

平均数是所有数据点的总和除以数据点的数量,通常被称为算术平均数。

公式

其中, 是每个数据点,n 是数据点的总数量。

优点
  • 平均数利用了所有数据点的信息,能反映整体水平。
  • 在正态分布的情况下,平均数是一个非常有效的集中趋势的指标。
缺点
  • 对极端值(离群值)敏感。极端大或小的值会显著影响平均数,从而使其不能准确反映数据的中心趋势。
适用情况
  • 当数据分布接近正态分布且没有显著的离群值时,平均数是一个很好的集中趋势度量。

5. 中位数 (Median)

中位数是将数据按升序排列后,位于中间位置的数值。如果数据点数量为奇数,中位数是中间的数;如果为偶数,中位数是中间两个数的平均值。

计算方法
  • 将数据按升序排列。
  • 如果 n 是奇数:
  • 如果 n 是偶数:
优点
  • 中位数不受极端值的影响,因此在数据中存在离群值或数据分布不对称的情况下,它能更准确地反映数据的中心位置。
缺点
  • 中位数不考虑所有数据点的信息,仅依赖于数据的顺序。
适用情况
  • 当数据分布不对称或存在离群值时,中位数是更好的集中趋势度量。

6. 众数 (Mode)

众数是数据集中出现次数最多的数值。一个数据集可以有一个众数(单众数),多个众数(多众数),或没有众数(如果所有数出现的次数相同)。

计算方法
  • 统计每个数值出现的频率,找出出现次数最多的数值。
优点
  • 众数能显示最常见的数据值,适用于定性数据(分类数据)。
  • 在某些情况下,众数可以提供重要的信息,特别是在分析类别数据时。
缺点
  • 数据集中可能没有众数(所有数值出现的次数相同),或有多个众数(多众数),这可能会使其统计意义不明确。
适用情况
  • 当关注最常见的值或类别时,众数是一个重要的指标。

举例说明

假设有以下数据集:3, 7, 7, 2, 5, 9, 3

  • 平均数

  • 中位数: 排序后数据集为:2, 3, 3, 5, 7, 7, 9 由于有7个数(奇数),中位数为第4个数:

  • 众数: 7出现的次数最多(2次),因此众数为:

这些统计量可以帮助我们了解数据的中心位置和分布特征。

相关推荐
强盛小灵通专卖员6 分钟前
DL00291-联邦学习以去中心化锂离子电池健康预测模型完整实现
人工智能·机器学习·深度强化学习·核心期刊·导师·小论文·大论文
Hello123网站15 分钟前
多墨智能-AI一键生成工作文档/流程图/思维导图
人工智能·流程图·ai工具
有Li1 小时前
CLIK-Diffusion:用于牙齿矫正的临床知识感知扩散模型|文献速递-深度学习人工智能医疗图像
人工智能·深度学习·文献·医学生
大唐荣华1 小时前
视觉语言模型(VLA)分类方法体系
人工智能·分类·机器人·具身智能
即兴小索奇1 小时前
AI应用商业化加速落地 2025智能体爆发与端侧创新成增长引擎
人工智能·搜索引擎·ai·商业·ai商业洞察·即兴小索奇
NeilNiu1 小时前
开源AI工具Midscene.js
javascript·人工智能·开源
nju_spy2 小时前
机器学习 - Kaggle项目实践(4)Toxic Comment Classification Challenge 垃圾评论分类问题
人工智能·深度学习·自然语言处理·tf-idf·南京大学·glove词嵌入·双头gru
计算机sci论文精选2 小时前
CVPR 2025 | 具身智能 | HOLODECK:一句话召唤3D世界,智能体的“元宇宙练功房”来了
人工智能·深度学习·机器学习·计算机视觉·机器人·cvpr·具身智能
ezl1fe2 小时前
RAG 每日一技(十八):手写SQL-RAG太累?LangChain的SQL智能体(Agent)前来救驾!
数据库·人工智能·后端
我星期八休息2 小时前
大模型 + 垂直场景:搜索/推荐/营销/客服领域开发新范式与技术实践
大数据·人工智能·python