(六)机器学习 - 正态数据分布

正态数据分布,也称为高斯分布(Gaussian distribution),是一种在统计学中非常重要的概率分布。它描述了自然和社会科学中许多现象的分布情况,如人的身高、体重、智商等。正态分布的图形特征是中间高、两边低,呈对称的钟形曲线,因此也被称为钟形曲线(bell curve)。

正态分布的数学表达式为:

其中,μμ 是分布的均值(mean),σσ 是分布的标准差(standard deviation),σ2σ2 是分布的方差(variance)。

正态分布具有以下特征:

  1. 对称性:正态分布的图形关于均值 μμ 对称,即分布的左侧和右侧是镜像的。

  2. 均值、中位数和众数相等:在正态分布中,均值、中位数(median)和众数(mode)是相同的,都等于 μμ。

  3. 标准差决定分布的宽度:标准差 σσ 决定了分布的宽度。标准差越大,分布越分散;标准差越小,分布越集中。

  4. 总面积为1:正态分布曲线下的总面积为1,表示所有可能结果的概率之和为1。

  5. 68-95-99.7规则:在正态分布中,约68%的数据点落在均值的一个标准差范围内(μ±σμ±σ),约95%的数据点落在均值的两个标准差范围内(μ±2σμ±2σ),约99.7%的数据点落在均值的三个标准差范围内(μ±3σμ±3σ)。

使用Python 创建一组正态数据分布:

python 复制代码
import numpy
import matplotlib.pyplot as plt

x = numpy.random.normal(5.0, 1.0, 100000)

plt.hist(x, 100)
plt.show()

结果:

直方图解释

我们使用 numpy.random.normal() 方法创建的数组(具有 100000 个值)绘制具有 100 栏的直方图。

我们指定平均值为 5.0,标准差为 1.0。

这意味着这些值应集中在 5.0 左右,并且很少与平均值偏离 1.0。

从直方图中可以看到,大多数值都在 4.0 到 6.0 之间,最高值大约是 5.0。

正态分布的这些特征使得它在统计分析中具有广泛的应用,如假设检验、置信区间的计算、回归分析等。在实际应用中,如果数据的分布接近正态分布,我们可以使用正态分布的性质来对数据进行分析和解释。

END.

相关推荐
in12345lllp几秒前
IT运维AI化转型:系统性AI认证选择
运维·人工智能
艾莉丝努力练剑1 分钟前
【Linux进程(六)】程序地址空间深度实证:从内存布局验证到虚拟化理解的基石
大数据·linux·运维·服务器·人工智能·windows·centos
Godspeed Zhao2 分钟前
自动驾驶中的传感器技术86——Sensor Fusion(9)
人工智能·机器学习·自动驾驶
说私域3 分钟前
定制开发开源AI智能名片S2B2C商城小程序的产品经理职责与发展研究
人工智能·小程序·开源
许泽宇的技术分享3 分钟前
当AI遇见UI:A2UI协议在.NET Blazor中的完整实现与深度剖析
人工智能·ui·.net·a2ui
2501_940178764 分钟前
企业AI落地,从“能用”到“好用”的跨越:ModelEngine 实战与思考
人工智能
骚戴4 分钟前
AI架构指南:大型语言模型 (LLM) API 的通用集成与企业级配置(2025年)
人工智能·大模型·llm·gateway·api
week_泽6 分钟前
OpenCV图像拼接实践笔记(第一部分)
人工智能·笔记·opencv
乾元10 分钟前
AI 在云网络(VPC / VNet)部署的编排与安全对齐——从“手工堆资源”到“意图驱动的网络生成”(含 Terraform 工程化)
运维·网络·人工智能·网络协议·安全·云计算·terraform
万俟淋曦11 分钟前
【TextIn大模型加速器 + 火山引擎】赋能机器人行业分析与VLA研究
人工智能·机器人·火山引擎·robot·具身智能·coze·textln