python统计分析——操作案例(模拟抽样)

参考资料:用python动手学统计学

python 复制代码
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns

data_set=pd.read_csv(r"C:\python统计学\3-4-1-fish_length_100000.csv")['length']    #此处将文件路径改为自己的路径即可

1、抽样

为了保证数据分析的可复现性,使用了随机种子。

np.random.choice()的用法参考:https://blog.csdn.net/maizeman126/article/details/135572042

2、计算样本均值

3、计算总体统计量

相关函数用法参照:python统计分析------单变量描述统计-CSDN博客

python 复制代码
mean_t=np.mean(data_set)
std_t=np.std(data_set,ddof=0)
var_t=np.var(data_set,ddof=0)
max_t=np.max(data_set)
min_t=np.min(data_set)

print('总体均值:',mean_t)
print('总体标准差:',std_t)
print('总体方差:',var_t)
print('最大值:',max_t)
print('最小值:',min_t)

4、绘制总体的直方图:

直方图的绘制参照:

python统计分析------直方图(plt.hist)_python统计直方图-CSDN博客

python统计分析------直方图(sns.histplot)-CSDN博客

python统计分析------直方图(df.hist)_python df.hist()-CSDN博客

python 复制代码
sns.set()
sns.histplot(data_set,kde=False,color='black')

根据总体统计量计算和直方图直观查看,目前可以暂时认为:总体的概率分布服从均值为4,方差为0.64的正态分布,数值的分布范围基本在1-7之间。

5、绘制均值为4,方差为0.64,数据范围为1-7的正态分布的概率密度曲线

5.1 准备1-7上以0.1为公差的等差数列。(注意np.arange函数应用中仍然遵循包左不包右的原则)

python 复制代码
x=np.arange(start=1,stop=7.1,step=0.1)

5.2 用stats.norm.pdf计算概率密度。

stats.norm.pdf()函数中,x为分位数,loc表示均值,scale表示标准差(注意不是方差),结果表示取值x时对应的概率密度。

python 复制代码
from scipy import stats
pro_d=stats.norm.pdf(x=x,loc=4,scale=0.8)
pro_d

5.3 绘制概率密度曲线

python 复制代码
plt.plot(x,pro_d,color='k')   #k表示颜色black的简写

5.4 将总体直方图和正态分布概率密度函数放到一个中显示:

python 复制代码
sns.histplot(data_set,stat='density',kde=False)
plt.plot(x,pro_d,color='k')

根据上图可以看出:正态分布的概率密度和总体分布的概率密度几乎吻合,因此可以认为总体服从正态分布。

相关推荐
waterHBO2 小时前
python 爬虫 selenium 笔记
爬虫·python·selenium
limingade3 小时前
手机实时提取SIM卡打电话的信令和声音-新的篇章(一、可行的方案探讨)
物联网·算法·智能手机·数据分析·信息与通信
编程零零七3 小时前
Python数据分析工具(三):pymssql的用法
开发语言·前端·数据库·python·oracle·数据分析·pymssql
AIAdvocate5 小时前
Pandas_数据结构详解
数据结构·python·pandas
小言从不摸鱼5 小时前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt
FreakStudio7 小时前
全网最适合入门的面向对象编程教程:50 Python函数方法与接口-接口和抽象基类
python·嵌入式·面向对象·电子diy
redcocal8 小时前
地平线秋招
python·嵌入式硬件·算法·fpga开发·求职招聘
artificiali8 小时前
Anaconda配置pytorch的基本操作
人工智能·pytorch·python
RaidenQ8 小时前
2024.9.13 Python与图像处理新国大EE5731课程大作业,索贝尔算子计算边缘,高斯核模糊边缘,Haar小波计算边缘
图像处理·python·算法·课程设计
花生了什么树~.9 小时前
python基础知识(六)--字典遍历、公共运算符、公共方法、函数、变量分类、参数分类、拆包、引用
开发语言·python