【数据分析】描述性统计分析 - 直方图

一、什么是直方图

  • 由一批长方形构成,通过长方形的面积或高度来代表对应组在数据中所占的比例。
  • 用长方形的面积代表对应组的频数与组距的比时,则称为频率分布直方图;
  • 当用长方形的高代表对应组的频数时,则称为频数分布直方图
  • 但严格统计意义上的直方图都是指频率分布直方图 ,而且统计意义上的直方图没有纵向刻度

二、绘制直方图

三、Python 绘制直方图

1、使用 pandasnumpymatplotlib绘制直方图

python 复制代码
# Using pandas, numpy, matplotlib to draw histograms
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

# set the backend of matplotlib to TkAgg
matplotlib.use('TkAgg')

data = pd.DataFrame({
    # Generate 1000 random numbers with a standard normal distribution
    'Values': pd.Series(np.random.randn(1000))
})

# Draw a histogram
data['Values'].plot.hist(bins=30, alpha=0.5, color='lightblue',
                        edgecolor='darkblue')


# set chart title and axis labels
plt.title('Histogram of Values')
plt.xlabel('Value')
plt.ylabel('Frequency')

# display chart
plt.show()

2、使用 pandasnumpymatplotlib绘制直方图

python 复制代码
# Using plotly.express to draw histograms
import plotly.express as px
import pandas as pd
import numpy as np
# data = [1, 2, 3, 4, 5, 6, 7, 8, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

data = pd.DataFrame({
    'Values': pd.Series(np.random.randn(1000))
})
# Nbins defines the number of boxes in the histogram
fig = px.histogram(data, nbins=80,
                   color_discrete_sequence=['blue'],
                   labels={'Values': 'Value'},
                   title='Histogram of Values',
                   # marginal="box"
                   )

fig.update_traces(
    marker=dict(
        color='lightblue',
        opacity=0.75,
        line=dict(
            color='darkblue',
            width=1
        )
    )
)

# display chart
fig.show()

3、使用 pandasnumpydash****和 plotly.express绘制直方图

python 复制代码
# Using dash, plotly.express to draw histogram
import dash
import numpy as np
import pandas as pd
from dash import html, dcc
import plotly.express as px

# create a dash application
app = dash.Dash(__name__)

# create as list
# data = [1, 2, 2, 2, 2, 3, 4, 5, 5, 5, 6, 7, 8, 8, 8, 9, 9, 10, 10, 10, 11, 12, 12, 12, 13, 14, 12, 15, 15, 16, 17, 18, 18, 18, 19, 19, 20, 20, 20]
data = pd.DataFrame({
    'Values': pd.Series(np.random.randn(1000))
})

# use plotly.express to draw histogram
fig = px.histogram(data, nbins=60,
                    color_discrete_sequence=['blue'],
                    labels={'Values': 'Value'},
                    title='Histogram of Values',
                    # marginal="box",
                    )

fig.update_traces(
    marker=dict(
        color='lightblue',
        opacity=0.75,
        line=dict(
            color='darkblue',
            width=1
        )
    )
)

# define application layout
app.layout = html.Div([
    html.H1('Dash Histogram Example'),
    dcc.Graph(figure=fig)
])

# run the application
if __name__ == '__main__':
    app.run_server(debug=True)
相关推荐
HPC_fac130520678162 小时前
科研深度学习:如何精选GPU以优化服务器性能
服务器·人工智能·深度学习·神经网络·机器学习·数据挖掘·gpu算力
xiaoyalian7 小时前
R语言绘图过程中遇到图例的图块中出现字符“a“的解决方法
笔记·r语言·数据可视化
weixin_466202787 小时前
第31周:天气识别(Tensorflow实战第三周)
分类·数据挖掘·tensorflow
山海青风10 小时前
使用 OpenAI 进行数据探索性分析(EDA)
信息可视化·数据挖掘·数据分析
莫叫石榴姐11 小时前
数据科学与SQL:组距分组分析 | 区间分布问题
大数据·人工智能·sql·深度学习·算法·机器学习·数据挖掘
AI完全体13 小时前
【AI日记】24.11.22 学习谷歌数据分析初级课程-第2/3课
学习·数据分析
工业3D_大熊13 小时前
3D可视化引擎HOOPS Luminate场景图详解:形状的创建、销毁与管理
java·c++·3d·docker·c#·制造·数据可视化
请你喝好果汁64115 小时前
单细胞|M3-4. 细胞聚类与轨迹推断
机器学习·数据挖掘·聚类
吾门16 小时前
YOLO入门教程(三)——训练自己YOLO11实例分割模型并预测【含教程源码+一键分类数据集 + 故障排查】
yolo·分类·数据挖掘
电子手信17 小时前
知识中台在多语言客户中的应用
大数据·人工智能·自然语言处理·数据挖掘·知识图谱