目录
[1 频度/次数](#1 频度/次数)
[1.1 频度统计表:频度分布表](#1.1 频度统计表:频度分布表)
[1.2 频数分布图=直方图 histogram / hist](#1.2 频数分布图=直方图 histogram / hist)
[1.3 对比,柱状图 bar graph /column chart](#1.3 对比,柱状图 bar graph /column chart)
[2 饼图 pie chart](#2 饼图 pie chart)
[3 南丁格尔玫瑰图](#3 南丁格尔玫瑰图)
[4 茎叶图 stem-and-leaf display](#4 茎叶图 stem-and-leaf display)
[5 箱型图 box plot](#5 箱型图 box plot)
[6 散点图 scatter plot](#6 散点图 scatter plot)
[7 折线图 line graph](#7 折线图 line graph)
[10 注意图标会骗人的几个点](#10 注意图标会骗人的几个点)
[10.1 X轴,Y轴,是否从0开始?](#10.1 X轴,Y轴,是否从0开始?)
[10.2 X轴,Y轴,是否足够伸展](#10.2 X轴,Y轴,是否足够伸展)
[10.3 只取部分数据的图形](#10.3 只取部分数据的图形)
1 频度/次数
-
频度=次数:事件发生的次数
-
(频度)概率学 和贝叶斯概率学,概率从一开始关注的就是频度。
-
伯努利大数定律,试验次数足够多,频率会接近单次试验的概率
-
一定程度上说,频率=概率,也没大毛病
1.1 频度统计表:频度分布表
频度分布表:概率分布的雏形吧
核心信息
- min
- max
- 全距=max-min
- 组数:分为几组数据
- 组距:组间的距离长度,有些是天然的,也可以认为定义组距
1.2 频数分布图=直方图 histogram / hist
- 频度直方图---直方图
- 直方图上就是表示频度
- 特点:
- 直方图:一定是频度的,频度直方图
- 横轴数据是连续的,无间隔
- 高度/ Y轴表示的是某数据出现的 次数/数量 count
- 每个柱子宽度不一定相同,多数相同
- 每个柱子面积是有意义的,面积=次数count*区间差
1.3 对比,柱状图 bar graph /column chart
别名:柱状图,条形图,棒状图等等
- 特点:
- 横轴数据一般是有间隔的,离散的
- 高度/ Y轴表示的是某数据的具体数值 value
- 柱状图:只是排列数值,和频度无关!
- 只看高度数值value, 每个柱子宽度一定相同
- 柱子的面积没有意义
2 饼图 pie chart
2.1饼图特点
- 平面饼图最准确
- 立体饼图,因为3D有比例看起来不对的风险
- 注意,饼图要求数据总和=100%,因为多选题的统计不适合用饼图
- 因为多选得做成饼图加仓概率和会超过100%,因为有重复叠加的多选部分。
3 南丁格尔玫瑰图
根据饼状图来的,南丁格尔玫瑰图
每个饼分位多个分块,每个分块大小不同,每个分块还可以分尖端和后面2部分。
4 茎叶图 stem-and-leaf display
- 茎叶图,我看起来,更像是表格
- frequency | stem leaf
- 频度 | 主体 小数
5 箱型图 box plot
- 典型例子
- 四分位图
- 股价图
- 四分位数,就是几个1/4分位
- 四分位数与箱型图
- 除了4分位数,还有min, max,中位数=2/4分位。1/4为箱子底, 3/4为箱子盖
和股价图有差别
- 形状像
- 但是股价图 Min,max不变,但可能发生的时间不定
- 箱子上可能是开盘价格,收盘价位置不同,阳性和阴线的区别。
6 散点图 scatter plot
- 和折线图最大的区别
- 散点图:2个数据,分别作为X轴,Y轴
- 折线图,2个数据都作为Y轴的数据,图形对比,X轴是默认的其他序列数据等
7 折线图 line graph
- 折线图,2个数据都作为Y轴的数据,图形对比,X轴是默认的其他序列数据
10 注意图标会骗人的几个点
10.1 X轴,Y轴,是否从0开始?
- 如果不从0开始,比如从1000开始,就为放大局部效果
10.2 X轴,Y轴,是否足够伸展
- X轴,Y轴,是否足够伸展,还是压缩,得到图形完全不同
- 也就是图形可以被压缩,要注意
10.3 只取部分数据的图形
- 只取部分数据的图形
- 比如有1-100的数据,只作图现实50-100的数据,图形可能失真!
- 是局部效果。不是全局效果。