【小白学机器学习29】 概率统计与图形 ( hist, bar, pie , box ,scatter ,line)

目录

[1 频度/次数](#1 频度/次数)

[1.1 频度统计表:频度分布表](#1.1 频度统计表:频度分布表)

[1.2 频数分布图=直方图 histogram / hist](#1.2 频数分布图=直方图 histogram / hist)

[1.3 对比,柱状图 bar graph /column chart](#1.3 对比,柱状图 bar graph /column chart)

[2 饼图 pie chart](#2 饼图 pie chart)

2.1饼图特点

[3 南丁格尔玫瑰图](#3 南丁格尔玫瑰图)

[4 茎叶图 stem-and-leaf display](#4 茎叶图 stem-and-leaf display)

[5 箱型图 box plot](#5 箱型图 box plot)

[6 散点图 scatter plot](#6 散点图 scatter plot)

[7 折线图 line graph](#7 折线图 line graph)

[10 注意图标会骗人的几个点](#10 注意图标会骗人的几个点)

[10.1 X轴,Y轴,是否从0开始?](#10.1 X轴,Y轴,是否从0开始?)

[10.2 X轴,Y轴,是否足够伸展](#10.2 X轴,Y轴,是否足够伸展)

[10.3 只取部分数据的图形](#10.3 只取部分数据的图形)

等等


1 频度/次数

  • 频度=次数:事件发生的次数

  • (频度)概率学 和贝叶斯概率学,概率从一开始关注的就是频度。

  • 伯努利大数定律,试验次数足够多,频率会接近单次试验的概率

  • 一定程度上说,频率=概率,也没大毛病

1.1 频度统计表:频度分布表

频度分布表:概率分布的雏形吧

核心信息

  • min
  • max
  • 全距=max-min
  • 组数:分为几组数据
  • 组距:组间的距离长度,有些是天然的,也可以认为定义组距

1.2 频数分布图=直方图 histogram / hist

  • 频度直方图---直方图
  • 直方图上就是表示频度
  • 特点:
  1. 直方图:一定是频度的,频度直方图
  2. 横轴数据是连续的,无间隔
  3. 高度/ Y轴表示的是某数据出现的 次数/数量 count
  4. 每个柱子宽度不一定相同,多数相同
  5. 每个柱子面积是有意义的,面积=次数count*区间差

1.3 对比,柱状图 bar graph /column chart

别名:柱状图,条形图,棒状图等等

  • 特点:
  1. 横轴数据一般是有间隔的,离散的
  2. 高度/ Y轴表示的是某数据的具体数值 value
  3. 柱状图:只是排列数值,和频度无关!
  4. 只看高度数值value, 每个柱子宽度一定相同
  5. 柱子的面积没有意义

2 饼图 pie chart

2.1饼图特点

  • 平面饼图最准确
  • 立体饼图,因为3D有比例看起来不对的风险
  • 注意,饼图要求数据总和=100%,因为多选题的统计不适合用饼图
  • 因为多选得做成饼图加仓概率和会超过100%,因为有重复叠加的多选部分。

3 南丁格尔玫瑰图

根据饼状图来的,南丁格尔玫瑰图

每个饼分位多个分块,每个分块大小不同,每个分块还可以分尖端和后面2部分。

4 茎叶图 stem-and-leaf display

  • 茎叶图,我看起来,更像是表格
  • frequency | stem leaf
  • 频度 | 主体 小数

5 箱型图 box plot

  • 典型例子
  • 四分位图
  • 股价图
  • 四分位数,就是几个1/4分位
  • 四分位数与箱型图
  • 除了4分位数,还有min, max,中位数=2/4分位。1/4为箱子底, 3/4为箱子盖

和股价图有差别

  • 形状像
  • 但是股价图 Min,max不变,但可能发生的时间不定
  • 箱子上可能是开盘价格,收盘价位置不同,阳性和阴线的区别。

6 散点图 scatter plot

  • 和折线图最大的区别
  • 散点图:2个数据,分别作为X轴,Y轴
  • 折线图,2个数据都作为Y轴的数据,图形对比,X轴是默认的其他序列数据等

7 折线图 line graph

  • 折线图,2个数据都作为Y轴的数据,图形对比,X轴是默认的其他序列数据

10 注意图标会骗人的几个点

10.1 X轴,Y轴,是否从0开始?

  • 如果不从0开始,比如从1000开始,就为放大局部效果

10.2 X轴,Y轴,是否足够伸展

  • X轴,Y轴,是否足够伸展,还是压缩,得到图形完全不同
  • 也就是图形可以被压缩,要注意

10.3 只取部分数据的图形

  • 只取部分数据的图形
  • 比如有1-100的数据,只作图现实50-100的数据,图形可能失真!
  • 是局部效果。不是全局效果。

等等

相关推荐
井底哇哇4 小时前
ChatGPT是强人工智能吗?
人工智能·chatgpt
Coovally AI模型快速验证4 小时前
MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
人工智能·算法·yolo·目标检测·机器学习·计算机视觉·目标跟踪
AI浩4 小时前
【面试总结】FFN(前馈神经网络)在Transformer模型中先升维再降维的原因
人工智能·深度学习·计算机视觉·transformer
可为测控5 小时前
图像处理基础(4):高斯滤波器详解
人工智能·算法·计算机视觉
一水鉴天5 小时前
为AI聊天工具添加一个知识系统 之63 详细设计 之4:AI操作系统 之2 智能合约
开发语言·人工智能·python
倔强的石头1065 小时前
解锁辅助驾驶新境界:基于昇腾 AI 异构计算架构 CANN 的应用探秘
人工智能·架构
orion-orion6 小时前
贝叶斯机器学习:高斯分布及其共轭先验
机器学习·统计学习
佛州小李哥6 小时前
Agent群舞,在亚马逊云科技搭建数字营销多代理(Multi-Agent)(下篇)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
说私域6 小时前
社群裂变+2+1链动新纪元:S2B2C小程序如何重塑企业客户管理版图?
大数据·人工智能·小程序·开源
程序猿阿伟7 小时前
《探秘鸿蒙Next:如何保障AI模型轻量化后多设备协同功能一致》
人工智能·华为·harmonyos