【小白学机器学习29】 概率统计与图形 ( hist, bar, pie , box ,scatter ,line)

目录

[1 频度/次数](#1 频度/次数)

[1.1 频度统计表:频度分布表](#1.1 频度统计表:频度分布表)

[1.2 频数分布图=直方图 histogram / hist](#1.2 频数分布图=直方图 histogram / hist)

[1.3 对比,柱状图 bar graph /column chart](#1.3 对比,柱状图 bar graph /column chart)

[2 饼图 pie chart](#2 饼图 pie chart)

2.1饼图特点

[3 南丁格尔玫瑰图](#3 南丁格尔玫瑰图)

[4 茎叶图 stem-and-leaf display](#4 茎叶图 stem-and-leaf display)

[5 箱型图 box plot](#5 箱型图 box plot)

[6 散点图 scatter plot](#6 散点图 scatter plot)

[7 折线图 line graph](#7 折线图 line graph)

[10 注意图标会骗人的几个点](#10 注意图标会骗人的几个点)

[10.1 X轴,Y轴,是否从0开始?](#10.1 X轴,Y轴,是否从0开始?)

[10.2 X轴,Y轴,是否足够伸展](#10.2 X轴,Y轴,是否足够伸展)

[10.3 只取部分数据的图形](#10.3 只取部分数据的图形)

等等


1 频度/次数

  • 频度=次数:事件发生的次数

  • (频度)概率学 和贝叶斯概率学,概率从一开始关注的就是频度。

  • 伯努利大数定律,试验次数足够多,频率会接近单次试验的概率

  • 一定程度上说,频率=概率,也没大毛病

1.1 频度统计表:频度分布表

频度分布表:概率分布的雏形吧

核心信息

  • min
  • max
  • 全距=max-min
  • 组数:分为几组数据
  • 组距:组间的距离长度,有些是天然的,也可以认为定义组距

1.2 频数分布图=直方图 histogram / hist

  • 频度直方图---直方图
  • 直方图上就是表示频度
  • 特点:
  1. 直方图:一定是频度的,频度直方图
  2. 横轴数据是连续的,无间隔
  3. 高度/ Y轴表示的是某数据出现的 次数/数量 count
  4. 每个柱子宽度不一定相同,多数相同
  5. 每个柱子面积是有意义的,面积=次数count*区间差

1.3 对比,柱状图 bar graph /column chart

别名:柱状图,条形图,棒状图等等

  • 特点:
  1. 横轴数据一般是有间隔的,离散的
  2. 高度/ Y轴表示的是某数据的具体数值 value
  3. 柱状图:只是排列数值,和频度无关!
  4. 只看高度数值value, 每个柱子宽度一定相同
  5. 柱子的面积没有意义

2 饼图 pie chart

2.1饼图特点

  • 平面饼图最准确
  • 立体饼图,因为3D有比例看起来不对的风险
  • 注意,饼图要求数据总和=100%,因为多选题的统计不适合用饼图
  • 因为多选得做成饼图加仓概率和会超过100%,因为有重复叠加的多选部分。

3 南丁格尔玫瑰图

根据饼状图来的,南丁格尔玫瑰图

每个饼分位多个分块,每个分块大小不同,每个分块还可以分尖端和后面2部分。

4 茎叶图 stem-and-leaf display

  • 茎叶图,我看起来,更像是表格
  • frequency | stem leaf
  • 频度 | 主体 小数

5 箱型图 box plot

  • 典型例子
  • 四分位图
  • 股价图
  • 四分位数,就是几个1/4分位
  • 四分位数与箱型图
  • 除了4分位数,还有min, max,中位数=2/4分位。1/4为箱子底, 3/4为箱子盖

和股价图有差别

  • 形状像
  • 但是股价图 Min,max不变,但可能发生的时间不定
  • 箱子上可能是开盘价格,收盘价位置不同,阳性和阴线的区别。

6 散点图 scatter plot

  • 和折线图最大的区别
  • 散点图:2个数据,分别作为X轴,Y轴
  • 折线图,2个数据都作为Y轴的数据,图形对比,X轴是默认的其他序列数据等

7 折线图 line graph

  • 折线图,2个数据都作为Y轴的数据,图形对比,X轴是默认的其他序列数据

10 注意图标会骗人的几个点

10.1 X轴,Y轴,是否从0开始?

  • 如果不从0开始,比如从1000开始,就为放大局部效果

10.2 X轴,Y轴,是否足够伸展

  • X轴,Y轴,是否足够伸展,还是压缩,得到图形完全不同
  • 也就是图形可以被压缩,要注意

10.3 只取部分数据的图形

  • 只取部分数据的图形
  • 比如有1-100的数据,只作图现实50-100的数据,图形可能失真!
  • 是局部效果。不是全局效果。

等等

相关推荐
CoderJia程序员甲5 分钟前
GitHub 热榜项目 - 日榜(2026-02-06)
人工智能·ai·大模型·github·ai教程
wukangjupingbb9 分钟前
AI多模态技术在创新药研发中的结合路径、机制及挑战
人工智能
CoderIsArt20 分钟前
三大主流智能体框架解析
人工智能
民乐团扒谱机24 分钟前
【微实验】机器学习之集成学习 GBDT和XGBoost 附 matlab仿真代码 复制即可运行
人工智能·机器学习·matlab·集成学习·xgboost·gbdt·梯度提升树
Coder_Boy_25 分钟前
Deeplearning4j+ Spring Boot 电商用户复购预测案例中相关概念
java·人工智能·spring boot·后端·spring
芷栀夏28 分钟前
CANN ops-math:揭秘异构计算架构下数学算子的低延迟高吞吐优化逻辑
人工智能·深度学习·神经网络·cann
L5434144630 分钟前
告别代码堆砌匠厂架构让你的系统吞吐量翻倍提升
大数据·人工智能·架构·自动化·rpa
孤狼warrior31 分钟前
YOLO目标检测 一千字解析yolo最初的摸样 模型下载,数据集构建及模型训练代码
人工智能·python·深度学习·算法·yolo·目标检测·目标跟踪
凯子坚持 c32 分钟前
构建企业级 AI 工厂:基于 CANN `cann-mlops-suite` 的端到端 MLOps 实战
人工智能
Elwin Wong34 分钟前
浅析OpenClaw:从“贾维斯”梦想看下一代 AI 操作系统的架构演进
人工智能·agent·clawdbot·moltbot·openclaw