【小白学机器学习29】 概率统计与图形 ( hist, bar, pie , box ,scatter ,line)

目录

[1 频度/次数](#1 频度/次数)

[1.1 频度统计表:频度分布表](#1.1 频度统计表:频度分布表)

[1.2 频数分布图=直方图 histogram / hist](#1.2 频数分布图=直方图 histogram / hist)

[1.3 对比,柱状图 bar graph /column chart](#1.3 对比,柱状图 bar graph /column chart)

[2 饼图 pie chart](#2 饼图 pie chart)

2.1饼图特点

[3 南丁格尔玫瑰图](#3 南丁格尔玫瑰图)

[4 茎叶图 stem-and-leaf display](#4 茎叶图 stem-and-leaf display)

[5 箱型图 box plot](#5 箱型图 box plot)

[6 散点图 scatter plot](#6 散点图 scatter plot)

[7 折线图 line graph](#7 折线图 line graph)

[10 注意图标会骗人的几个点](#10 注意图标会骗人的几个点)

[10.1 X轴,Y轴,是否从0开始?](#10.1 X轴,Y轴,是否从0开始?)

[10.2 X轴,Y轴,是否足够伸展](#10.2 X轴,Y轴,是否足够伸展)

[10.3 只取部分数据的图形](#10.3 只取部分数据的图形)

等等


1 频度/次数

  • 频度=次数:事件发生的次数

  • (频度)概率学 和贝叶斯概率学,概率从一开始关注的就是频度。

  • 伯努利大数定律,试验次数足够多,频率会接近单次试验的概率

  • 一定程度上说,频率=概率,也没大毛病

1.1 频度统计表:频度分布表

频度分布表:概率分布的雏形吧

核心信息

  • min
  • max
  • 全距=max-min
  • 组数:分为几组数据
  • 组距:组间的距离长度,有些是天然的,也可以认为定义组距

1.2 频数分布图=直方图 histogram / hist

  • 频度直方图---直方图
  • 直方图上就是表示频度
  • 特点:
  1. 直方图:一定是频度的,频度直方图
  2. 横轴数据是连续的,无间隔
  3. 高度/ Y轴表示的是某数据出现的 次数/数量 count
  4. 每个柱子宽度不一定相同,多数相同
  5. 每个柱子面积是有意义的,面积=次数count*区间差

1.3 对比,柱状图 bar graph /column chart

别名:柱状图,条形图,棒状图等等

  • 特点:
  1. 横轴数据一般是有间隔的,离散的
  2. 高度/ Y轴表示的是某数据的具体数值 value
  3. 柱状图:只是排列数值,和频度无关!
  4. 只看高度数值value, 每个柱子宽度一定相同
  5. 柱子的面积没有意义

2 饼图 pie chart

2.1饼图特点

  • 平面饼图最准确
  • 立体饼图,因为3D有比例看起来不对的风险
  • 注意,饼图要求数据总和=100%,因为多选题的统计不适合用饼图
  • 因为多选得做成饼图加仓概率和会超过100%,因为有重复叠加的多选部分。

3 南丁格尔玫瑰图

根据饼状图来的,南丁格尔玫瑰图

每个饼分位多个分块,每个分块大小不同,每个分块还可以分尖端和后面2部分。

4 茎叶图 stem-and-leaf display

  • 茎叶图,我看起来,更像是表格
  • frequency | stem leaf
  • 频度 | 主体 小数

5 箱型图 box plot

  • 典型例子
  • 四分位图
  • 股价图
  • 四分位数,就是几个1/4分位
  • 四分位数与箱型图
  • 除了4分位数,还有min, max,中位数=2/4分位。1/4为箱子底, 3/4为箱子盖

和股价图有差别

  • 形状像
  • 但是股价图 Min,max不变,但可能发生的时间不定
  • 箱子上可能是开盘价格,收盘价位置不同,阳性和阴线的区别。

6 散点图 scatter plot

  • 和折线图最大的区别
  • 散点图:2个数据,分别作为X轴,Y轴
  • 折线图,2个数据都作为Y轴的数据,图形对比,X轴是默认的其他序列数据等

7 折线图 line graph

  • 折线图,2个数据都作为Y轴的数据,图形对比,X轴是默认的其他序列数据

10 注意图标会骗人的几个点

10.1 X轴,Y轴,是否从0开始?

  • 如果不从0开始,比如从1000开始,就为放大局部效果

10.2 X轴,Y轴,是否足够伸展

  • X轴,Y轴,是否足够伸展,还是压缩,得到图形完全不同
  • 也就是图形可以被压缩,要注意

10.3 只取部分数据的图形

  • 只取部分数据的图形
  • 比如有1-100的数据,只作图现实50-100的数据,图形可能失真!
  • 是局部效果。不是全局效果。

等等

相关推荐
martian6651 分钟前
【人工智能数学基础篇】——深入详解多变量微积分:在机器学习模型中优化损失函数时应用
人工智能·机器学习·微积分·数学基础
人机与认知实验室1 小时前
人、机、环境中各有其神经网络系统
人工智能·深度学习·神经网络·机器学习
黑色叉腰丶大魔王1 小时前
基于 MATLAB 的图像增强技术分享
图像处理·人工智能·计算机视觉
迅易科技4 小时前
借助腾讯云质检平台的新范式,做工业制造企业质检的“AI慧眼”
人工智能·视觉检测·制造
古希腊掌管学习的神5 小时前
[机器学习]XGBoost(3)——确定树的结构
人工智能·机器学习
ZHOU_WUYI5 小时前
4.metagpt中的软件公司智能体 (ProjectManager 角色)
人工智能·metagpt
靴子学长6 小时前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
AI_NEW_COME7 小时前
知识库管理系统可扩展性深度测评
人工智能
海棠AI实验室7 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself7 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot