【小白学机器学习29】 概率统计与图形 ( hist, bar, pie , box ,scatter ,line)

目录

[1 频度/次数](#1 频度/次数)

[1.1 频度统计表:频度分布表](#1.1 频度统计表:频度分布表)

[1.2 频数分布图=直方图 histogram / hist](#1.2 频数分布图=直方图 histogram / hist)

[1.3 对比,柱状图 bar graph /column chart](#1.3 对比,柱状图 bar graph /column chart)

[2 饼图 pie chart](#2 饼图 pie chart)

2.1饼图特点

[3 南丁格尔玫瑰图](#3 南丁格尔玫瑰图)

[4 茎叶图 stem-and-leaf display](#4 茎叶图 stem-and-leaf display)

[5 箱型图 box plot](#5 箱型图 box plot)

[6 散点图 scatter plot](#6 散点图 scatter plot)

[7 折线图 line graph](#7 折线图 line graph)

[10 注意图标会骗人的几个点](#10 注意图标会骗人的几个点)

[10.1 X轴,Y轴,是否从0开始?](#10.1 X轴,Y轴,是否从0开始?)

[10.2 X轴,Y轴,是否足够伸展](#10.2 X轴,Y轴,是否足够伸展)

[10.3 只取部分数据的图形](#10.3 只取部分数据的图形)

等等


1 频度/次数

  • 频度=次数:事件发生的次数

  • (频度)概率学 和贝叶斯概率学,概率从一开始关注的就是频度。

  • 伯努利大数定律,试验次数足够多,频率会接近单次试验的概率

  • 一定程度上说,频率=概率,也没大毛病

1.1 频度统计表:频度分布表

频度分布表:概率分布的雏形吧

核心信息

  • min
  • max
  • 全距=max-min
  • 组数:分为几组数据
  • 组距:组间的距离长度,有些是天然的,也可以认为定义组距

1.2 频数分布图=直方图 histogram / hist

  • 频度直方图---直方图
  • 直方图上就是表示频度
  • 特点:
  1. 直方图:一定是频度的,频度直方图
  2. 横轴数据是连续的,无间隔
  3. 高度/ Y轴表示的是某数据出现的 次数/数量 count
  4. 每个柱子宽度不一定相同,多数相同
  5. 每个柱子面积是有意义的,面积=次数count*区间差

1.3 对比,柱状图 bar graph /column chart

别名:柱状图,条形图,棒状图等等

  • 特点:
  1. 横轴数据一般是有间隔的,离散的
  2. 高度/ Y轴表示的是某数据的具体数值 value
  3. 柱状图:只是排列数值,和频度无关!
  4. 只看高度数值value, 每个柱子宽度一定相同
  5. 柱子的面积没有意义

2 饼图 pie chart

2.1饼图特点

  • 平面饼图最准确
  • 立体饼图,因为3D有比例看起来不对的风险
  • 注意,饼图要求数据总和=100%,因为多选题的统计不适合用饼图
  • 因为多选得做成饼图加仓概率和会超过100%,因为有重复叠加的多选部分。

3 南丁格尔玫瑰图

根据饼状图来的,南丁格尔玫瑰图

每个饼分位多个分块,每个分块大小不同,每个分块还可以分尖端和后面2部分。

4 茎叶图 stem-and-leaf display

  • 茎叶图,我看起来,更像是表格
  • frequency | stem leaf
  • 频度 | 主体 小数

5 箱型图 box plot

  • 典型例子
  • 四分位图
  • 股价图
  • 四分位数,就是几个1/4分位
  • 四分位数与箱型图
  • 除了4分位数,还有min, max,中位数=2/4分位。1/4为箱子底, 3/4为箱子盖

和股价图有差别

  • 形状像
  • 但是股价图 Min,max不变,但可能发生的时间不定
  • 箱子上可能是开盘价格,收盘价位置不同,阳性和阴线的区别。

6 散点图 scatter plot

  • 和折线图最大的区别
  • 散点图:2个数据,分别作为X轴,Y轴
  • 折线图,2个数据都作为Y轴的数据,图形对比,X轴是默认的其他序列数据等

7 折线图 line graph

  • 折线图,2个数据都作为Y轴的数据,图形对比,X轴是默认的其他序列数据

10 注意图标会骗人的几个点

10.1 X轴,Y轴,是否从0开始?

  • 如果不从0开始,比如从1000开始,就为放大局部效果

10.2 X轴,Y轴,是否足够伸展

  • X轴,Y轴,是否足够伸展,还是压缩,得到图形完全不同
  • 也就是图形可以被压缩,要注意

10.3 只取部分数据的图形

  • 只取部分数据的图形
  • 比如有1-100的数据,只作图现实50-100的数据,图形可能失真!
  • 是局部效果。不是全局效果。

等等

相关推荐
AI人工智能+1 分钟前
应用俄文OCR技术,为跨语言交流与数字化管理提供更强大的支持
人工智能·ocr·文字识别
UQI-LIUWJ13 分钟前
李宏毅LLM笔记: AI Agent
人工智能·笔记
百度Geek说25 分钟前
百度阮瑜:百度大模型应用赋能产业智变|2025全球数字经济大会
人工智能
大明哥_29 分钟前
最新 Coze 教程:40+ 条视频涨粉 10W+,利用 Coze 工作流 + 视频组件,一键制作爆款小人国微景动画视频
人工智能·agent
SugarPPig38 分钟前
ReAct (Reason and Act) OR 强化学习(Reinforcement Learning, RL)
人工智能
孤狼warrior42 分钟前
灰色预测模型
人工智能·python·算法·数学建模
AI生存日记44 分钟前
AI 行业早报:微软发布诊断工具,上海聚焦四大应用场景
人工智能·microsoft·机器学习·open ai大模型
求职小程序华东同舟求职1 小时前
龙旗科技社招校招入职测评25年北森笔试测评题库答题攻略
大数据·人工智能·科技
李元豪1 小时前
【行云流水ai笔记】粗粒度控制:推荐CTRL、GeDi 细粒度/多属性控制:推荐TOLE、GPT-4RL
人工智能·笔记
机器学习之心1 小时前
小波增强型KAN网络 + SHAP可解释性分析(Pytorch实现)
人工智能·pytorch·python·kan网络