Machine leading 中Missing Values可视化--missingo

快速可视化数据集中缺失值的好工具是专门的库-missuno。我们将在下面演示它。

1安装

py 复制代码
pip install missingno

2查看缺失值

py 复制代码
for col in train_events.columns:
    percent_nan = train_events[col].isnull().mean() * 100
    msg = f"column: {col:>10}\t Percent of NaN value: {percent_nan:.2f}%"
    print(f"\n---> {msg}")
    ```


---> column:  series_id	 Percent of NaN value: 0.00%

---> column:      night	 Percent of NaN value: 0.00%

---> column:      event	 Percent of NaN value: 0.00%

---> column:       step	 Percent of NaN value: 33.93%

---> column:  timestamp	 Percent of NaN value: 33.93%

---> column:       year	 Percent of NaN value: 33.93%

---> column:      month	 Percent of NaN value: 33.93%

---> column:        day	 Percent of NaN value: 33.93%

---> column:       hour	 Percent of NaN value: 33.93%
ini 复制代码
# 3使用方法
1. bar方法
```py
import missingno as msno
msno.bar(train, color=(0.4,0.4,0.6))
  1. matrix()
py 复制代码
msno.matrix(train_events, color=(0.3,0.3,0.5))

根据图表中白线的数量,我们可以推断数据集中的缺失值情况。观察到白线越多,说明数据集中的缺失值越多。图表左侧的纵坐标显示了样本数量的起始和结束值,即数据集包含了14508条数据。右下角的数字3表示数据集中有3列没有缺失值,而右侧的数字9表示数据集总共有9列数据。

  1. heatmap()
  • 缺失变量的相关关系
  • 相关热missingno图衡量无效相关性:一个变量的存在或不存在对另一个变量的存在的影响程度:
py 复制代码
msno.heatmap(train_events)
  1. dendrogram():
py 复制代码
msno.train_events(train_events)

树状图通过一种分层聚类算法(由Scipy提供)可以更全面地揭示变量之间的关联关系,进一步展示出比相关热图中可见的成对趋势更深入的趋势。

在树状图的构建过程中,变量根据它们之间的无效相关性(以二进制距离衡量)被彼此分类。在每一步的分割中,选择能够最小化剩余簇之间距离的组合方式。当变量集合越单调时,它们的总距离越接近于零,同时它们的平均距离(y轴)也越接近于零。

官方文档

相关推荐
罗小罗同学1 小时前
医工交叉入门书籍分享:Transformer模型在机器学习领域的应用|个人观点·24-11-22
深度学习·机器学习·transformer
孤独且没人爱的纸鹤1 小时前
【深度学习】:从人工神经网络的基础原理到循环神经网络的先进技术,跨越智能算法的关键发展阶段及其未来趋势,探索技术进步与应用挑战
人工智能·python·深度学习·机器学习·ai
羊小猪~~1 小时前
tensorflow案例7--数据增强与测试集, 训练集, 验证集的构建
人工智能·python·深度学习·机器学习·cnn·tensorflow·neo4j
不去幼儿园3 小时前
【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参
人工智能·python·算法·机器学习·强化学习
无脑敲代码,bug漫天飞4 小时前
COR 损失函数
人工智能·机器学习
HPC_fac130520678165 小时前
以科学计算为切入点:剖析英伟达服务器过热难题
服务器·人工智能·深度学习·机器学习·计算机视觉·数据挖掘·gpu算力
wxl78122713 小时前
如何使用本地大模型做数据分析
python·数据挖掘·数据分析·代码解释器
老艾的AI世界13 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
DK2215113 小时前
机器学习系列----关联分析
人工智能·机器学习
小尤笔记14 小时前
利用Python编写简单登录系统
开发语言·python·数据分析·python基础