利用python两种方法教你一行代码实现探索性数据分析报告


💮两种方法教你一行代码实现探索性数据分析报告

==探索性数据分析(EDA)== 是使用可视化方法总结和分析数据集主要特征的过程。EDA是数据科学家要做的第一部分,如果我们不懂得如何进行EDA,那么无法对数据进行进一步的建模。上一篇文章我以泰坦尼克号数据为例,介绍了如何使用python详细的进行探索性数据分析,但有时这是很耗费时间的,现在,我介绍两种方法实现==一行代码生成探索性数据分析报告==。分别使用以下两个包,如果没有安装的小伙伴先去安装一下。

  • Sweetviz
  • pandas_profiling

我们照样使用==泰坦尼克号数据集==进行分析,需要相关数据集的看我这篇文章:blog.csdn.net/weixin_4505...

  • 先导入数据
python 复制代码
import pandas as pd
from pandas_profiling import ProfileReport
df = pd.read_csv("train.csv")
df.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

| | PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked |
| 0 | 1 | 0 | 3 | Braund, Mr. Owen Harris | male | 22.0 | 1 | 0 | A/5 21171 | 7.2500 | NaN | S |
| 1 | 2 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Thayer) | female | 38.0 | 1 | 0 | PC 17599 | 71.2833 | C85 | C |
| 2 | 3 | 1 | 3 | Heikkinen, Miss. Laina | female | 26.0 | 0 | 0 | STON/O2. 3101282 | 7.9250 | NaN | S |
| 3 | 4 | 1 | 1 | Futrelle, Mrs. Jacques Heath (Lily May Peel) | female | 35.0 | 1 | 0 | 113803 | 53.1000 | C123 | S |

4 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 8.0500 NaN S
python 复制代码
df.shape
scss 复制代码
(891, 12)

🏵️1. Sweetviz

==Sweetviz== 一个python开源库,通过基本的可视化来分析数据,并生成一个html文件。这个库的主要优点是我们可以 ==比较数据集==。 首先我们创建一个名为sweet_Analysized_report的文件,显示探索性数据分析结果。在本报告中,我们可以很容易地找到不同变量的特征,如:数量、缺失值、不同值、最大值、最小值、平均值等。具体代码和结果如下图所示

python 复制代码
import sweetviz as sv
sweet_report = sv.analyze(df)
sweet_report.show_html('sweet_report.html')
  • ==相关系数热力图==

  • ==Age分布情况==

  • ==sibsip分布情况==

==在这个Html文件中,我们可以看到其他每个变量的分布情况,大家可以自行验证测试。==

🌹2. 比较探索性数据分析

Sweetviz还支持比较不同数据集的探索性数据分析,首先,我们将数据集分成两部分,然后进行比较,然后保存此比较报告。数据集的两部分显示两种不同的颜色橙色蓝色。具体代码和结果见下文:

python 复制代码
df1 = sv.compare(df[445:], df[:445])
df1.show_html('Compare.html')

这里我把数据分为两部分,分别有445和446个数据。

  • ==survived分布情况==
  • ==Pclass分布情况==

  • ==sex分布情况==

🥀3. pandas_profiling

==pandas_profiling==基于pandasDataFrame数据类型,可以简单快速地进行探索性数据分析。和sweetviz类似,pandas_profiling可以返回一个html文件,包含如下内容

  • 数据整体概要:数据类型,唯一值,缺失值等
  • 各个变量的描述性统计分析
  • 各个变量的分布情况,直方图和条形图
  • 变量间的相关系数热力图等

具体代码和结果如下:

python 复制代码
design_report = ProfileReport(df)
design_report.to_file(output_file='report.html')
  • ==变量分布情况==

  • ==相关系数热力图==

  • ==变量关系图==

  • ==数据总体概要==

✨总结

用上述两种方法得到的探索性数据分析是非常简易的。如果要想详细了解数据的话,建议一步一步根据自己的需求进行分析。具体可以看下面这篇推荐的文章,不过通过上述两种方法可以让我们大致初步的了解一下数据情况,并且可以节约很多时间(毕竟探索性数据分析真的很花费时间)

相关推荐
蛋仔聊测试28 分钟前
Playwright 中route 方法模拟测试数据(Mocking)详解
前端·python·测试
今天没有盐40 分钟前
Pandas缺失值处理完全指南:从基础操作到高级技巧
python·pycharm·编程语言
程序员小远1 小时前
快速定位bug,编写测试用例
自动化测试·软件测试·python·测试工具·职场和发展·测试用例·bug
B站_计算机毕业设计之家1 小时前
大数据YOLOv8无人机目标检测跟踪识别系统 深度学习 PySide界面设计 大数据 ✅
大数据·python·深度学习·信息可视化·数据挖掘·数据分析·flask
老歌老听老掉牙1 小时前
解决 PyQt5 中 sipPyTypeDict() 弃用警告的完整指南
python·qt
武陵悭臾1 小时前
Python应用开发学习: Pygame 中实现数字水平靠右对齐和垂直靠底对齐
python·学习·程序人生·游戏·个人开发·学习方法·pygame
兜有米啦1 小时前
python练习题3
开发语言·python
你才是向阳花2 小时前
如何用Python实现飞机大战小游戏
开发语言·python·pygame
草莓熊Lotso2 小时前
C++ 方向 Web 自动化测试实战:以博客系统为例,从用例到报告全流程解析
前端·网络·c++·人工智能·后端·python·功能测试
程序员爱钓鱼3 小时前
Python编程实战——Python实用工具与库:Pandas数据处理
后端·python·ipython