机器学习-探索性数据分析

美国加州房屋分析示例

导入要用的包

读取数据

读取的表有几行几列

展示前几行数据

找出那些缺失数据量小于总数据量的30%的列

将那些缺失数据量大于总数据量30%的列删掉,inplace=True表示直接对数据进行修改(执行完一次后表里就没有那些删除的列了)

展示各个数据列的数据类型

将与钱相关的列加入currency数组,之后分别对这些列用正则表达式将"$"",""-"号全部删掉,下一个是若是空字符串,直接转成numpy的not a number,之后将这些列的数据都转成float类型的数据

修改占地面积的数据类型

看各列数据的水平

可以发现有多个噪音(如最大总空间9999,最大卫生间数256等)

拿出房间面积小于10或大于10000的列(不正常的),第二行代码把除不正常数据之外的其他数据留下,再看有多少不正常的数据

观测价格分布

计数各个房子类型有多少个,这里只显示前20个

可以发现"SingleFamily"和"Single Family"未计数到一起,这也是噪音

将四种类型的房子拿出来,观察各个类型的房价分布

看各个类型房子的每平米的价格的分布,色块内的横线表示均值,色块上界和下界分别表示75%和25%的分位数

看不同邮政编码的房子的单位面积的均价分布

热力图观察各类变量之间的相关性

相关推荐
IT毕设梦工厂43 分钟前
大数据毕业设计选题推荐-基于大数据的人口普查收入数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
计算机源码社1 小时前
基于Hadoop的车辆二氧化碳排放量分析与可视化系统|基于Spark的车辆排放量实时监控与预测系统|基于数据挖掘的汽车排放源识别与减排策略系统
大数据·hadoop·机器学习·数据挖掘·spark·毕业设计·课程设计
罗小罗同学4 小时前
覆盖9个癌种,基于11671张病理切片训练的模型登上Nature子刊,可精准“读出”分子标志物,突破传统分类局限
人工智能·深度学习·分类·数据挖掘·病理组学·医学人工智能·医工交叉
nju_spy1 天前
2023 美赛C Predicting Wordle Results(上)
人工智能·机器学习·数学建模·数据挖掘·arima·时间序列预测·相关性分析
MFine1 天前
Rhythmix(流式数据规则表达式),一行就够了!
java·物联网·数据分析
计算机编程小央姐1 天前
大数据工程师认证项目:汽车之家数据分析系统,Hadoop分布式存储+Spark计算引擎
大数据·hadoop·分布式·数据分析·spark·汽车·课程设计
电商API_180079052471 天前
电商数据分析之自动获取数据的技术手段分享
大数据·数据库·数据挖掘·数据分析
计算机毕设残哥2 天前
基于Hadoop+Spark的人体体能数据分析与可视化系统开源实现
大数据·hadoop·python·scrapy·数据分析·spark·dash
AI悦创|编程1v12 天前
00-1-正则表达式学习心得:从入门到上瘾,再到克制
数据仓库·正则表达式·数据挖掘·ai悦创编程一对一教学·python一对一辅导·python一对一教学
chatexcel2 天前
ChatExcel将发布数据分析Mini AI 工作站
大数据·人工智能·数据分析