机器学习-探索性数据分析

美国加州房屋分析示例

导入要用的包

读取数据

读取的表有几行几列

展示前几行数据

找出那些缺失数据量小于总数据量的30%的列

将那些缺失数据量大于总数据量30%的列删掉,inplace=True表示直接对数据进行修改(执行完一次后表里就没有那些删除的列了)

展示各个数据列的数据类型

将与钱相关的列加入currency数组,之后分别对这些列用正则表达式将"$"",""-"号全部删掉,下一个是若是空字符串,直接转成numpy的not a number,之后将这些列的数据都转成float类型的数据

修改占地面积的数据类型

看各列数据的水平

可以发现有多个噪音(如最大总空间9999,最大卫生间数256等)

拿出房间面积小于10或大于10000的列(不正常的),第二行代码把除不正常数据之外的其他数据留下,再看有多少不正常的数据

观测价格分布

计数各个房子类型有多少个,这里只显示前20个

可以发现"SingleFamily"和"Single Family"未计数到一起,这也是噪音

将四种类型的房子拿出来,观察各个类型的房价分布

看各个类型房子的每平米的价格的分布,色块内的横线表示均值,色块上界和下界分别表示75%和25%的分位数

看不同邮政编码的房子的单位面积的均价分布

热力图观察各类变量之间的相关性

相关推荐
Liue612312311 天前
YOLO11-C3k2-MBRConv3改进提升金属表面缺陷检测与分类性能_焊接裂纹气孔飞溅物焊接线识别
人工智能·分类·数据挖掘
Lun3866buzha1 天前
农业害虫检测_YOLO11-C3k2-EMSC模型实现与分类识别_1
人工智能·分类·数据挖掘
雪兽软件1 天前
了解大数据分析实施问题和解决方案
数据挖掘·大数据分析
2501_943695332 天前
高职大数据技术专业,怎么参与开源数据分析项目积累经验?
大数据·数据分析·开源
实时数据2 天前
一手资料结合大数据分析挖掘海量信息中的价值了解用户真实需求 实现精准营销
数据挖掘·数据分析
龙腾AI白云2 天前
面向开放世界的具身智能泛化能力探索
数据挖掘
码界筑梦坊2 天前
330-基于Python的社交媒体舆情监控系统
python·mysql·信息可视化·数据分析·django·毕业设计·echarts
invicinble2 天前
对于对产品的理解
大数据·信息可视化·数据分析
城数派2 天前
2026年1月全国各省市路网数据(Shp)
数据分析
B站_计算机毕业设计之家2 天前
豆瓣电影数据可视化分析系统 | Python Flask框架 requests Echarts 大数据 人工智能 毕业设计源码(建议收藏)✅
大数据·python·机器学习·数据挖掘·flask·毕业设计·echarts