机器学习-探索性数据分析

美国加州房屋分析示例

导入要用的包

读取数据

读取的表有几行几列

展示前几行数据

找出那些缺失数据量小于总数据量的30%的列

将那些缺失数据量大于总数据量30%的列删掉,inplace=True表示直接对数据进行修改(执行完一次后表里就没有那些删除的列了)

展示各个数据列的数据类型

将与钱相关的列加入currency数组,之后分别对这些列用正则表达式将"$"",""-"号全部删掉,下一个是若是空字符串,直接转成numpy的not a number,之后将这些列的数据都转成float类型的数据

修改占地面积的数据类型

看各列数据的水平

可以发现有多个噪音(如最大总空间9999,最大卫生间数256等)

拿出房间面积小于10或大于10000的列(不正常的),第二行代码把除不正常数据之外的其他数据留下,再看有多少不正常的数据

观测价格分布

计数各个房子类型有多少个,这里只显示前20个

可以发现"SingleFamily"和"Single Family"未计数到一起,这也是噪音

将四种类型的房子拿出来,观察各个类型的房价分布

看各个类型房子的每平米的价格的分布,色块内的横线表示均值,色块上界和下界分别表示75%和25%的分位数

看不同邮政编码的房子的单位面积的均价分布

热力图观察各类变量之间的相关性

相关推荐
陈天伟教授3 小时前
人工智能训练师认证教程(3)Pandas数据世界的军刀
人工智能·数据分析·pandas
databook5 小时前
掌握相关性分析:读懂数据间的“悄悄话”
python·数据挖掘·数据分析
企业智能研究5 小时前
数据分析Agent白皮书:揭秘Data x AI的底层逻辑与未来关键
大数据·人工智能·数据分析
十六年开源服务商7 小时前
怎样做好WordPress网站数据分析与运维服务
运维·数据挖掘·数据分析
沃达德软件7 小时前
大数据治安防控中心
大数据·人工智能·信息可视化·数据挖掘·数据分析
anghost1509 小时前
基于 STM32 的湖泊水位报警系统设计
stm32·嵌入式硬件·数据挖掘
Lun3866buzha10 小时前
大型铸件表面缺陷检测与分类_YOLO11-C2BRA应用实践
人工智能·分类·数据挖掘
李慕婉学姐11 小时前
【开题答辩过程】以《基于python的气象灾害数据分析与可视化系统》为例,不知道这个选题怎么做的,不知道这个选题怎么开题答辩的可以进来看看
开发语言·python·数据分析
Wuhan87827211m12 小时前
微生物细胞检测与识别 大肠杆菌E.coli和其他细菌细胞自动检测与分类 RetinaNet+RegNet模型实现
人工智能·分类·数据挖掘
qq_124987075312 小时前
基于spark的新闻文本分类系统(源码+论文+部署+安装)
大数据·分类·数据挖掘·spark