机器学习-探索性数据分析

美国加州房屋分析示例

导入要用的包

读取数据

读取的表有几行几列

展示前几行数据

找出那些缺失数据量小于总数据量的30%的列

将那些缺失数据量大于总数据量30%的列删掉,inplace=True表示直接对数据进行修改(执行完一次后表里就没有那些删除的列了)

展示各个数据列的数据类型

将与钱相关的列加入currency数组,之后分别对这些列用正则表达式将"$"",""-"号全部删掉,下一个是若是空字符串,直接转成numpy的not a number,之后将这些列的数据都转成float类型的数据

修改占地面积的数据类型

看各列数据的水平

可以发现有多个噪音(如最大总空间9999,最大卫生间数256等)

拿出房间面积小于10或大于10000的列(不正常的),第二行代码把除不正常数据之外的其他数据留下,再看有多少不正常的数据

观测价格分布

计数各个房子类型有多少个,这里只显示前20个

可以发现"SingleFamily"和"Single Family"未计数到一起,这也是噪音

将四种类型的房子拿出来,观察各个类型的房价分布

看各个类型房子的每平米的价格的分布,色块内的横线表示均值,色块上界和下界分别表示75%和25%的分位数

看不同邮政编码的房子的单位面积的均价分布

热力图观察各类变量之间的相关性

相关推荐
阿里云大数据AI技术19 小时前
基于 Hologres 构建智能驾驶图像高性能分析系统
数据分析
咚咚王者1 天前
人工智能之数据分析 numpy:第五章 索引与切片
人工智能·数据分析·numpy
java1234_小锋1 天前
[免费]基于python的Flask+Vue医疗疾病数据分析大屏可视化系统(机器学习随机森林算法+requests)【论文+源码+SQL脚本】
python·机器学习·数据分析·flask·疾病数据分析
谅望者1 天前
数据分析笔记10:数据容器
笔记·数据挖掘·数据分析
谅望者1 天前
数据分析笔记05:区间估计
笔记·数据挖掘·数据分析
Dev7z1 天前
基于图像处理与数据分析的智能答题卡识别与阅卷系统设计与实现
图像处理·人工智能·数据分析
权泽谦1 天前
Java 在机器学习中的应用:基于 DL4J 与 Weka 的完整实战案例
java·机器学习·数据挖掘
权泽谦1 天前
脑肿瘤分割与分类的人工智能研究报告
人工智能·分类·数据挖掘
xuehaikj1 天前
【甲状腺病理AI】基于YOLO11-SOEP的甲状腺乳头状癌病理特征识别与分类系统研究
人工智能·分类·数据挖掘
谅望者2 天前
数据分析笔记06:假设检验
笔记·数据挖掘·数据分析