机器学习-探索性数据分析

美国加州房屋分析示例

导入要用的包

读取数据

读取的表有几行几列

展示前几行数据

找出那些缺失数据量小于总数据量的30%的列

将那些缺失数据量大于总数据量30%的列删掉,inplace=True表示直接对数据进行修改(执行完一次后表里就没有那些删除的列了)

展示各个数据列的数据类型

将与钱相关的列加入currency数组,之后分别对这些列用正则表达式将"$"",""-"号全部删掉,下一个是若是空字符串,直接转成numpy的not a number,之后将这些列的数据都转成float类型的数据

修改占地面积的数据类型

看各列数据的水平

可以发现有多个噪音(如最大总空间9999,最大卫生间数256等)

拿出房间面积小于10或大于10000的列(不正常的),第二行代码把除不正常数据之外的其他数据留下,再看有多少不正常的数据

观测价格分布

计数各个房子类型有多少个,这里只显示前20个

可以发现"SingleFamily"和"Single Family"未计数到一起,这也是噪音

将四种类型的房子拿出来,观察各个类型的房价分布

看各个类型房子的每平米的价格的分布,色块内的横线表示均值,色块上界和下界分别表示75%和25%的分位数

看不同邮政编码的房子的单位面积的均价分布

热力图观察各类变量之间的相关性

相关推荐
SelectDB20 小时前
基于 SelectDB 实现 Hive 数据湖统一分析:洋钱罐全球一体化探索分析平台升级实践
大数据·数据库·数据分析
一只小小的土拨鼠21 小时前
【国奖冲刺/全网首发】2026年第十四届“泰迪杯”A、B、C题完整解题思路、代码与高质量论文大合集
c语言·矩阵·数据挖掘
全栈开发圈1 天前
新书速览|MATLAB数据分析与可视化实践:视频教学版
开发语言·matlab·数据分析
Yu_Lijing1 天前
Python数据分析和数据处理库Pandas(Series篇)
人工智能·python·数据分析·pandas
CS创新实验室1 天前
CS实验室行业报告:数据类岗位就业分析报告
大数据·数据分析·数据科学
橙露1 天前
面板数据可视化:Streamlit 快速搭建数据分析看板
信息可视化·数据挖掘·数据分析
JZC_xiaozhong1 天前
2026年制造企业数据治理:破解多系统数据孤岛,实现“一数一源”
大数据·数据分析·制造·数据一致性·主数据管理·数据孤岛解决方案·数据集成与应用集成
高洁011 天前
工业AI部署:模型量化与边缘设备部署实战
人工智能·深度学习·机器学习·数据挖掘·transformer
Omics Pro1 天前
斯坦福:强化学习生物约束型虚拟细胞建模
人工智能·深度学习·算法·机器学习·计算机视觉·数据挖掘·数据分析
阿坤带你走近大数据1 天前
什么是数据挖掘
人工智能·数据挖掘