数据清洗操作及众所周知【数据分析】

各位大佬好 ,这里是阿川的博客 , 祝您变得更强

个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力

阿川水平有限,如有错误,欢迎大佬指正

前面的 博客
数据分析---技术栈和开发环境搭建
数据分析---Numpy和Pandas库基本用法及实例

Python初阶
Python--语言基础与由来介绍
Python--注意事项
Python--语句与众所周知
数据清洗前 必看
数据分析---三前奏:获取/ 读取/ 评估数据

这是目录

  • 清洗乱数据
    • 基本操作
    • 清洗
  • 清洗脏数据
  • 元素类型转换
  • 保存数据

清洗乱数据

针对结构类乱数据

不符合以下特征

基本操作

引入

  • 基本上操作DataFrame的方法 ,一般是不改变 原始的DataFrame
  • Series和DataFrame 几乎是不可分割 Series组成了 DataFrame,数据分析中,有大量针对 DataFrame和Series进行的操作

须知道的:

  • 清洗索引和列名

    • set_index 重设索引

    • reset_index 重置索引

    • sort_index 对索引排序

    • rename index 重命名索引

    • rename columns 重命名列名

      • inplace = True 该参数表示在原先DataFrame基础上永久替换
    • drop 删除列或者索引

      • axis=0 删除行
      • axis=1 删除列
  • str类方法

清洗

  • 列和行相反
    • 转置 .T
  • 对列进行拆分
    • split 可以指定分隔符 进行拆分
      • str.split元素进行拆分
        • 参数 expand=True 表示将分割后结果 单独用Series表示
  • 不同列合并成一列
    • str.cat
    • sep参数 以什么分隔符合并
  • 宽数据转化成长数据
    • melt
    • id_vars 表示不动原先的列
  • 行进行拆分
    • 拆解更多的行
      • explode列中的元素 拆分成更多行
        • 适用列表类型
      • 若列中元素字符串类型 ,则用eval 转化成列表类型

清洗脏数据

内容上(即脏数据)进行清洗

  • 丢失数据
    loc 对某个缺失值处理

fillna 对缺失值处理

  • dropna 自动找行缺失值且自动删除
  • 重复数据
    • drop_duplicates 删除 重复第2个数据
      • subset 参数 指定列
      • keep 进行指定保留
  • 错误/不一致数据
    • replace 进行替换

元素类型转换

不同的DataFrame元素类型 可能不同

  • astype 更改类型
  • 数据有两种元素类型
    • 分类数据
    • 例如 奖牌 金银铜三 可能
      • category 分类数据类型 后面虚拟变量铺垫
        • 由于 category非pandas库 中的类型,所以说要更改类型为category,需要字符串
  • 数值数据
    • 例如 0~1区间有很多数值

保存数据

  • to_csv 保存格式为csv
    • index=False 参数 表示自动忽略索引

好的,到此为止啦,祝您变得更强

道阻且长 行则将至

个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力

相关推荐
计算机毕设残哥15 分钟前
紧跟大数据技术趋势:食物口味分析系统Spark SQL+HDFS最新架构实现
大数据·hadoop·python·sql·hdfs·架构·spark
MediaTea31 分钟前
Python 编辑器:Visual Studio Code
开发语言·ide·vscode·python·编辑器
深蓝电商API32 分钟前
HTML 解析入门:用 BeautifulSoup 轻松提取网页数据
前端·爬虫·python·beautifulsoup
前路不黑暗@1 小时前
Java:代码块
java·开发语言·经验分享·笔记·python·学习·学习方法
序属秋秋秋1 小时前
《C++进阶之C++11》【可变参数模板 + emplace接口 + 新的类功能】
c++·笔记·学习·c++11·可变参数模板·emplace系列接口
CDA数据分析师干货分享1 小时前
【CDA干货】Excel 的 16类常用函数之计算统计类函数
大数据·数据挖掘·数据分析·excel·cda证书·cda数据分析师
秃头菜狗1 小时前
十、Hadoop 核心目录功能说明表
大数据·hadoop·分布式
Dovis(誓平步青云)1 小时前
《Linux 构建工具核心:make 命令、进度条、Gitee》
linux·运维·学习
程序猿小D2 小时前
【完整源码+数据集+部署教程】【智慧工地监控】建筑工地设备分割系统: yolov8-seg-efficientViT
python·yolo·计算机视觉·数据集·yolov8·yolo11·建筑工地设备分割系统
努力也学不会java2 小时前
【Java并发】揭秘Lock体系 -- 深入理解ReentrantLock
java·开发语言·人工智能·python·机器学习·reentrantlock