数据分析、数据挖掘常用的数据清洗方法

数据清洗目的:一是为了解决数据质量问题;二是为了使数据更适合模型分析挖掘。

数据的完整性---例如:人的属性中缺少性别

数据的唯一性---例如:不同来源的数据出现重复

数据的权威性---例如:同一个指标出现多个来源的数据且数值不同

数据的合法性---例如:获取的数据与常识不符,年龄大于200岁

数据的一致性---例如:不同来源的不同指标,实际内涵是一样的,或同一指标内涵不一致

一、数据质量问题

数据清洗的结果是对各种脏数据进行对应方式处理,得到标准的、干净的、连续的数据提供给模型训练。

1、解决数据完整性

数据缺失,填补数据就好了。

(1)通过其他数据信息补全,例如使用身份证号码推算性别、出生日期、年龄等

(2)通过前后数据补全,例如时间序列缺数据,可以使用前后的均值,缺的多了,可以使用平滑等处理

(3)实在补不全,虽然可惜,但是必须要剔除,但是不要删除,也许以后可以用的上

2、解决数据唯一性

去除重复值,保留一条

(1)按主键去重

(2)按规则去重,如:保留第一次出现,或保留最后一次出现的

3、解决数据权威性

用最权威的渠道数据

对不同渠道设定权威级别

4、解决数据合法性

(1)设定强制合法规则,凡是不在此规则范围内的,强制设为最大值,或者判为无效,剔除

(2)离群值人工特殊处理,使用分箱、聚类、回归等方式发现离群值

5、解决数据一致性

建立数据体系

二、数据更适合分析挖掘

1、高维度 --不适合------降维(主成分、随机森林)

2、维度太低--不适合 ---(各种汇总、平均、加总、最大、最小等;各种离散化,聚类、自定义分组)

3、无关信息--减少存储---(删除字段)

4、字段冗余 -- 相关系数很高 --(删除)

5、多指标数值、单位不同 ----(归一化

相关推荐
大话数据分析13 分钟前
有哪些好用的AI工具或者工具集网站?
人工智能
这里有鱼汤6 分钟前
想成为下一个吉姆·西蒙斯,这十种经典K线形态你一定要记住
后端·python
MerlinTheMagic12 分钟前
uv管理spaCy语言模型
人工智能·语言模型·uv
Scoful14 分钟前
快速用 uv 模拟发布一个 Python 依赖包到 TestPyPI 上,以及常用命令
开发语言·python·uv
xyl86617 分钟前
Python 包管理器 uv 介绍
python·uv
databook19 分钟前
规则学习:让机器学习像人类一样思考的可解释之路
python·机器学习·scikit-learn
cylat43 分钟前
Day23 pipeline管道
人工智能·python·算法·机器学习
蓝桉~MLGT1 小时前
java高级——高阶函数、如何定义一个函数式接口类似stream流的filter
java·开发语言·python
小天才才1 小时前
算法岗面试经验分享-大模型篇
人工智能·语言模型·自然语言处理
IOT.FIVE.NO.12 小时前
Conda安装pytorch和cuda出现问题的解决记录
人工智能·pytorch·python