数据分析、数据挖掘常用的数据清洗方法

数据清洗目的:一是为了解决数据质量问题;二是为了使数据更适合模型分析挖掘。

数据的完整性---例如:人的属性中缺少性别

数据的唯一性---例如:不同来源的数据出现重复

数据的权威性---例如:同一个指标出现多个来源的数据且数值不同

数据的合法性---例如:获取的数据与常识不符,年龄大于200岁

数据的一致性---例如:不同来源的不同指标,实际内涵是一样的,或同一指标内涵不一致

一、数据质量问题

数据清洗的结果是对各种脏数据进行对应方式处理,得到标准的、干净的、连续的数据提供给模型训练。

1、解决数据完整性

数据缺失,填补数据就好了。

(1)通过其他数据信息补全,例如使用身份证号码推算性别、出生日期、年龄等

(2)通过前后数据补全,例如时间序列缺数据,可以使用前后的均值,缺的多了,可以使用平滑等处理

(3)实在补不全,虽然可惜,但是必须要剔除,但是不要删除,也许以后可以用的上

2、解决数据唯一性

去除重复值,保留一条

(1)按主键去重

(2)按规则去重,如:保留第一次出现,或保留最后一次出现的

3、解决数据权威性

用最权威的渠道数据

对不同渠道设定权威级别

4、解决数据合法性

(1)设定强制合法规则,凡是不在此规则范围内的,强制设为最大值,或者判为无效,剔除

(2)离群值人工特殊处理,使用分箱、聚类、回归等方式发现离群值

5、解决数据一致性

建立数据体系

二、数据更适合分析挖掘

1、高维度 --不适合------降维(主成分、随机森林)

2、维度太低--不适合 ---(各种汇总、平均、加总、最大、最小等;各种离散化,聚类、自定义分组)

3、无关信息--减少存储---(删除字段)

4、字段冗余 -- 相关系数很高 --(删除)

5、多指标数值、单位不同 ----(归一化

相关推荐
测试员周周3 分钟前
【AI测试系统】第6篇:需求扔进去,3 分钟出测试用例?AI测试系统的 RAG 知识增强实战
人工智能·python·功能测试·测试工具·测试用例
Godspeed Zhao6 分钟前
具身智能中的传感器技术40.2——事件相机0.2
人工智能·科技·数码相机·机器学习·事件相机
庞轩px7 分钟前
大模型为什么会有“幻觉”——从训练方式到推理局限
人工智能·prompt·rag·大模型幻觉·engineering·训练方式
Empty-Filled9 分钟前
AI Agent 测试入门:从回答问题到执行任务
网络·人工智能
AI玫瑰助手13 分钟前
Python入门:Windows/macOS/Linux系统安装Python教程
windows·python·macos
链上杯子14 分钟前
OpenAI 兼容 API:多厂商模型切换时要懂的端点、密钥与限流常识
人工智能
冬奇Lab14 分钟前
一天一个开源项目(第92篇):OpenHands - 全能型开源 AI 软件工程师
人工智能·开源·agent
weixin_4080996715 分钟前
身份证OCR API怎么选?对比4款主流产品后,我选择了石榴智能(含Python/Java调用示例)
人工智能·ocr·文字识别·api接口·身份证ocr·石榴智能·ocr api
AI创界者16 分钟前
FaceFusionFree 4.6 加速版实测:深度解决黑边与源识别痛点
人工智能
qcx2317 分钟前
【AI Agent通识九课】05 · AI 的红绿灯 — 长任务怎么管
人工智能·ai·agent·warp