数据挖掘导论——第二章:数据

谈数据之前,我们要先知道数据有哪几种类型。数据的维度,数据的频率、位置、分布(方差或标准差衡量)等。

接着就是数据的质量,数据挖掘着眼于要么是对数据质量问题的检测和纠正,要么是使用可以容忍低质量数据的算法。第一步对数据质量问题的检测和纠正,通常称作数据清理。

涉及测量误差的问题:噪声、伪像、偏置、精度和准确度。

同时涉及测量误差和数据收集的问题:离群点、遗漏值、重复数据。

如何处理缺失值?删除/估计缺失值/分析过程中忽略缺失值/用所有可能值(按概率加权)替换

非标准化数据:不同特征的值域差别过大。这会带来什么问题?

1,在计算不同样本之间的距离时,假如不标准化,可能造成对特征的重要程度估计的影响

2,忽略了真正的偏差

两类标准化方式:

1,Max-Min标准化。容易受极端值影响。

2,Z-score标准化。使用前提:高斯分布。

标准化是同类数据之间进行的。

值得一提的是基因/蛋白表达矩阵(行为样本,列为基因),需要去除batch的时候,是沿着列标准化,要对基因表达正则化则沿着行(有些基因天生表达差异大)

对于分类数据或非量化数据,可以用one-hot encoding。

总之,数据清洗分为以下几步:数据去噪,清除异常值,处理缺失值,删除重复,分类数据编码,数据标准化。先后顺序可能会影响最后结果。

相关推荐
等风来不如迎风去2 分钟前
【win11】最佳性能:fix 没有壁纸,一直黑屏
网络·人工智能
AI科技星2 分钟前
全域数学·72分册:场计算机卷【乖乖数学】
算法·机器学习·数学建模·数据挖掘·量子计算
云云只是个程序马喽5 分钟前
AI漫剧创作系统开发定制指南
人工智能·小程序·php
Elastic 中国社区官方博客24 分钟前
Elastic 和 Cursor 合作 加速 上下文工程 与 coding agents
大数据·人工智能·elasticsearch·搜索引擎·全文检索
迦南的迦 亚索的索25 分钟前
AI_12_Dify_平台介绍
人工智能
HIT_Weston29 分钟前
68、【Agent】【OpenCode】用户对话提示词(任务执行流程)
人工智能·agent·opencode
ting94520001 小时前
Micro1 超详细深度解析:架构原理、部署实战、性能评测与落地应用全指南
人工智能·架构
冰西瓜6001 小时前
深度学习的数学原理(三十三)—— Transformer编码器完整实现
人工智能·深度学习·transformer
科研前沿1 小时前
镜像孪生VS视频孪生核心技术产品核心优势
大数据·人工智能·算法·重构·空间计算
DreamBoy@1 小时前
Mnemra:一键剪藏,让灵感真正可复用(一键从Ai对话页面到飞书云文档,浏览器插件方便好用)
人工智能