数据挖掘导论——第二章:数据

谈数据之前,我们要先知道数据有哪几种类型。数据的维度,数据的频率、位置、分布(方差或标准差衡量)等。

接着就是数据的质量,数据挖掘着眼于要么是对数据质量问题的检测和纠正,要么是使用可以容忍低质量数据的算法。第一步对数据质量问题的检测和纠正,通常称作数据清理。

涉及测量误差的问题:噪声、伪像、偏置、精度和准确度。

同时涉及测量误差和数据收集的问题:离群点、遗漏值、重复数据。

如何处理缺失值?删除/估计缺失值/分析过程中忽略缺失值/用所有可能值(按概率加权)替换

非标准化数据:不同特征的值域差别过大。这会带来什么问题?

1,在计算不同样本之间的距离时,假如不标准化,可能造成对特征的重要程度估计的影响

2,忽略了真正的偏差

两类标准化方式:

1,Max-Min标准化。容易受极端值影响。

2,Z-score标准化。使用前提:高斯分布。

标准化是同类数据之间进行的。

值得一提的是基因/蛋白表达矩阵(行为样本,列为基因),需要去除batch的时候,是沿着列标准化,要对基因表达正则化则沿着行(有些基因天生表达差异大)

对于分类数据或非量化数据,可以用one-hot encoding。

总之,数据清洗分为以下几步:数据去噪,清除异常值,处理缺失值,删除重复,分类数据编码,数据标准化。先后顺序可能会影响最后结果。

相关推荐
蹦蹦跳跳真可爱5894 分钟前
Python----计算机视觉处理(Opencv:自适应二值化,取均值,加权求和(高斯定理))
人工智能·python·opencv·计算机视觉
轻松Ai享生活17 分钟前
从代码粘贴侠到优雅的Coder? - 3个大神教我的脱坑不传之秘
人工智能·面试·程序员
机器之心28 分钟前
GPT4规模大模型落地,Meta提ExFM框架:万亿参数基础大模型的工业级落地成为可能
人工智能·openai
Scabbards_30 分钟前
理解知识如何在大型Vision-Language Models 中演化
人工智能·语言模型·自然语言处理
机器之心33 分钟前
OpenAI突然发布智能体API!支持网络和文件搜索以及computer use
人工智能·openai
noedn34 分钟前
测试大语言模型在嵌入式设备部署的可能性-ollama本地部署测试
人工智能·语言模型·自然语言处理
PawSQL1 小时前
推理模型对SQL理解能力的评测:DeepSeek r1、GPT-4o、Kimi k1.5和Claude 3.7 Sonnet
java·数据库·人工智能·sql·sql优化·pawsql·deepseek
蜂耘1 小时前
智元GO-1大模型,开启具身智能新纪元
人工智能·机器人·业界资讯
量子纠缠BUG1 小时前
深度解读:OpenAI发布GPT-5的技术突破与商业影响
人工智能·gpt
枫子有风1 小时前
深度学习实验
人工智能·深度学习