数据挖掘导论——第二章:数据

谈数据之前,我们要先知道数据有哪几种类型。数据的维度,数据的频率、位置、分布(方差或标准差衡量)等。

接着就是数据的质量,数据挖掘着眼于要么是对数据质量问题的检测和纠正,要么是使用可以容忍低质量数据的算法。第一步对数据质量问题的检测和纠正,通常称作数据清理。

涉及测量误差的问题:噪声、伪像、偏置、精度和准确度。

同时涉及测量误差和数据收集的问题:离群点、遗漏值、重复数据。

如何处理缺失值?删除/估计缺失值/分析过程中忽略缺失值/用所有可能值(按概率加权)替换

非标准化数据:不同特征的值域差别过大。这会带来什么问题?

1,在计算不同样本之间的距离时,假如不标准化,可能造成对特征的重要程度估计的影响

2,忽略了真正的偏差

两类标准化方式:

1,Max-Min标准化。容易受极端值影响。

2,Z-score标准化。使用前提:高斯分布。

标准化是同类数据之间进行的。

值得一提的是基因/蛋白表达矩阵(行为样本,列为基因),需要去除batch的时候,是沿着列标准化,要对基因表达正则化则沿着行(有些基因天生表达差异大)

对于分类数据或非量化数据,可以用one-hot encoding。

总之,数据清洗分为以下几步:数据去噪,清除异常值,处理缺失值,删除重复,分类数据编码,数据标准化。先后顺序可能会影响最后结果。

相关推荐
说私域几秒前
基于开源AI智能名片链动2+1模式的S2B2C商城小程序:门店私域流量与视频号直播融合的生态创新研究
人工智能·小程序·开源
Ronin-Lotus3 分钟前
深度学习篇---Yolov系列
人工智能·深度学习
静心问道31 分钟前
GoT:超越思维链:语言模型中的有效思维图推理
人工智能·计算机视觉·语言模型
aneasystone本尊42 分钟前
学习 Claude Code 的工具使用(三)
人工智能
szxinmai主板定制专家43 分钟前
【精密测量】基于ARM+FPGA的多路光栅信号采集方案
服务器·arm开发·人工智能·嵌入式硬件·fpga开发
T__TIII1 小时前
Dify 自定义插件
人工智能·github
快起来别睡了1 小时前
LangChain 介绍及使用指南:从“会聊天”到“能干活”的 AI 应用开发工具
人工智能
AI数据皮皮侠1 小时前
中国区域10m空间分辨率楼高数据集(全国/分省/分市/免费数据)
大数据·人工智能·机器学习·分类·业界资讯
静心问道2 小时前
大语言模型能够理解并可以通过情绪刺激进行增强
人工智能·语言模型·大模型
运器1232 小时前
【一起来学AI大模型】算法核心:数组/哈希表/树/排序/动态规划(LeetCode精练)
开发语言·人工智能·python·算法·ai·散列表·ai编程