
🌈个人主页: 十二月的猫-CSDN博客
🔥 系列专栏: 🏀数据处理与分析_十二月的猫的博客-CSDN博客
💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光
目录
[1. 前言](#1. 前言)
[2. 特征工程](#2. 特征工程)
[2.1 设计特征](#2.1 设计特征)
[2.1.1 独热表示特征](#2.1.1 独热表示特征)
[2.1.2 TF-IDF(词频-逆文档率)](#2.1.2 TF-IDF(词频-逆文档率))
[2.2 特征子集挑选](#2.2 特征子集挑选)
[2.3 特征子集评价](#2.3 特征子集评价)
[3. 数据探索性分析(建模分析)](#3. 数据探索性分析(建模分析))
[3.1 数据分布](#3.1 数据分布)
[3.2 参数估计](#3.2 参数估计)
[3.2.1 矩估计(替换估计)](#3.2.1 矩估计(替换估计))
[3.2.2 最小二乘估计(LSE)](#3.2.2 最小二乘估计(LSE))
[3.2.3 极大似然估计(MLE)](#3.2.3 极大似然估计(MLE))
[3.2.4 最大后验概率估计(MAP)](#3.2.4 最大后验概率估计(MAP))
[3.2.5 贝叶斯估计](#3.2.5 贝叶斯估计)
[3.3 假设检验](#3.3 假设检验)
[4. 抽样方法](#4. 抽样方法)
[5. 总结](#5. 总结)
1. 前言
【数据处理与分析】专栏主要专注于数据处理和数据分析。
专栏中的**【数据科学导论】部分是对整个大数据科学所有技术(包括数据处理、数据分析)的一个概论**,适用于想要快速入门大数据的友友们🥰🥰~~~
【数据科学导论】整体学习脉络:
- 数据科学导论------研究数据科学
- 数据科学------研究大数据处理
- 大数据处理过程------采集、表示与存储、预处理、建模分析、可视化、决策
- 大数据处理过程指导数据科学导论内容
在前面我们对数据进行采集、存储并且将数据进行了预处理。
预处理中包括:
数据清洗(噪声、填充、删除)
- 数据集成(冗余:无序数据冗余+有序数据冗余。无序数据冗余:皮尔逊相关系数、卡方检验;明氏距离、汉明距离;简单匹配相似度、jaccard相似度、余弦相似度。有序数据冗余:斯皮尔曼系数、NDCG。)
- 数据规约(PCA、特征子集选取)
- 数据变换(量纲处理:Z变换、最大最小值变、小数变换;离散处理:聚类、分箱、熵变换)
接下来,我们就正式建模分析部分,在建模分析中第一步就是特征提取(这里的特征处理和数据规约中的特征处理是不同的。数据规约中是固定的步骤,这里是要根据具体情况去提取特征,同时也可以是设计特征。)
2. 特征工程
**定义:**在机器学习中,特征工程占据核心地位,它涉及从原始数据中提取、选择并转换特征,旨在优化模型性能,使模型能够更精准地理解和预测数据。
目的: 从数据中选择/提取想要使用的部分,使得借助这些特征建立的数据模型能有更好的效果。
特征工程流程:
- 获取特征:提取特征、设计新的特征
- 选取特征子集
- 评估特征
- 上线测试
- 若没达到要求则循环1、2、3、4重新迭代
2.1 设计特征
2.1.1 独热表示特征
**独热特征表示:**将每个属性表示成一个很长的向量(每维代表一个属性值,如词语)
- 优点:直观,简洁
- 缺点:
- 维度灾难:当需要表示的属性非常多的时候,独热特征表示在空间和时间上的开销都是 十分巨大的
- 语义鸿沟:每个属性都是完全独立的,无法刻画属性间的联系

2.1.2 TF-IDF(词频-逆文档率)
- 词频:TF = 某个词(特征值)在句子(数据)中出现的频率
- 逆文档率:lg(语料库(数据库)的句子(数据)总数 / 包含该词(特征值)的句子(数据)总数)
- 应用:搜索引擎;关键词提取;文本相似性;文本摘要

例:假如一篇文件的总词语数是100个,而词语"母牛"出现了3次,那么"母牛"一词在该文件中的词 频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件 出现过"母牛"一词。所以,如果"母牛"一词在1,000份文件出现过,而文件总数是10,000,000份的话,其 逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。
特别地:当词语在所有文件中都没有出现时,IDF的分母要加1
2.2 特征子集挑选
机器学习和深度学习的区别:从手动特征提取到自动特征提取

- 全局最优搜索:穷举所有特征子集的可能性。
- 启发式搜索:根据问题的特征,增加一些限制条件,使得每一次搜索都能够向有希望的方向发展。
- 随机算法搜索:特征选择本质上是一个组合优化问题。求解这一类问题可以采用非全局最优目标方法,例如模拟退火、遗传算法等。

2.3 特征子集评价
- 过滤式:仅仅用一些固定的信息统计(距离度量、依赖性度量、一致性度量)来作为准则评价特征子集。

- 封装式:直接用分类器的性能作为评价标准,要求选出来的特征子集一定有最好的性能(结果体现)。比过滤式效果好但是泛化性差,开销大。
- 嵌入式:特征选择嵌入到整个模型中,算法模型和特征选择模型同时训练。主要类型有奖惩型和树模型。
3. 数据探索性分析(建模分析)
**定义:**指对已有的数据在尽量量少的先验假定情况下进行探索,逐步了解数据的特点。
**目的:**大数据有高价值、高时效、类型多样、价值密度低的特点。因此直接用大数据进行处理往往开销过大,因此可以现在小型数据集上做一个分析,从而对整体有一个基本的判断。
**作用:**利用人机交互技术和数据可视化技术,通过对数据的直观展示,引导分析人员发现并认识从前不知道的数据规律,对未知数据规律和特点进行探索。

3.1 数据分布
数据分布的特征分为三类:
- 描述数据集中程度(平均数、众数、分位数、中位数)
- 描述数据离散程度(方差、标准差、极差、四分位差、异众比率、变异系数)
- 描述数据分布形状(峰度、偏度)
3.2 参数估计
探索性分析就是要用小样本去估计大样本的情况。前面的数据分析是为后面做准备的,数据分析教会我们如何分析我们手中的数据------利用一些统计信息去分析我们手中的数据。
参数估计这一部分想要让我们知道如何利用手头的小样本数据去合理估计大样本数据的情况。
3.2.1 矩估计(替换估计)
**核心思想:**用样本的矩估计值替代总体的矩
**矩:**原点矩、中心矩
矩和数据统计:
- 一阶原点矩:均值
- 二阶中心矩:方差
- 三阶中心矩:偏度
- 四阶中心矩:峰度

3.2.2 最小二乘估计(LSE)
**最小:**取最小值
**二乘:**差的平方
举个例子🌰:

解答:

关键点:概率在广义上可以理解为个数
例如:白球概率0.4代表每次抽到白球的个数为0.4<1
3.2.3 极大似然估计(MLE)
定义: 利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值(用结果反推参数)
目标: 找到参数使得出现已知结果的可能性最大(最大化似然函数)

举个例子🌰:
解答:
再举个例子🌰(说明矩估计的合理性):

解答:
3.2.4 最大后验概率估计(MAP)
**选用原因:**前面的极大似然估计极度的相信小样本的数据,但是小样本数据不一定可靠。
因此最大后验概率估计(MAP)引入先验知识去减缓数据的影响,并且在数据量变大时先验知识会逐步失效,很符合我们的思路
为什么有MAP?

MAP是什么?

利用贝叶斯公式进行转换得到
举个例子🌰:
解答:
举个例子🌰(最大后验概率):

**先验知识:**是一种主观的东西,由人为自己根据检验去拟定
优点:
- 引入先验知识
- 在小数据量下更稳定
缺点:
- 和MLE一样,只返回参数的单值估计
- 当用不同的参数去表示同一分布时,MAP会对超参数很敏感
3.2.5 贝叶斯估计
为什么要做贝叶斯估计?

贝叶斯的MAP其考虑的参数也是从概率分布的角度,不是从返回单个值的角度

这里想说的是先验分布为beta分布,则后验分布也就是beta分布。
这种情况称为先验后验是共轭的
记住下面的:

点估计的数量型指标:
- 平均绝对误差(MAE)
- 均方误差(MSE)
- 均方根误差(RMSE)【最常用】
3.3 假设检验

4. 抽样方法
非概率抽样
- 抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分 单位对其实施调查
- 缺点:抽取样本有主观性,使结果有偏差 ;不可能计算各个元素的入样概率,无法得到可靠的估计 值及抽样误差估计值,不能推断总体
等概率抽样:
- 每一个单元的入样概率均相等;
- 常见的有:简单随机抽样,系统抽样,分层抽样,整群抽样等等
- 系统抽样 是在总样本数过多时,均分后在每一段中进行简单随机抽样
- 分层抽样 是根据某个特性进行分层,层间差距大,层内差距小,按比例抽取来满足等概率
- 整群抽样 是直接一次性抽取所需样本数,但需要满足群内差异大,群外差异小的特性
5. 总结
本文到这里就结束啦~~
目前已完成:大数据入门、数据表示与存储、数据预处理、建模分析
期待您的关注~~🥰🥰
猫猫陪你永远在路上💪💪
如果觉得对你有帮助,辛苦友友点个赞哦~
下一篇我们将进入 数据可视化 部分~~~
