【数据科学导论】第四章·特征工程与探索性分析

🌈个人主页： 十二月的猫-CSDN博客

🔥 系列专栏： 🏀数据处理与分析_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光

[1. 前言](#1. 前言)

[2. 特征工程](#2. 特征工程)

[2.1 设计特征](#2.1 设计特征)

[2.1.1 独热表示特征](#2.1.1 独热表示特征)

[2.1.2 TF-IDF（词频-逆文档率）](#2.1.2 TF-IDF（词频-逆文档率）)

[2.2 特征子集挑选](#2.2 特征子集挑选)

[2.3 特征子集评价](#2.3 特征子集评价)

[3. 数据探索性分析（建模分析）](#3. 数据探索性分析（建模分析）)

[3.1 数据分布](#3.1 数据分布)

[3.2 参数估计](#3.2 参数估计)

[3.2.1 矩估计（替换估计）](#3.2.1 矩估计（替换估计）)

[3.2.2 最小二乘估计（LSE）](#3.2.2 最小二乘估计（LSE）)

[3.2.3 极大似然估计（MLE）](#3.2.3 极大似然估计（MLE）)

编辑

[3.2.4 最大后验概率估计（MAP）](#3.2.4 最大后验概率估计（MAP）)

[3.2.5 贝叶斯估计](#3.2.5 贝叶斯估计)

[3.3 假设检验](#3.3 假设检验)

[4. 抽样方法](#4. 抽样方法)

[5. 总结](#5. 总结)

1. 前言

【数据处理与分析】专栏主要专注于数据处理和数据分析。

专栏中的**【数据科学导论】部分是对整个大数据科学所有技术（包括数据处理、数据分析）的一个概论**，适用于想要快速入门大数据的友友们🥰🥰~~~

【数据科学导论】整体学习脉络：

数据科学导论------研究数据科学

数据科学------研究大数据处理

大数据处理过程------采集、表示与存储、预处理、建模分析、可视化、决策

大数据处理过程指导数据科学导论内容

在前面我们对数据进行采集、存储并且将数据进行了预处理。

预处理中包括：

数据清洗（噪声、填充、删除）

数据集成（冗余：无序数据冗余+有序数据冗余。无序数据冗余：皮尔逊相关系数、卡方检验；明氏距离、汉明距离；简单匹配相似度、jaccard相似度、余弦相似度。有序数据冗余：斯皮尔曼系数、NDCG。）
数据规约（PCA、特征子集选取）
数据变换（量纲处理：Z变换、最大最小值变、小数变换；离散处理：聚类、分箱、熵变换）

接下来，我们就正式建模分析部分，在建模分析中第一步就是特征提取（这里的特征处理和数据规约中的特征处理是不同的。数据规约中是固定的步骤，这里是要根据具体情况去提取特征，同时也可以是设计特征。）

2. 特征工程

**定义：**在机器学习中，特征工程占据核心地位，它涉及从原始数据中提取、选择并转换特征，旨在优化模型性能，使模型能够更精准地理解和预测数据。

目的： 从数据中选择/提取想要使用的部分，使得借助这些特征建立的数据模型能有更好的效果。

特征工程流程：

获取特征：提取特征、设计新的特征

选取特征子集

评估特征

上线测试

若没达到要求则循环1、2、3、4重新迭代

2.1 设计特征

2.1.1 独热表示特征

**独热特征表示：**将每个属性表示成一个很长的向量（每维代表一个属性值，如词语）

优点：直观，简洁
缺点：
- 维度灾难：当需要表示的属性非常多的时候，独热特征表示在空间和时间上的开销都是十分巨大的
- 语义鸿沟：每个属性都是完全独立的，无法刻画属性间的联系

2.1.2 TF-IDF（词频-逆文档率）

词频：TF = 某个词(特征值)在句子(数据)中出现的频率
逆文档率：lg(语料库(数据库)的句子(数据)总数 / 包含该词(特征值)的句子(数据)总数)
应用：搜索引擎；关键词提取；文本相似性；文本摘要

例：假如一篇文件的总词语数是100个，而词语"母牛"出现了3次，那么"母牛"一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过"母牛"一词。所以，如果"母牛"一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。