机器学习（二） -- 数据预处理

系列文章目录

未完待续......

系列文章目录

前言

一、数值分析简介

二、内容

前言

tips：这里只是总结，不是教程哈。

此处以下所有内容均为暂定，因为我还没找到一个好的，让小白（我自己）也能容易理解（更系统、嗯应该是宏观）的讲解顺序与方式。

第一文主要简述了一下机器学习大致有哪些东西（当然远远不止这些），对大体框架有了一定了解。接着我们根据机器学习的流程一步步来学习吧，掐掉其他不太用得上我们的步骤，精练起来就4步（数据预处理，特征工程，训练模型，模型评估），其中训练模型则是我们的重头戏，基本上所有算法也都是这一步，so，这个最后写，先把其他三个讲了，然后，在结合这三步来进行算法的学习，兴许会好点（个人拙见）。

一、概述

还是先拿出咱们的老朋友，机器学习的流程图。

咱们这主要将数据预处理，而要进行机器学习首先需要数据，然后才能对数据进行预处理。

实际一点讲：数据清理、数据集成、数据变换、数据规约都是数据预处理的主要步骤，但是这四个没有严格意义上的先后顺序，在实际应用时并非全部会被使用（可能一个也不用，比如后面我们直接调用官方的iris包，但在实际自己获得的数据集中就会有各种各样的问题，视情况而定）

二、数据获取

获取数据途径多种多样，（括号内为废话：按理来讲，当今世界数据就是财富，一般而言别人的数据是不可能透露给你的，如果你和我一样还是个学生，可能可以从老师那里拿到数据），我们学习一般使用的是公开的数据集，如下为sklearn数据集

（iris为例）

python 复制代码

from sklearn.datasets import load_iris
data = load_iris()

这样就获取到一个数据集了，但是我们还不知道这个数据集的其他性质，所以

python 复制代码

print(data.DESCR)    #

三、【数据清洗】

四、【数据集成】

获取数据途径多种多样

五、【数据变换】

获取数据途径多种多样

六、【数据归约】

获取数据途径多种多样

七、数据拆分

数据拆分：机器学习的数据集划分一般分为两个部分：

训练数据：用于训练，构建模型。一般占70%-80%（数据量越大，取得比例最好越大）

测试数据：用于模型评估，检验模型是否有效。一般占20%-30%

1、近似值

该处使用的url网络请求的数据。

2、内容

该处使用的url网络请求的数据。

3、思维方式

该处使用的url网络请求的数据。

4、根本课题

该处使用的url网络请求的数据。

1.1、嗡嗡嗡

嗡嗡嗡

1.2、十五万

嗡嗡嗡