机器学习笔记-01

一...AI（人工智能）

二.机器学习--是人工智能实现的途径

三.深度学习--是机器学习的一个方法

1.机器学习能做什么：
1.1 传统预测
1.2 图像识别
1.3 自然语言处理（nlp）

2.数据集包含：特征值 + 目标值

3.机器学习分为：监督学习、非监督学习、半监督学习

4.机器学习开发流程：
4.1 获取数据
4.2 处理数据
4.3 特征工程
4.4 算法模型-- 模型
4.5 模型评估
4.6 应用

基础书籍：机器学习 -"西瓜书"- 周志华统计学习方法 - 李航深度学习 - "花书"

5.数据集：

5.1.sklearn

sklearn.datasets
load_ * 获取小规模的数据集 sklearn.datasets.load_iris()
fetch_ * 获取大规模的数据集

sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')

数据集的返回值

datasets.base.Bunch（继承自字典）

dict $"key"$ = values

bunch.key = values

5.2.kaggle

5.3.UCI

5.4数据集的划分：

训练集：用于训练，构建模型

测试集：在模型检验时使用，用于评估模型是否有效，20%~30%

sklearn.model_selection.triain_test_split(arrays, *options)
训练集特征值，训练集目标值，测试集特征值，测试集目标值

x_train,x_test,y_train,y_test

6.特征的提取

sklearn.feature_extraction

6.1 字典特征提取 - 类别--》one-hot 编码

sklearn.feature_extraction.DictVectorizer(sparse=True,...)

矩阵 matrix 二维数组

向量 vector 一维数组

6.2 文本特征提取

单词作为特征

句子、短语、单词、字母

特征：特征词
方法1：CountVectorizer

统计每个样本特征词出现的个数

stop_words停用的

停用词表

关键词：在某一个类别的文章中，出现的次数很多，但是在其他类别的文章当中出现很少
方法2：TfidfVectorizer

TF-IDF - 重要程度

TF - 词频（term frequency，tf)

IDF - 逆向文档频率

6.3 特征预处理

无量纲化

归一化：会有异常值影响大小

标准化：(x - mean) / std

标准差：集中程度

应用场景：在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景。

特征降维
7.1降低维度
维数：嵌套的层数
0维标量
1维向量
2维矩阵
3维
n维
二维数组：
此处的降维：降低特征个数
效果：消除特征与特征之间的相关性

主成分分析(PCA)

sklearn.decomposition.PCA(n_components=None)

n_components

小数表示保留百分之多少的信息

整数减少到多少特征