机器学习笔记1

从白天到早上2023-09-24 10:52

1、机器学习算法分类

监督学习：

目标值：类别-分类问题

分类算法：K-近邻算法、贝叶斯分类、决策树和随机森林、逻辑回归

目标值：连续型的数据-回归问题

回归算法：线性回归、岭回归

无监督学习：

目标值：无-无监督学习

算法：聚类 K-means

2、机器学习开发流程

1）获取数据

2）数据处理

3）特征工程

4）机器学习算法训练-模型

5）模型评估

6）应用

3、特征工程-数据集

可用数据集：

1）sklearn自带的

2）kaggle

3）UCI

sklearn数据集

sklearn.datasets

load_*获取小规模数据集

1） sklearn.datasets.load_iris()#加载并返回ying尾花数据集

2） sklearn.datasets.load_boston()#加载返回波斯顿房价数据集

fetch_*获取大规模数据集

1） sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')

(subset参数：'train'是训练集，'test'是测试集，'all'是全部)

load和fetch返回的数据类型是datasets.base.Bunch(字典格式)

dict $"key"$ =values

bunch.key=values

数据集的划分

训练集和测试集。