1、机器学习算法分类
监督学习:
目标值:类别-分类问题
分类算法:K-近邻算法、贝叶斯分类、决策树和随机森林、逻辑回归
目标值:连续型的数据-回归问题
回归算法:线性回归、岭回归
无监督学习:
目标值:无-无监督学习
算法:聚类 K-means
2、机器学习开发流程
1)获取数据
2)数据处理
3)特征工程
4)机器学习算法训练-模型
5)模型评估
6)应用
3、特征工程-数据集
可用数据集:
1)sklearn自带的
2)kaggle
3)UCI
sklearn数据集
sklearn.datasets
load_*获取小规模数据集
1) sklearn.datasets.load_iris()#加载并返回ying尾花数据集
2) sklearn.datasets.load_boston()#加载返回波斯顿房价数据集
fetch_*获取大规模数据集
1) sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')
(subset参数:'train'是训练集,'test'是测试集,'all'是全部)
load和fetch返回的数据类型是datasets.base.Bunch(字典格式)
dict["key"]=values
bunch.key=values
数据集的划分
训练集和测试集。