机器学习笔记1

1、机器学习算法分类

监督学习:

目标值:类别-分类问题

分类算法:K-近邻算法、贝叶斯分类、决策树和随机森林、逻辑回归

目标值:连续型的数据-回归问题

回归算法:线性回归、岭回归

无监督学习:

目标值:无-无监督学习

算法:聚类 K-means

2、机器学习开发流程

1)获取数据

2)数据处理

3)特征工程

4)机器学习算法训练-模型

5)模型评估

6)应用

3、特征工程-数据集

可用数据集:

1)sklearn自带的

2)kaggle

3)UCI

sklearn数据集

sklearn.datasets

load_*获取小规模数据集

1) sklearn.datasets.load_iris()#加载并返回ying尾花数据集

2) sklearn.datasets.load_boston()#加载返回波斯顿房价数据集

fetch_*获取大规模数据集

1) sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')

(subset参数:'train'是训练集,'test'是测试集,'all'是全部)

load和fetch返回的数据类型是datasets.base.Bunch(字典格式)

dict["key"]=values

bunch.key=values

数据集的划分

训练集和测试集。

相关推荐
新智元3 分钟前
全球 AI 视频大战升级!「中国版 Sora」Vidu Q2 参考生月底发布,能力对标 Sora 2
人工智能·openai
新智元16 分钟前
刚刚,Figure 03 惊天登场!四年狂造 10 万台,人类保姆集体失业
人工智能·openai
万猫学社19 分钟前
我们为什么需要Agent?
人工智能
不会调制解调的猫34 分钟前
笔记 | 内网服务器通过wifi穿透,设置流量走向
运维·服务器·笔记
共绩算力1 小时前
OpenAI Whisper 语音识别模型:技术与应用全面分析
人工智能·whisper·语音识别·共绩算力
工藤学编程1 小时前
零基础学AI大模型之Stream流式输出实战
人工智能
不良人龍木木1 小时前
机器学习-常用库
人工智能·机器学习
罗橙7号1 小时前
【pyTorch】关于PyTorch的高级索引机制理解
人工智能·pytorch·python
rengang662 小时前
09-随机森林:介绍集成学习中通过多决策树提升性能的算法
人工智能·算法·随机森林·机器学习·集成学习
程序员大雄学编程2 小时前
「机器学习笔记7」决策树学习:从理论到实践的全面解析(上)
笔记·决策树·机器学习