目录
1:AI,ML,DL概念以及关系
- AI:人工智能,让机器像人一样思考
- ML:机器学习,在数据中找规律,根据规律预测
- DL:类神经网络
- ML是实现AI的途径,DL是ML的子集
2:数据相关概念
1:术语
- 样本(sample) //行
- 特征(feature) //列
- 标签(tabel) //预测
2:数据结构
- 有结构:二维数组
- 无结构:音频,视频
- 半结构:xml,json
3:数据集划分
一般按(8:2)(7:3)划分
- 训练集
- 测试集
4:算法分类
1:有监督
有人工标签
其数据分为连续和不连续
1:数据连续,回归任务
用回归算法
2:数据不连续,分类任务
用分类算法
2:无监督
无人工标签
用聚类算法
3:半监督
部分人工标签
4:强化学习
尽可能获取多的奖励分数,重复学习
5:机器学习流程
- 准备数据
- 数据预处理
- 特征工程
- 模型训练
- 模型评估
- 部署上线
6:评估模型
1:拟合
- 过拟合:训练集表现好,测试集表现差
- 欠拟合,训练集和测试集表现都差
2:泛化
模型在新数据的表现能力
3:奥卡姆剃刀原则
在相同泛化能力情况下,选择简单模型
7:虚拟环境
python
conda env list #查看虚拟环境
conda create -n 环境名字 python = 版本号 #创建虚拟环境
conda activate 环境名 #启动环境
conda deactivate 环境名 #关闭环境
conda env remove -n环境名 #删除换进
然后安装包,pip install scikit-learn