定义及作用:
- 无监督学习 是通过试图学习或提取数据背后的数据特征,或者从数据中抽取出重要的特征信息,常见的算法有**类聚、降维、文本处理(特征抽取)**等。
- 无监督学习 一般是作为有监督学习的前期数据处理 ,功能是从原始数据中抽取必要的标签信息。
- 半监督学习(SSL): 利用少量标注样本 和大量的未标注样本进行训练。
- **强化学习:**通过激励学习
机器学习、人工智能和深度学习的关系
- 深度学习是机器学习的子类;
- 深度学习是基于传统的神经网络算法发展到多隐层的一种算法体现;
- 机器学习又是人工智能的一个子类。
机器学习开发流程
- 数据收集
- 数据预处理
- 特征提取
- 模型构建
- 模型测试评估
- 投入使用(模型部署与整合)
- 迭代优化
- 注意数据的脱敏性
数据清洗和转换
- 对数据进行初步的预处理,转换为适合的格式,一般为:向量或者矩阵
常用的方法
- 将类别数据编码转变为对应的数值表示(一般使用1-of-k\哑编码方法(one-hot))
- 从文本数据中提取有用的数据(一般使用词袋法或者TF-IDF)
- 处理图像或者音频数据(傅里叶变换)
- 对特征数据进行正则化、标准化,以保证格式、单位一致
- 对数与指数之间的转换
- 将现有变量进行组合或转换以生成新的特征。