1 基本概念
机器学习,分为 回归,分类,聚类,降维
有监督学习 回归,分类, 有特征,有标签,进行训练,然后对新数据进行预测
无监督学习 聚类,降维。
题目越多,训练越好,
2 基本流程
数据预处理------ 模型训练与评估
可以优化为 获取数据------数据预处理------EDA 分析------特征工程------模型训练------可解释性分析
2.0 数据获取
利用 kaggle, 天池 等平台的 开源 数据,
2.1 预处理
目的:
- 让数据更符合逻辑
- 让数据更容易计算
借助函数实现变换 or 运算
认识数据
常用 pandas 包,是 python 中一个强大的数据分析和处理库。
其可以
- 数据处理,对数据进行 清洗,转换,合并,分组等操作,处理缺失的和重复的数据。
- 数据读取和写入, 如 CSV 格式,excel, JSON, SQL 等
- 对数据进行时间序列分析,移动窗口统计等操作
** 部分常用 API **
import pandas as pd
读取数据
df = pd.read_csv('data.csv')
查看数据
df.head()
显示数据集形状. (几行几列)
df.shape
查看数据集信息。 (特征的种类和标签)
空值的数量
mean 均值
std 标准差
min 最小值
25% 第 25 百分位数
max 最大值
unique 唯一值数量
top 出现频率最高的值
freq 最高频率出现次数
显示数据集的统计特征,
df.decribe()
非