人工智能备考——2.1.1-2.1.5总结

首先，2.1开始和之前1.1有点不一样，他除了代码题之外，还需要你去填写清洗规范和标注规范的主观题，而这块主观题相较代码题其实是更加简单的，基本上背一下模板，然后根据问题内的材料进行相应的修改就可以了.

需要注意的是以下3点：

1.数据清洗规范，两分，答题时会给三空，建议全填满。

数据标注规范，三分，答题时会给三空，建议全填满。一般题目内会给两点，需要自己填一个通用的。

2.写规范时一般可以把题干中的要求转换成相应的标注规范，

比如题目中给出：正确加载数据集，并显示前五行数据和数据类型，

你就可以写第一点清洗规范：加载数据并显示前五行数据和数据类型

3.写规范时，别带业务！

比如别写，"清洗数据时，删除xx字段里的重复值"，或者别写，"标注数据时，标注xx业务数据里的xx字段含义，把特征值选择为xx"，这样就带业务了。规范是不带业务的。

数据清洗规范（答对 2 点即可，看时间，时间允许建议写3点）

数据标注规范（答对 3 点即可）

直接联想pd.read_csv（'文件名'）或者别的文件类型比如excle就为pd.read_excle('文件名')

需要注意一点，如果文件类型为text这里并部署pd.read_txt('')这样会报错的，这里也填pd.read_csv（'文件名'）在2.1题型中不会遇到但是到3.2题型会遇到这个问题，提前先说明一下

打印前五行为print（data.head（））

打印数据结构为：print（data.info()）

删除缺失行为：data.dropna()

统计缺失值行数为 data.isnull().sum()

删除重复值data.drop_duplicates()

转换为数据类型为：pd.to_numeric()函数'

将列改名为data.rename（columns=['需改名列'：'改名为什么']）函数

转换为int函数，使用astype（int）

归一化想到fit_transform,格式一般为：data【'数据列'】=data.fit_transform(data【'数据列'】)

直接填train_test_split

常见格式为：train_data, test_data = train_test_split(data_filled, test_size=0.2, random_state=42)

X_train, X_test, y_train, y_test =train_test_split (X,y, random_state=42)

绘制饼图：数据源.plot.pie

绘制柱状图：数据源.plot

绘制散点图：plt.scatter

数据源.to_csv(文件名，index=False)

基本上就这些，有遗漏的欢迎补充