概况
首先,2.1开始和之前1.1有点不一样,他除了代码题之外,还需要你去填写清洗规范和标注规范的主观题,而这块主观题相较代码题其实是更加简单的,基本上背一下模板,然后根据问题内的材料进行相应的修改就可以了.
需要注意的是以下3点:
1.数据清洗规范,两分 ,答题时会给三空,建议全填满。
数据标注规范,三分,答题时会给三空,建议全填满。一般题目内会给两点,需要自己填一个通用的。
2.写规范时一般可以把题干中的要求转换成相应的标注规范,
比如题目中给出:正确加载数据集,并显示前五行数据和数据类型,
你就可以写第一点清洗规范:加载数据并显示前五行数据和数据类型
3.写规范时,别带业务!
比如别写,"清洗数据时,删除xx字段里的重复值",或者别写,"标注数据时,标注xx业务数据里的xx字段含义,把特征值选择为xx",这样就带业务了。规范是不带业务的。
标准模板
数据清洗规范(答对 2 点即可,看时间,时间允许建议写3点)
-
数据加载:使用 pandas 库加载数据集,检查数据的基本结构和类型。
-
检查缺失值:统计每列的缺失值数量,并删除包含缺失值的行以确保数据完整性。
-
转换与处理异常值: 将数值列转换为数值类型,并处理无法转换的值。
-
数据标准化: 对数值型数据进行标准化,以消除量纲影响,使用标准化方法。
-
保存清洗后的数据: 将经过清洗和处理后的数据保存为新的 CSV 文件,以便后续使用。
数据标注规范(答对 3 点即可)
-
数据来源:标注数据的来源,包括数据集的名称、获取日期和数据提供者。
-
数据描述:提供详细的数据描述,包括每列数据的含义、单位和可能的取值范围。
-
特征选择: 确定对目标变量预测最有用的特征。
-
目标变量设定。
-
数据划分: 将数据分为训练集和测试集,通常采用 80/20 的比例,以便于模型的训练和评估。
-
保存处理后的数据:保存处理后的数据,并记录保存文件的路径和文件名。
-
数据清洗和标注规范文档
代码部分
第一空最常见为加载数据集
直接联想pd.read_csv('文件名')或者别的文件类型比如excle就为pd.read_excle('文件名')
需要注意一点,如果文件类型为text这里并部署pd.read_txt('')这样会报错的,这里也填pd.read_csv('文件名')在2.1题型中不会遇到但是到3.2题型会遇到这个问题,提前先说明一下
第二空常见为打印前五行和打印数据类型
打印前五行为print(data.head())
打印数据结构为:print(data.info())
第三空常见为删除缺失值或统计缺失值行数
删除缺失行为:data.dropna()
统计缺失值行数为 data.isnull().sum()
删除重复值data.drop_duplicates()
第四空常见转换数据类型,将列改名,转换为int类型等
转换为数据类型为:pd.to_numeric()函数'
将列改名为data.rename(columns=['需改名列':'改名为什么'])函数
转换为int函数,使用astype(int)
第五空常见归一化
归一化想到fit_transform,格式一般为:data【'数据列'】=data.fit_transform(data【'数据列'】)
第六空常见划分数据集一般都会有from sklearn.model_selection import train_test_split
直接填train_test_split
常见格式为:train_data, test_data = train_test_split(data_filled, test_size=0.2, random_state=42)
X_train, X_test, y_train, y_test =train_test_split (X,y, random_state=42)
其中两题会有绘制图表
绘制饼图:数据源.plot.pie
绘制柱状图:数据源.plot
绘制散点图:plt.scatter
最后基本上就是保存数据
数据源.to_csv(文件名,index=False)
基本上就这些,有遗漏的欢迎补充