人工智能备考——2.1.1-2.1.5总结

概况

首先,2.1开始和之前1.1有点不一样,他除了代码题之外,还需要你去填写清洗规范和标注规范的主观题,而这块主观题相较代码题其实是更加简单的,基本上背一下模板,然后根据问题内的材料进行相应的修改就可以了.

需要注意的是以下3点:

1.数据清洗规范,两分 ,答题时会给三空,建议全填满。

数据标注规范,三分,答题时会给三空,建议全填满。一般题目内会给两点,需要自己填一个通用的。

2.写规范时一般可以把题干中的要求转换成相应的标注规范,

比如题目中给出:正确加载数据集,并显示前五行数据和数据类型,

你就可以写第一点清洗规范:加载数据并显示前五行数据和数据类型

3.写规范时,别带业务!

比如别写,"清洗数据时,删除xx字段里的重复值",或者别写,"标注数据时,标注xx业务数据里的xx字段含义,把特征值选择为xx",这样就带业务了。规范是不带业务的。

标准模板

数据清洗规范(答对 2 点即可,看时间,时间允许建议写3点)

  1. 数据加载:使用 pandas 库加载数据集,检查数据的基本结构和类型。

  2. 检查缺失值:统计每列的缺失值数量,并删除包含缺失值的行以确保数据完整性。

  3. 转换与处理异常值: 将数值列转换为数值类型,并处理无法转换的值。

  4. 数据标准化: 对数值型数据进行标准化,以消除量纲影响,使用标准化方法。

  5. 保存清洗后的数据: 将经过清洗和处理后的数据保存为新的 CSV 文件,以便后续使用。

数据标注规范(答对 3 点即可)

  1. 数据来源:标注数据的来源,包括数据集的名称、获取日期和数据提供者。

  2. 数据描述:提供详细的数据描述,包括每列数据的含义、单位和可能的取值范围。

  3. 特征选择: 确定对目标变量预测最有用的特征。

  4. 目标变量设定。

  5. 数据划分: 将数据分为训练集和测试集,通常采用 80/20 的比例,以便于模型的训练和评估。

  6. 保存处理后的数据:保存处理后的数据,并记录保存文件的路径和文件名。

  7. 数据清洗和标注规范文档

代码部分

第一空最常见为加载数据集

直接联想pd.read_csv('文件名')或者别的文件类型比如excle就为pd.read_excle('文件名')

需要注意一点,如果文件类型为text这里并部署pd.read_txt('')这样会报错的,这里也填pd.read_csv('文件名')在2.1题型中不会遇到但是到3.2题型会遇到这个问题,提前先说明一下

第二空常见为打印前五行和打印数据类型

打印前五行为print(data.head())

打印数据结构为:print(data.info())

第三空常见为删除缺失值或统计缺失值行数

删除缺失行为:data.dropna()

统计缺失值行数为 data.isnull().sum()

删除重复值data.drop_duplicates()

第四空常见转换数据类型,将列改名,转换为int类型等

转换为数据类型为:pd.to_numeric()函数'

将列改名为data.rename(columns=['需改名列':'改名为什么'])函数

转换为int函数,使用astype(int)

第五空常见归一化

归一化想到fit_transform,格式一般为:data【'数据列'】=data.fit_transform(data【'数据列'】)

第六空常见划分数据集一般都会有from sklearn.model_selection import train_test_split

直接填train_test_split

常见格式为:train_data, test_data = train_test_split(data_filled, test_size=0.2, random_state=42)

X_train, X_test, y_train, y_test =train_test_split (X,y, random_state=42)

其中两题会有绘制图表

绘制饼图:数据源.plot.pie

绘制柱状图:数据源.plot

绘制散点图:plt.scatter

最后基本上就是保存数据

数据源.to_csv(文件名,index=False)

基本上就这些,有遗漏的欢迎补充

相关推荐
QT 小鲜肉2 分钟前
【孙子兵法之中篇】009. 孙子兵法·行军篇
人工智能·笔记·读书·孙子兵法
铅笔侠_小龙虾4 分钟前
Vue 学习目录
前端·vue.js·学习
c#上位机7 分钟前
halcon计算区域骨架
图像处理·人工智能·计算机视觉·c#·halcon
LO嘉嘉VE8 分钟前
学习笔记二十五:支持向量机-核函数
笔记·学习·支持向量机
天一生水water12 分钟前
储层认知→技术落地→产量优化
人工智能·算法·机器学习
华清远见成都中心14 分钟前
人工智能的关键技术有哪些?
人工智能
绿蕉15 分钟前
智能底盘:汽车革命的“新基石”
大数据·人工智能
GAOJ_K16 分钟前
滚珠花键的使用时长与性能保持的量化关系
大数据·人工智能·科技·自动化·制造
天一生水water19 分钟前
页岩油生产流程案例
人工智能·智慧油田
Genevieve_xiao26 分钟前
【数据结构与算法】【xjtuse】面向考纲学习(下)
java·数据结构·学习·算法