人工智能备考——2.1.1-2.1.5总结

概况

首先,2.1开始和之前1.1有点不一样,他除了代码题之外,还需要你去填写清洗规范和标注规范的主观题,而这块主观题相较代码题其实是更加简单的,基本上背一下模板,然后根据问题内的材料进行相应的修改就可以了.

需要注意的是以下3点:

1.数据清洗规范,两分 ,答题时会给三空,建议全填满。

数据标注规范,三分,答题时会给三空,建议全填满。一般题目内会给两点,需要自己填一个通用的。

2.写规范时一般可以把题干中的要求转换成相应的标注规范,

比如题目中给出:正确加载数据集,并显示前五行数据和数据类型,

你就可以写第一点清洗规范:加载数据并显示前五行数据和数据类型

3.写规范时,别带业务!

比如别写,"清洗数据时,删除xx字段里的重复值",或者别写,"标注数据时,标注xx业务数据里的xx字段含义,把特征值选择为xx",这样就带业务了。规范是不带业务的。

标准模板

数据清洗规范(答对 2 点即可,看时间,时间允许建议写3点)

  1. 数据加载:使用 pandas 库加载数据集,检查数据的基本结构和类型。

  2. 检查缺失值:统计每列的缺失值数量,并删除包含缺失值的行以确保数据完整性。

  3. 转换与处理异常值: 将数值列转换为数值类型,并处理无法转换的值。

  4. 数据标准化: 对数值型数据进行标准化,以消除量纲影响,使用标准化方法。

  5. 保存清洗后的数据: 将经过清洗和处理后的数据保存为新的 CSV 文件,以便后续使用。

数据标注规范(答对 3 点即可)

  1. 数据来源:标注数据的来源,包括数据集的名称、获取日期和数据提供者。

  2. 数据描述:提供详细的数据描述,包括每列数据的含义、单位和可能的取值范围。

  3. 特征选择: 确定对目标变量预测最有用的特征。

  4. 目标变量设定。

  5. 数据划分: 将数据分为训练集和测试集,通常采用 80/20 的比例,以便于模型的训练和评估。

  6. 保存处理后的数据:保存处理后的数据,并记录保存文件的路径和文件名。

  7. 数据清洗和标注规范文档

代码部分

第一空最常见为加载数据集

直接联想pd.read_csv('文件名')或者别的文件类型比如excle就为pd.read_excle('文件名')

需要注意一点,如果文件类型为text这里并部署pd.read_txt('')这样会报错的,这里也填pd.read_csv('文件名')在2.1题型中不会遇到但是到3.2题型会遇到这个问题,提前先说明一下

第二空常见为打印前五行和打印数据类型

打印前五行为print(data.head())

打印数据结构为:print(data.info())

第三空常见为删除缺失值或统计缺失值行数

删除缺失行为:data.dropna()

统计缺失值行数为 data.isnull().sum()

删除重复值data.drop_duplicates()

第四空常见转换数据类型,将列改名,转换为int类型等

转换为数据类型为:pd.to_numeric()函数'

将列改名为data.rename(columns=['需改名列':'改名为什么'])函数

转换为int函数,使用astype(int)

第五空常见归一化

归一化想到fit_transform,格式一般为:data【'数据列'】=data.fit_transform(data【'数据列'】)

第六空常见划分数据集一般都会有from sklearn.model_selection import train_test_split

直接填train_test_split

常见格式为:train_data, test_data = train_test_split(data_filled, test_size=0.2, random_state=42)

X_train, X_test, y_train, y_test =train_test_split (X,y, random_state=42)

其中两题会有绘制图表

绘制饼图:数据源.plot.pie

绘制柱状图:数据源.plot

绘制散点图:plt.scatter

最后基本上就是保存数据

数据源.to_csv(文件名,index=False)

基本上就这些,有遗漏的欢迎补充

相关推荐
晨非辰26 分钟前
【数据结构】排序详解:从快速排序分区逻辑,到携手冒泡排序的算法效率深度评测
运维·数据结构·c++·人工智能·后端·深度学习·排序算法
能来帮帮蒟蒻吗34 分钟前
深度学习(4)—— Pytorch快速上手!从零搭建神经网络
人工智能·pytorch·深度学习
Blossom.11840 分钟前
大模型知识蒸馏实战:从Qwen-72B到Qwen-7B的压缩艺术
大数据·人工智能·python·深度学习·算法·机器学习·pygame
AA陈超42 分钟前
ASC学习笔记0012:查找现有的属性集,如果不存在则断言
笔记·学习
pingao1413781 小时前
零启动风速+多参数集成:金属超声波传感器的技术突破
人工智能·科技
wshzd1 小时前
LLM之Agent(二十八)|AI音视频转笔记方法揭秘
人工智能·笔记
IT_陈寒1 小时前
Python 3.12新特性实战:5个让你的代码效率翻倍的隐藏技巧!
前端·人工智能·后端
7***53341 小时前
免费的云原生学习资源,K8s+Docker
学习·云原生·kubernetes
The_Second_Coming1 小时前
Python 学习笔记:基础篇
运维·笔记·python·学习