人工智能备考——2.1.1-2.1.5总结

概况

首先,2.1开始和之前1.1有点不一样,他除了代码题之外,还需要你去填写清洗规范和标注规范的主观题,而这块主观题相较代码题其实是更加简单的,基本上背一下模板,然后根据问题内的材料进行相应的修改就可以了.

需要注意的是以下3点:

1.数据清洗规范,两分 ,答题时会给三空,建议全填满。

数据标注规范,三分,答题时会给三空,建议全填满。一般题目内会给两点,需要自己填一个通用的。

2.写规范时一般可以把题干中的要求转换成相应的标注规范,

比如题目中给出:正确加载数据集,并显示前五行数据和数据类型,

你就可以写第一点清洗规范:加载数据并显示前五行数据和数据类型

3.写规范时,别带业务!

比如别写,"清洗数据时,删除xx字段里的重复值",或者别写,"标注数据时,标注xx业务数据里的xx字段含义,把特征值选择为xx",这样就带业务了。规范是不带业务的。

标准模板

数据清洗规范(答对 2 点即可,看时间,时间允许建议写3点)

  1. 数据加载:使用 pandas 库加载数据集,检查数据的基本结构和类型。

  2. 检查缺失值:统计每列的缺失值数量,并删除包含缺失值的行以确保数据完整性。

  3. 转换与处理异常值: 将数值列转换为数值类型,并处理无法转换的值。

  4. 数据标准化: 对数值型数据进行标准化,以消除量纲影响,使用标准化方法。

  5. 保存清洗后的数据: 将经过清洗和处理后的数据保存为新的 CSV 文件,以便后续使用。

数据标注规范(答对 3 点即可)

  1. 数据来源:标注数据的来源,包括数据集的名称、获取日期和数据提供者。

  2. 数据描述:提供详细的数据描述,包括每列数据的含义、单位和可能的取值范围。

  3. 特征选择: 确定对目标变量预测最有用的特征。

  4. 目标变量设定。

  5. 数据划分: 将数据分为训练集和测试集,通常采用 80/20 的比例,以便于模型的训练和评估。

  6. 保存处理后的数据:保存处理后的数据,并记录保存文件的路径和文件名。

  7. 数据清洗和标注规范文档

代码部分

第一空最常见为加载数据集

直接联想pd.read_csv('文件名')或者别的文件类型比如excle就为pd.read_excle('文件名')

需要注意一点,如果文件类型为text这里并部署pd.read_txt('')这样会报错的,这里也填pd.read_csv('文件名')在2.1题型中不会遇到但是到3.2题型会遇到这个问题,提前先说明一下

第二空常见为打印前五行和打印数据类型

打印前五行为print(data.head())

打印数据结构为:print(data.info())

第三空常见为删除缺失值或统计缺失值行数

删除缺失行为:data.dropna()

统计缺失值行数为 data.isnull().sum()

删除重复值data.drop_duplicates()

第四空常见转换数据类型,将列改名,转换为int类型等

转换为数据类型为:pd.to_numeric()函数'

将列改名为data.rename(columns=['需改名列':'改名为什么'])函数

转换为int函数,使用astype(int)

第五空常见归一化

归一化想到fit_transform,格式一般为:data【'数据列'】=data.fit_transform(data【'数据列'】)

第六空常见划分数据集一般都会有from sklearn.model_selection import train_test_split

直接填train_test_split

常见格式为:train_data, test_data = train_test_split(data_filled, test_size=0.2, random_state=42)

X_train, X_test, y_train, y_test =train_test_split (X,y, random_state=42)

其中两题会有绘制图表

绘制饼图:数据源.plot.pie

绘制柱状图:数据源.plot

绘制散点图:plt.scatter

最后基本上就是保存数据

数据源.to_csv(文件名,index=False)

基本上就这些,有遗漏的欢迎补充

相关推荐
大龄程序员狗哥6 小时前
第47篇:使用Speech-to-Text API快速构建语音应用(操作教程)
人工智能
KKKlucifer6 小时前
数据安全合规自动化:策略落地、审计追溯与风险闭环技术解析
人工智能·安全
RWKV元始智能6 小时前
RWKV超并发项目教程,RWKV-LM训练提速40%
人工智能·rnn·深度学习·自然语言处理·开源
dyj0956 小时前
Dify - (一)、本地部署Dify+聊天助手/Agent
人工智能·docker·容器
墨染天姬6 小时前
【AI】Hermes的GEPA算法
人工智能·算法
小超同学你好6 小时前
OpenClaw 深度解析系列 · 第8篇:Learning & Adaptation(学习与自适应)
人工智能·语言模型·chatgpt
紫微AI6 小时前
前端文本测量成了卡死一切创新的最后瓶颈,pretext实现突破了
前端·人工智能·typescript
码途漫谈6 小时前
Easy-Vibe开发篇阅读笔记(四)——前端开发之结合 Agent Skills 美化界面
人工智能·笔记·ai·开源·ai编程
易连EDI—EasyLink6 小时前
易连EDI–EasyLink实现OCR智能数据采集
网络·人工智能·安全·汽车·ocr·edi
冬奇Lab7 小时前
RAG 系列(二):用 LangChain 搭建你的第一个 RAG Pipeline
人工智能·langchain·llm