人工智能训练师三级备考笔记

一般为以下结构：Data=pd.read_文件格式('文件名') 注意：文件名需要用' '框起来，必须要有引号

文件格式有以下内容csv、txt、xlsx、json、html、sql、parquet、sas、spss、stata、hdf5，替代文件格式的位置

使用.head()方法

head( n ) 方法用于读取前面的 n 行，如果不填参数 n ，默认返回 5 行。

使用句法：print（data.head(n)）如果要求返回5行数据，n可不填

使用.to_文件类型方法

例如data.to_csv('文件名.csv',index = False) 即将data中的数据保存到csv格式的文件文件名.csv文件中

使用drop或dropna语法

看到归一化，标准化，或scaler这些关键字，写如下格式的代码

scaler.fit_transform(data $numerical_features$ )

其中scaler是抄上文，fit_transform是固定用法，括号里的参数是被标准化的对象，抄前文。

看到将什么转换成数据类型时，迅速想到pandas.to_numeric(转换的数据)

类似以下格式

复制代码

df['horsepower'] = pd.to_numeric(df['horsepower'], errors='coerce')

这里我要转换的数据是加载的数据集df中的horsepower列注：多关注使用的符号例如\[\]和''

看到划分数据集想到train_test_split语法例如以下语句

复制代码

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)

这里定义了X为训练集，y为测试集，使用train_test_split语法划分，test_size=0.2代表测试集占比20%

如果出现训练模型等关键字，使用数据.fit（训练集，测试集）例如以下代码

复制代码

pipline.fit(X_train,y_train)

训练pipline数据，使用fit方法训练，训练数据为X_train,y_train

pickle.dump(model,文件名)

文件名为题目命名文件

model.predict(X_test)02

过拟合，欠拟合通用改进点；

1 清洗数据，清洗空值，重复值和异常值。

2 扩充训练样本数，增多训练次数

3 调整特征值，加入和目标值有关的字段，去掉和目标值无关的字段

4 对样本进行标准化处理（凑数）